java中文分词算法-支持用户词典扩展定义针对Lucene全文检索优化的查询分析器IKQueryParser
1、IKAnalyzer
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
IKAnalyzer3.0特性:
采用了特有的“正向迭代最细粒度切分算法“java中文分词算法,具有60万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
授权协议:LGPL
开发语言:Java
操作系统:跨平台
收录时间:2008年12月03日 (国产软件)
下载: 或
2、盘古分词
盘古分词是一个基于 .net framework 的中英文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口。
高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。
功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。
授权协议:Apache
开发语言:C#.NET
操作系统:Windows
收录时间:2010年12月29日
下载: 或:
3、Paoding
庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒可准确分词100万汉字。
采用基于不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
授权协议:Apache
开发语言:Java
操作系统:跨平台
收录时间:2008年09月07日 (国产软件)
下载: 或
4、FreeICTCLAS
中科院ICTCLAS最新free开放源代码java中文分词算法,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦
授权协议:未知
开发语言:C/C++
操作系统:Windows
收录时间:2010年10月20日 (国产软件)
下载:
5、LibMMSeg
LibMMSeg 是Coreseek.com为Sphinx全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法。
您可以在Chih-Hao Tsai's Technology Page找到算法的原文。
LibMMSeg 采用C++开发,同时支持Linux平台和Windows平台,切分速度大约在300K/s(PM-1.2G),截至当前版本(0.7.1)LibMMSeg没有为速度仔细优化过,进一步的提升切分速度应仍有空间。
授权协议:未知
开发语言:C/C++
操作系统:跨平台
收录时间:2009年05月31日 (国产软件)
下载 : MMSeg 0.7.3
6、PHPCWS
PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为HTTPCWS,此项目不再继续维护。
PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命 名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度 98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。
授权协议:BSD
开发语言:PHP
操作系统:跨平台
收录时间:2009年03月19日 (国产软件)
下载: