java中文分词算法-支持用户词典扩展定义针对Lucene全文检索优化的查询分析器IKQueryParser

发布时间：2023-07-13 11:05 浏览次数：次作者：佚名

1、IKAnalyzer

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。

IKAnalyzer3.0特性:

采用了特有的“正向迭代最细粒度切分算法“java中文分词算法，具有60万字/秒的高速处理能力。

采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。

优化的词典存储，更小的内存占用。支持用户词典扩展定义

针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐)；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率。

授权协议：LGPL

开发语言：Java

操作系统：跨平台

收录时间：2008年12月03日（国产软件）

java中文分词算法_中文分词算法代码_最好用的java中文分词器

下载：或

2、盘古分词

盘古分词是一个基于 .net framework 的中英文分词组件，提供lucene(.net 版本) 和HubbleDotNet的接口。

高效：Core Duo 1.8 GHz 下单线程分词速度为 390K 字符每秒

准确：盘古分词采用字典和统计结合的分词算法，分词准确率较高。

功能：盘古分词提供中文人名识别，简繁混合分词，多元分词，英文词根化，强制一元分词，词频优先分词，停用词过滤，英文专名提取等一系列功能。

授权协议：Apache

开发语言：C#.NET

操作系统：Windows

中文分词算法代码_java中文分词算法_最好用的java中文分词器

收录时间：2010年12月29日

下载：或：

3、Paoding

庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极高效率和高扩展性。引入隐喻，采用完全的面向对象设计，构思先进。

高效率：在PIII 1G内存个人机器上，1秒可准确分词100万汉字。

采用基于不限制个数的词典文件对文章进行有效切分，使能够将对词汇分类定义。

能够对未知的词汇进行合理解析

授权协议：Apache

java中文分词算法_最好用的java中文分词器_中文分词算法代码

开发语言：Java

操作系统：跨平台

收录时间：2008年09月07日（国产软件）

下载：或

4、FreeICTCLAS

中科院ICTCLAS最新free开放源代码java中文分词算法，里面有中文分词算法，大家一起共同学习和研究，对搜索引擎中文分词方面有很大用处哦

授权协议：未知

开发语言：C/C++

操作系统：Windows

最好用的java中文分词器_java中文分词算法_中文分词算法代码

收录时间：2010年10月20日（国产软件）

下载：

5、LibMMSeg

LibMMSeg 是Coreseek.com为Sphinx全文搜索引擎设计的中文分词软件包，其在GPL协议下发行的中文分词法，采用Chih-Hao Tsai的MMSEG算法。

您可以在Chih-Hao Tsai's Technology Page找到算法的原文。

LibMMSeg 采用C++开发，同时支持Linux平台和Windows平台，切分速度大约在300K/s（PM-1.2G），截至当前版本（0.7.1）LibMMSeg没有为速度仔细优化过，进一步的提升切分速度应仍有空间。

授权协议：未知

开发语言：C/C++

操作系统：跨平台

中文分词算法代码_java中文分词算法_最好用的java中文分词器

收录时间：2009年05月31日（国产软件）

下载： MMSeg 0.7.3

6、PHPCWS

PHPCWS 是一款开源的PHP中文分词扩展，目前仅支持Linux/Unix系统，该项目现在已改名为HTTPCWS，此项目不再继续维护。

PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理，再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理，并增加标点符号过滤功能，得出分词结果。

ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）是中国科学院计算技术研究所在多年研究工作积累的基础上，基于多层隐马模型研制出的汉语词法分析系统，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。ICTCLAS经过五年精心打造，内核升级6次，目前已经升级到了ICTCLAS3.0，分词精度 98.45%，各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名，是当前世界上最好的汉语词法分析器。

授权协议：BSD

开发语言：PHP

操作系统：跨平台

收录时间：2009年03月19日（国产软件）

下载：

java权限管理框架-Java开发者的持久化框架：臭不要脸地写了这篇文章

java中文分词算法-最大匹配法分词的缺陷及解决办法！