原创作者: iilucene   阅读:2369次   评论:1条   更新时间:2011-05-26    
ShuzhenAnalyzer是一款用java写的基于字典的中文分词器,可与Lucene一起使用构建搜索引擎系统,目前最新版本是1.1.4.

1、这款分词器可说很好的结合了字典条目数量与分词速度两者,字典条目数量在趋于无穷的情况下,分词速度受的影响却很小;彻底杜绝了因为字典条目数量而导致的内存溢出问题。

2、分词采用完全匹配(自命名)方式,也就是只要是符合字典系统中条目的就全部匹配出来,比如对“中华人民共和国”的分词,结果为:
中华 中华人民 中华人民共和国 华人 人民 人民共和国 共和 共和国

3、另外也可以很方便地对字典系统进行管理;

4、也提供对搜索词进行处理的功能,可以很容易实现类似google那种相关搜索的功能;

5、分词采用了标准分法,这种做法避免了Google搜索对命中高亮显示的BUG,可以很好与高亮显示组件如HighLighter一起使用

等等。。。。

更详细的介绍如测试数据分析以及下载等等可以参见其官方网站:http://www.shuzhen.net

网站可能打不开了,下载请参见:

for jdk1.5.0 :http://www.blogjava.net/Files/bbmonkey62/ShuzhenAnalyzer-1.1.4-jdk1.5.0.rar
for jdk1.6.0 :http://www.blogjava.net/Files/bbmonkey62/ShuzhenAnalyzer-1.1.4-jdk1.6.0.rar

希望能对朋友们构建自己的搜索引擎系统有帮助

评论 共 1 条 请登录后发表评论
1 楼 onlydo 2009-05-03 22:05
哥们,都打不开。

发表评论

您还没有登录,请您登录后再发表评论

文章信息

Global site tag (gtag.js) - Google Analytics