基于词典的最大匹配的Lucene中文分词程序 - lucene爱好者

群组首页 → 企业架构 → lucene爱好者 → 知识库 → 基于词典的最大匹配的Lucene中文分词程序

原创作者: billgmh 阅读:2884次评论:0条更新时间:2011-05-26

把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式：简单顺序存储SimpleDictionary，首字Hash词典HashDictionary，双重Hash词典；例外实现了两种分词算法：正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment；最后使用使只需根据需要配置spring的配置文件即可选择词典的组织方式与分词算法组装成为分词程序。

运行所需：spring-core.jar lucene-core.jar

希望大家能试用一下我的分词程序，指出我设计的不足，共同学习。

接下来的目标：完成1、寻找更优的词典组织 2、统计识别未登录词 3、人名识别 4、歧义消除

Lucene Hack之通过缩小搜索结果集来提升性 ... | 自己写的一个基于词库的lucene分词程序--Th ...

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

文章信息

知识库: lucene爱好者

由lighter在2007-03-11创建
由lighter在2011-05-26更新