[lucene] lucene中文分词器选择、迷惑中

printfabcd 2011-04-05
最近在弄一个网搜索功能,想用lucene实现,可是看到了很多中文分词器,像庖丁、中科院的、IKAnalyzer ,想问一下,这几个有什么区别,都试用于什么情况
muxiaolin 2011-04-06
庖丁没有用过, 中科院的应该是基于语义的,应该是利用隐马尔可夫模型,比如一句话,他会根据规则,动词,名词,用这些词性确定怎么来划分,IKAnalyzer是最细粒度分词(正向最大匹配)


庖丁、IK是完全基于词库的 ,  他们的区别也就是对于歧义词的判断。ik最细粒度的切分(切词切的更细),会让你的搜索命中率提高,同时也会搜索出来一些不相关的词。

中科院是基于词库+词性的,这个基本不推荐用了,分出来的词看起来很美,但是中看不中用(很久以前测试的,不知道现在怎么样)

具体的还是看你应用的领域,CJK这样的二元切分或者单字切分,没准也会适合你。
Global site tag (gtag.js) - Google Analytics