[lucene] lucene中文分词器选择、迷惑中
printfabcd
2011-04-05
最近在弄一个网搜索功能,想用lucene实现,可是看到了很多中文分词器,像庖丁、中科院的、IKAnalyzer ,想问一下,这几个有什么区别,都试用于什么情况
|
|
muxiaolin
2011-04-06
庖丁没有用过, 中科院的应该是基于语义的,应该是利用隐马尔可夫模型,比如一句话,他会根据规则,动词,名词,用这些词性确定怎么来划分,IKAnalyzer是最细粒度分词(正向最大匹配)
庖丁、IK是完全基于词库的 , 他们的区别也就是对于歧义词的判断。ik最细粒度的切分(切词切的更细),会让你的搜索命中率提高,同时也会搜索出来一些不相关的词。 中科院是基于词库+词性的,这个基本不推荐用了,分出来的词看起来很美,但是中看不中用(很久以前测试的,不知道现在怎么样) 具体的还是看你应用的领域,CJK这样的二元切分或者单字切分,没准也会适合你。 |