[lucene] 关于IKAnalyzer分词器问题.
pjw0221
2010-03-12
我用的是3.1.6的版本
我看了下他的源码,和3.2.0的比较了一下,3.2.0多了个停用词词库。 在IKAnalyzer.cfg.xml 的配置文件中 <entry key="ext_dict">/mydict.dic</entry> <entry key="ext_stopwords">/ext_stopword.dic</entry> 在ext_stopword.dic文件中 可以添加停用词, 这个可以用, 但是在 mydict.dic文件中添加词 却不好使。 比如 我想在一大片文章中 将 某人的人名 分出来,我就在该文件中加入了人名,但是怎么也不好使,这是什么情况呢? |
|
pjw0221
2010-03-13
自己解决了,方法就是在mydict.dic文档的开头空一行。
|
|
TonyLian
2010-03-17
空一行可能不是问题的根源,估计你的文件格式,不是“无BOM的UTF-8”
可能是带BOM的,IK的说明里明确要求,字典文件是“无BOM的UTF-8” |