IKanalyzer的过滤停止词怎么用
87271833
2010-02-08
我现在不是做的WEB程序 而是在eclipse里面的java项目 引用了IK的包 那个ext_stopword.dic是过滤停止词用的吧 增加几个词测试好像没效果 具体应该怎么操作?ext_stopword.dic应该放哪里?应该是在bin下吧?
|
|
widhor
2010-02-08
这个我用过,好使,有个IKAnalyzer.cfg.xml,ext_stopwords就配在那里
|
|
87271833
2010-02-08
widhor 写道 这个我用过,好使,有个IKAnalyzer.cfg.xml,ext_stopwords就配在那里
能不能说具体点 IKAnalyzer.cfg.xml,ext_stopwords 放哪个文件夹?我现在是在eclipse里做的java程序 这两个文件是放在bin里吗 ?为什么我在ext_stopwords 里添加了要过滤的词 还是可以搜出来呢 ?能不能说详细点 !谢谢 |
|
TonyLian
2010-02-08
IKAnalyzer.cfg.xml 放在 src/ 会被编译到 /classes/
ext_stopwords.dic 随意,只有在IKAnalyzer.cfg.xml中指定的目录。 例如,IKAnalyzer.cfg.xml写 /ext_stopwords.dic 那么ext_stopwords.dic就也放到src/ |
|
87271833
2010-02-08
TonyLian 写道 IKAnalyzer.cfg.xml 放在 src/ 会被编译到 /classes/
ext_stopwords.dic 随意,只有在IKAnalyzer.cfg.xml中指定的目录。 例如,IKAnalyzer.cfg.xml写 /ext_stopwords.dic 那么ext_stopwords.dic就也放到src/ 我就是这么用的 在src里放入IKAnalyzer.cfg.xml 和ext_stopwords.dic 然后我测试的时候在ext_stopwords.dic 里插入了'色啊情"这个词组 然后搜索还是能搜索出来 这是怎么回事呢? |
|
kexzcle
2010-02-09
这个是IK作者09年7月说的:
解释一下,IK3.0为啥不对汉字进行stopword过滤。 1。IK的核心分词类IKSegmentor的功能是最细化的识别所有的词汇,包括敏感词汇。 2.对未知的姓名,地面,专有名词,采用单字切分,这样有利于搜索。 3.对任何的汉字切分结果,IK3.0不做任何“无用词”的假设。如:在佛经中出现的梵文可能被单字切分出大量的拟声词。这些都不能被做为“无用词”过滤。 4.IK推荐用户在各种的专有领域建立自己的停止词库,并建立自己的analyzer实例。 |
|
kexzcle
2010-02-09
我自己又试了一下! 好使了
都配置在SRC中 你再试试 也支持中文!@1!!! |
|
87271833
2010-02-09
kexzcle 写道 我自己又试了一下! 好使了
都配置在SRC中 你再试试 也支持中文!@1!!! 555 我把整个项目那几个文件夹都放遍了 SRC放了 SRC里的各个包文件夹也放了 bin目录下也放了 bin目录下的放CLASS的文件夹也放了 就是不行 55555 程序里是不是要添加代码? |
|
kexzcle
2010-02-10
87271833 写道 kexzcle 写道 我自己又试了一下! 好使了
都配置在SRC中 你再试试 也支持中文!@1!!! 555 我把整个项目那几个文件夹都放遍了 SRC放了 SRC里的各个包文件夹也放了 bin目录下也放了 bin目录下的放CLASS的文件夹也放了 就是不行 55555 程序里是不是要添加代码? 不需要啊!就都放SRC中 哦对了 !我记得啦 你要去TOMCAT 的发布目录 你看你的词典dic 里面词汇!可能在开发工具中没有发布出去。。 你在那里添加字你再试试! |
|
87271833
2010-02-10
kexzcle 写道 87271833 写道 kexzcle 写道 我自己又试了一下! 好使了
都配置在SRC中 你再试试 也支持中文!@1!!! 555 我把整个项目那几个文件夹都放遍了 SRC放了 SRC里的各个包文件夹也放了 bin目录下也放了 bin目录下的放CLASS的文件夹也放了 就是不行 55555 程序里是不是要添加代码? 不需要啊!就都放SRC中 哦对了 !我记得啦 你要去TOMCAT 的发布目录 你看你的词典dic 里面词汇!可能在开发工具中没有发布出去。。 你在那里添加字你再试试! 我现在写的不是WEB程序,只是在eclipse里建的java program 写了几个class而已,并没有发布!是不是只有发布了或者是WEB程序才有效果?很多位置我都放过了就是不灵。。 |