IKanalyzer的过滤停止词怎么用

87271833 2010-02-08
我现在不是做的WEB程序 而是在eclipse里面的java项目 引用了IK的包 那个ext_stopword.dic是过滤停止词用的吧 增加几个词测试好像没效果 具体应该怎么操作?ext_stopword.dic应该放哪里?应该是在bin下吧?
widhor 2010-02-08
这个我用过,好使,有个IKAnalyzer.cfg.xml,ext_stopwords就配在那里
87271833 2010-02-08
widhor 写道
这个我用过,好使,有个IKAnalyzer.cfg.xml,ext_stopwords就配在那里



能不能说具体点

IKAnalyzer.cfg.xml,ext_stopwords 放哪个文件夹?我现在是在eclipse里做的java程序 这两个文件是放在bin里吗 ?为什么我在ext_stopwords 里添加了要过滤的词 还是可以搜出来呢 ?能不能说详细点 !谢谢
TonyLian 2010-02-08
IKAnalyzer.cfg.xml 放在 src/ 会被编译到 /classes/
ext_stopwords.dic 随意,只有在IKAnalyzer.cfg.xml中指定的目录。
例如,IKAnalyzer.cfg.xml写 /ext_stopwords.dic
那么ext_stopwords.dic就也放到src/
87271833 2010-02-08
TonyLian 写道
IKAnalyzer.cfg.xml 放在 src/ 会被编译到 /classes/
ext_stopwords.dic 随意,只有在IKAnalyzer.cfg.xml中指定的目录。
例如,IKAnalyzer.cfg.xml写 /ext_stopwords.dic
那么ext_stopwords.dic就也放到src/


我就是这么用的 在src里放入IKAnalyzer.cfg.xml 和ext_stopwords.dic
然后我测试的时候在ext_stopwords.dic 里插入了'色啊情"这个词组 然后搜索还是能搜索出来 这是怎么回事呢?
kexzcle 2010-02-09
这个是IK作者09年7月说的:

解释一下,IK3.0为啥不对汉字进行stopword过滤。

1。IK的核心分词类IKSegmentor的功能是最细化的识别所有的词汇,包括敏感词汇。

2.对未知的姓名,地面,专有名词,采用单字切分,这样有利于搜索。

3.对任何的汉字切分结果,IK3.0不做任何“无用词”的假设。如:在佛经中出现的梵文可能被单字切分出大量的拟声词。这些都不能被做为“无用词”过滤。

4.IK推荐用户在各种的专有领域建立自己的停止词库,并建立自己的analyzer实例。
kexzcle 2010-02-09
我自己又试了一下! 好使了

都配置在SRC中 你再试试 也支持中文!@1!!!
87271833 2010-02-09
kexzcle 写道
我自己又试了一下! 好使了

都配置在SRC中 你再试试 也支持中文!@1!!!


555 我把整个项目那几个文件夹都放遍了 SRC放了 SRC里的各个包文件夹也放了
bin目录下也放了 bin目录下的放CLASS的文件夹也放了 就是不行 55555
程序里是不是要添加代码?
kexzcle 2010-02-10
87271833 写道
kexzcle 写道
我自己又试了一下! 好使了

都配置在SRC中 你再试试 也支持中文!@1!!!


555 我把整个项目那几个文件夹都放遍了 SRC放了 SRC里的各个包文件夹也放了
bin目录下也放了 bin目录下的放CLASS的文件夹也放了 就是不行 55555
程序里是不是要添加代码?


不需要啊!就都放SRC中  哦对了 !我记得啦 你要去TOMCAT 的发布目录
你看你的词典dic 里面词汇!可能在开发工具中没有发布出去。。
你在那里添加字你再试试!
87271833 2010-02-10
kexzcle 写道
87271833 写道
kexzcle 写道
我自己又试了一下! 好使了

都配置在SRC中 你再试试 也支持中文!@1!!!


555 我把整个项目那几个文件夹都放遍了 SRC放了 SRC里的各个包文件夹也放了
bin目录下也放了 bin目录下的放CLASS的文件夹也放了 就是不行 55555
程序里是不是要添加代码?


不需要啊!就都放SRC中  哦对了 !我记得啦 你要去TOMCAT 的发布目录
你看你的词典dic 里面词汇!可能在开发工具中没有发布出去。。
你在那里添加字你再试试!



我现在写的不是WEB程序,只是在eclipse里建的java program 写了几个class而已,并没有发布!是不是只有发布了或者是WEB程序才有效果?很多位置我都放过了就是不灵。。
Global site tag (gtag.js) - Google Analytics