[其他] 中英文混合分词
trh3037
2011-12-01
ikanalyzer挺好,不过只能针对中文分词
可以举个例子: 比如“用户从2010年10月11号开始,申请宽带4M升级到10M”这样一句话, 通过设置停止词:“4M升级到10M” 我想要达到:用户|从|2010年10月11号|开始|申请|宽带|4M升级到10M 也就是说想要把“4M升级到10M”以一个词分出来。 但是一般分词工具,都会分成:4M|升级到|10M,三个词出来。 不知道是否有哪些分词工具,通过设置外部词库,设置停止词,支持中英文混合分词的? |
|
lzj0470
2011-12-01
有什么需求需要这样做。这个应该是搜索的范畴吧。
|
|
trh3037
2011-12-02
lzj0470 写道 有什么需求需要这样做。这个应该是搜索的范畴吧。
数据挖掘。主要用户也不知道需要什么,只能系统分词后,然后统计词组频率,以top10的方式,展示给用户看。这其中就会包括一些已经知道的词组,需要将这些词组整体分出来,然后好统计。 |
|
lzj0470
2011-12-02
trh3037 写道 lzj0470 写道 有什么需求需要这样做。这个应该是搜索的范畴吧。
数据挖掘。主要用户也不知道需要什么,只能系统分词后,然后统计词组频率,以top10的方式,展示给用户看。这其中就会包括一些已经知道的词组,需要将这些词组整体分出来,然后好统计。 我的分词应该可以满意你的要求 |
|
lzj0470
2011-12-02
trh3037 写道 lzj0470 写道 有什么需求需要这样做。这个应该是搜索的范畴吧。
数据挖掘。主要用户也不知道需要什么,只能系统分词后,然后统计词组频率,以top10的方式,展示给用户看。这其中就会包括一些已经知道的词组,需要将这些词组整体分出来,然后好统计。 我现在把我的分词器修改了一下,切词效果是 用户/2010年10月11号/开始/申请/宽带/4M升级到10/ 用户/2010年10月11号/开始/申请/宽带/98升级到10/ 但是,还有其他情况的话,我就不能保证是否适合你。 |
|
lzj0470
2011-12-02
http://lzj0470.iteye.com/blog/1290146
可以到这里看看 |
|
ansjsun
2011-12-06
用户自定义词典
|
|
ywlqi
2011-12-09
ansjsun 写道 用户自定义词典
|
|
deadfishzhou
2011-12-11
2010年10月11号 是一个词
自己改下分词器实现这样的分词当然是可以的,不过貌似怎么弄只能针对一些特例,你需要的分词,估计自己要先定义完整的规则,然后根据规则自己写个tokenStream方式出来 |
|
thxg
2012-01-13
词和语义或有交叉,但不能划等号。如果只是分词工具,就别指望仅用它来实现语义上的高级功能。不然的话,哄哄客户或许能见点效果,但本着严谨的态度来看,那是一条错误的道路。如果有的地方是说成4M扩容到10M,你理还是不理?无穷尽的意外,会让你无法应对。
|