[其他] 中英文混合分词

trh3037 2011-12-01
ikanalyzer挺好,不过只能针对中文分词
可以举个例子:
  比如“用户从2010年10月11号开始,申请宽带4M升级到10M”这样一句话,

通过设置停止词:“4M升级到10M”

我想要达到:用户|从|2010年10月11号|开始|申请|宽带|4M升级到10M

也就是说想要把“4M升级到10M”以一个词分出来。

但是一般分词工具,都会分成:4M|升级到|10M,三个词出来。

不知道是否有哪些分词工具,通过设置外部词库,设置停止词,支持中英文混合分词的?

lzj0470 2011-12-01
有什么需求需要这样做。这个应该是搜索的范畴吧。
trh3037 2011-12-02
lzj0470 写道
有什么需求需要这样做。这个应该是搜索的范畴吧。

数据挖掘。主要用户也不知道需要什么,只能系统分词后,然后统计词组频率,以top10的方式,展示给用户看。这其中就会包括一些已经知道的词组,需要将这些词组整体分出来,然后好统计。
lzj0470 2011-12-02
trh3037 写道
lzj0470 写道
有什么需求需要这样做。这个应该是搜索的范畴吧。

数据挖掘。主要用户也不知道需要什么,只能系统分词后,然后统计词组频率,以top10的方式,展示给用户看。这其中就会包括一些已经知道的词组,需要将这些词组整体分出来,然后好统计。

我的分词应该可以满意你的要求
lzj0470 2011-12-02
trh3037 写道
lzj0470 写道
有什么需求需要这样做。这个应该是搜索的范畴吧。

数据挖掘。主要用户也不知道需要什么,只能系统分词后,然后统计词组频率,以top10的方式,展示给用户看。这其中就会包括一些已经知道的词组,需要将这些词组整体分出来,然后好统计。

我现在把我的分词器修改了一下,切词效果是
用户/2010年10月11号/开始/申请/宽带/4M升级到10/
用户/2010年10月11号/开始/申请/宽带/98升级到10/
但是,还有其他情况的话,我就不能保证是否适合你。
lzj0470 2011-12-02
http://lzj0470.iteye.com/blog/1290146
可以到这里看看
ansjsun 2011-12-06
用户自定义词典
ywlqi 2011-12-09
ansjsun 写道
用户自定义词典

deadfishzhou 2011-12-11
2010年10月11号 是一个词
自己改下分词器实现这样的分词当然是可以的,不过貌似怎么弄只能针对一些特例,你需要的分词,估计自己要先定义完整的规则,然后根据规则自己写个tokenStream方式出来
thxg 2012-01-13
词和语义或有交叉,但不能划等号。如果只是分词工具,就别指望仅用它来实现语义上的高级功能。不然的话,哄哄客户或许能见点效果,但本着严谨的态度来看,那是一条错误的道路。如果有的地方是说成4M扩容到10M,你理还是不理?无穷尽的意外,会让你无法应对。
Global site tag (gtag.js) - Google Analytics