[lucene] SmartChineseAnalyzer提取词干的烦恼

thxg 2011-05-19
SmartChineseAnalyzer(smartcn)分词工具自己有一个提取词干的处理步骤,本来是个好事,可是发现它会添乱子啊,比如 iPhone 提取词干后变成了 iPhon ,大家有没有碰到过这种情况?有什么简便的解决方案没?
thxg 2011-05-19
我看了下,这个词干提取是Lucene Core里的,完整类名为:
org.apache.lucene.analysis.PorterStemmer
org.apache.lucene.analysis.PorterStemFilter

如果仅用于索引,可能没有问题,因为搜索词也可能先提词干再去匹配。但我现在是想单独使用smartcn,用来提取关键字,这个麻烦真的不小。
Global site tag (gtag.js) - Google Analytics