[lucene] SmartChineseAnalyzer提取词干的烦恼
thxg
2011-05-19
SmartChineseAnalyzer(smartcn)分词工具自己有一个提取词干的处理步骤,本来是个好事,可是发现它会添乱子啊,比如 iPhone 提取词干后变成了 iPhon ,大家有没有碰到过这种情况?有什么简便的解决方案没?
|
|
thxg
2011-05-19
我看了下,这个词干提取是Lucene Core里的,完整类名为:
org.apache.lucene.analysis.PorterStemmer org.apache.lucene.analysis.PorterStemFilter 如果仅用于索引,可能没有问题,因为搜索词也可能先提词干再去匹配。但我现在是想单独使用smartcn,用来提取关键字,这个麻烦真的不小。 |
相关讨论
相关资源推荐
- com.github.eclipseuitheme.moonrise-0.8.9.zip
- mac 电脑 多版本 nodejs管理以及安装
- node js 版本与 NODE_MODULE_VERSION 的对应关系。
- 搭建阿里云环境 - 阿里云 centOS 如何安装 node.js
- com.schillmania.soundmanager2-0.8.9.jar
- Node.js 提供了一个内置模块 `repl`,用于创建读取-求值-打印-循环(Read-Eval-Print Loop, REPL)环境
- plymouth-0.8.9-0.34.20140113.el7.centos.x86_64.rpm
- reactor-netty-0.8.9.RELEASE.jar
- com.schillmania.soundmanager2-0.8.9-sources.jar
- Python库 | python-docx-0.8.9.tar.gz