[lucene] 单个字怎么检索
mniz
2010-03-20
请问下,如何让不成词的单个字能检索出结果来
比如:多特 ,能搜索出结果 ,然后搜索特字就不出结果 在比如:服装,可以搜索出结果,分开一个个的搜索,就不能检索出结果 这样的问题,有没有办法解决 我是这么想的,在自定义分词里面把他们给拆开成词,这样的话,就可以分出来,但是这样缺点太多 有没有更好的方案解决,如果你知道的话,还请告诉我下,谢谢 |
|
mniz
2010-03-20
自己顶下,沉的太快
|
|
HuangSui.cn
2010-03-20
你在问技术 还是 问需求
|
|
mniz
2010-03-20
晕,肯定是技术方面的
|
|
HuangSui.cn
2010-03-20
你说要单字检索 又说缺点多
需求不明确 我觉得要先把需求分析清楚 |
|
imjl
2010-03-20
这个难度很大阿,,,你数据量大么?
|
|
mniz
2010-03-20
HuangSui.cn 写道 你说要单字检索 又说缺点多
需求不明确 我觉得要先把需求分析清楚 先说一个最明显的缺点 如果建立一个词库的话,添加了一些新的词进去了,之后必须的重建索引,这样才能可以检索出来,是么,这就是最大的麻烦,需要频繁建立索引,而且不是时时的 回复楼上的,几千万的数据,不知道这算不算大,应该是一般的把 |
|
imjl
2010-03-20
mniz 写道 HuangSui.cn 写道 你说要单字检索 又说缺点多
需求不明确 我觉得要先把需求分析清楚 先说一个最明显的缺点 如果建立一个词库的话,添加了一些新的词进去了,之后必须的重建索引,这样才能可以检索出来,是么,这就是最大的麻烦,需要频繁建立索引,而且不是时时的 回复楼上的,几千万的数据,不知道这算不算大,应该是一般的把 大不大自己算下把, ![]() 单字大概有多少,很多的话,那么要另想法子了。 少的话,直接扫描,自己做反向索引,考虑下存储,也就是撇开lucene,自己做。 这样做是基于该字已知的前提,我以前记录的供你参考http://imjl.iteye.com/blog/437843 如果不定的,那就麻烦大了。 |
|
HuangSui.cn
2010-03-20
索引是依赖词典建的,添加新词当然要更新索引
但我不认为会需要频繁添加新词,时时性看需求,没有适合任何需求的系统 如果仅仅要将不成词的单字检索出,或者分词后的单字检索出,实现这样的分词器就可以了 |
|
TonyLian
2010-03-20
如果所有都要拆到一个字,那就用ChinessAnalyzer啦,这个最简单的中文分词本身就是按单个字拆的。
而且,常用汉字也就2千多个,这样形成的索引文件还会体积较小(应为怎么重复最多也就这2千多个汉字) |