[lucene] 单个字怎么检索

mniz 2010-03-20
请问下,如何让不成词的单个字能检索出结果来

比如:多特 ,能搜索出结果 ,然后搜索特字就不出结果
在比如:服装,可以搜索出结果,分开一个个的搜索,就不能检索出结果

这样的问题,有没有办法解决

我是这么想的,在自定义分词里面把他们给拆开成词,这样的话,就可以分出来,但是这样缺点太多

有没有更好的方案解决,如果你知道的话,还请告诉我下,谢谢
mniz 2010-03-20
自己顶下,沉的太快
HuangSui.cn 2010-03-20
你在问技术 还是 问需求
mniz 2010-03-20
晕,肯定是技术方面的
HuangSui.cn 2010-03-20
你说要单字检索 又说缺点多
需求不明确
我觉得要先把需求分析清楚
imjl 2010-03-20
这个难度很大阿,,,你数据量大么?

mniz 2010-03-20
HuangSui.cn 写道
你说要单字检索 又说缺点多
需求不明确
我觉得要先把需求分析清楚


先说一个最明显的缺点

如果建立一个词库的话,添加了一些新的词进去了,之后必须的重建索引,这样才能可以检索出来,是么,这就是最大的麻烦,需要频繁建立索引,而且不是时时的


回复楼上的,几千万的数据,不知道这算不算大,应该是一般的把
imjl 2010-03-20
mniz 写道
HuangSui.cn 写道
你说要单字检索 又说缺点多
需求不明确
我觉得要先把需求分析清楚


先说一个最明显的缺点

如果建立一个词库的话,添加了一些新的词进去了,之后必须的重建索引,这样才能可以检索出来,是么,这就是最大的麻烦,需要频繁建立索引,而且不是时时的


回复楼上的,几千万的数据,不知道这算不算大,应该是一般的把


大不大自己算下把,

单字大概有多少,很多的话,那么要另想法子了。

少的话,直接扫描,自己做反向索引,考虑下存储,也就是撇开lucene,自己做。
这样做是基于该字已知的前提,我以前记录的供你参考http://imjl.iteye.com/blog/437843  

如果不定的,那就麻烦大了。

HuangSui.cn 2010-03-20
索引是依赖词典建的,添加新词当然要更新索引
但我不认为会需要频繁添加新词,时时性看需求,没有适合任何需求的系统
如果仅仅要将不成词的单字检索出,或者分词后的单字检索出,实现这样的分词器就可以了
TonyLian 2010-03-20
如果所有都要拆到一个字,那就用ChinessAnalyzer啦,这个最简单的中文分词本身就是按单个字拆的。
而且,常用汉字也就2千多个,这样形成的索引文件还会体积较小(应为怎么重复最多也就这2千多个汉字)
Global site tag (gtag.js) - Google Analytics