[solr] 一个十分怪异的问题

wdmsyf 2010-07-30
最近,我遇到一个十分怪异的问题,向各位前辈求教了。
运行环境:
Solr1.4 + Lucene2.9.3 + IKAnalyzer3.2.0Stable.jar

同一检索内容,检索条件在不同位置插入空格,检索结果截然不同,不知是什么原因,向各位前辈求教。


正文内容:

关于2008年税收征管基本情况报表有关内容说明的报告
特 急×××地方税务局文件 ×地税发〔2009〕XX18号 签发人:×××××× #8; 关于2008年税收征管基本情况报表有关内容说明的报告 国家税务总局:根据《国家税务总局关于印发修订后的〈税收征管质量考核办法〉的通知》(国税发〔2003〕50号)、《××省地方税务局关于转发〈国家税务总局关于进一步加强税收征管质量考核工作的通知〉的通知》(×地税征〔2002〕11号)和总局海南征管报表培训会议精神,我局在全系统组织开展了2008年度税收征管


检索条件:

关于 2008 年税收征管基本情况报表 有关内容说明的报告
[无结果]

关于 2008年税收征管基本情况报表 有关内容说明的报告
[结果正确]

关于 2008年 税收征管基本情况报表 有关内容说明的报告
[无结果]

关于 2008年税收 征管基本情况报表 有关内容说明的报告
[结果正确]

关于2008年税收 征管基本情况报表 有关内容说明的报告
[结果正确]

关于2008年税收征管基本情况报表 有关内容说明的报告
[结果正确]

关于2008年 税收征管基本情况报表 有关内容说明的报告
[无结果]
JimmyWen 2010-07-30
先看分词的结果
wdmsyf 2010-08-31
自己回复一下,原来是分词字典里有个不常用词“年税”,在建索引时分词结果有“年税”这个词,而我的默认的检索关系是“AND”,当检索条件中“年”字前后有空格时,检索条件的分词结果中就没有“年税”这个词了,与被检索内容的分词不匹配,所以检索不出结果。
本来是想用stopword.txt来过滤掉“年税”这个词的,但好象stopword对中文词支持不好,所以就采取了非常规手段:从分词字典里把“年税”这个词去掉,再重建索引。这也是权宜之计,不知大家都是怎么处理这种情况的。
Global site tag (gtag.js) - Google Analytics