怎么能让“清华”搜到“清华大学”

zhzhxh 2008-10-05
我现在使用的是mmseg包,集成到solr1.3来做中文分词,遇到了这样的一个问题:
文章里如果有: ...清华大学...

在mmseg的词库里有“清华大学”这个词,mmseg就把它切成了一个此,那搜索“清华”关键词的时候,就搜不到这个文章了

请各位帮忙一下
tongjian 2008-10-06
你得让你的词库里有“清华”这个词才行!
imjl 2008-10-06
我是凭记忆打得,,,

solr的管理界面有个analyzer,点这个analyzer,,第一行输入text,第二行输入清华大学,第二行对应的checkbox都打勾,,然后跑一下,看看mmseg怎么分的~
zhjt_88 2008-10-07
zhjt_88@163.com 写道
sadeasd

asd
coderplay 2008-10-07
一般建立索引的时候是采用最多切分, 比如
"清华大学" 分切分成"清华","大学","清华大学"3个词,
而在搜索的时候是采用最大匹配长度切分, "清华大学"会做成四个字的整体被搜索,而"清华"被做为2字整体被搜索. 按照这种方法能满足楼主及大多数用户要求

但是mmseg只有复合最大匹配切分,只能满足搜索的时候.
那只能细切啦,词库中不能出现"清华大学"这种其子中有独立意思的词
chencang 2008-10-08
那想用“北大”搜“北京大学”,用“西安交大”搜“西安交通大学”怎么办呢
linliangyi2007 2008-10-08
换个分词器吧
zhzhxh 2008-10-09
coderplay 写道
一般建立索引的时候是采用最多切分, 比如
"清华大学" 分切分成"清华","大学","清华大学"3个词,


请问,现在的分词器,怎么在切分“清华大学”的时候,能同时切出来“清华”,“大学”和“清华大学” 3个词呢?
monner 2008-10-11
coderplay 写道
一般建立索引的时候是采用最多切分, 比如
"清华大学" 分切分成"清华","大学","清华大学"3个词,
而在搜索的时候是采用最大匹配长度切分, "清华大学"会做成四个字的整体被搜索,而"清华"被做为2字整体被搜索. 按照这种方法能满足楼主及大多数用户要求

但是mmseg只有复合最大匹配切分,只能满足搜索的时候.
那只能细切啦,词库中不能出现"清华大学"这种其子中有独立意思的词


-----------
正解!!!
wangxuliangboy 2008-11-11
chencang 写道
那想用“北大”搜“北京大学”,用“西安交大”搜“西安交通大学”怎么办呢



你用PharseQuery可以做到.....
调用一下setSlop()
Global site tag (gtag.js) - Google Analytics