怎么能让“清华”搜到“清华大学”
zhzhxh
2008-10-05
我现在使用的是mmseg包,集成到solr1.3来做中文分词,遇到了这样的一个问题:
文章里如果有: ...清华大学... 在mmseg的词库里有“清华大学”这个词,mmseg就把它切成了一个此,那搜索“清华”关键词的时候,就搜不到这个文章了 请各位帮忙一下 |
|
tongjian
2008-10-06
你得让你的词库里有“清华”这个词才行!
|
|
imjl
2008-10-06
我是凭记忆打得,,,
solr的管理界面有个analyzer,点这个analyzer,,第一行输入text,第二行输入清华大学,第二行对应的checkbox都打勾,,然后跑一下,看看mmseg怎么分的~ |
|
zhjt_88
2008-10-07
zhjt_88@163.com 写道 sadeasd
asd |
|
coderplay
2008-10-07
一般建立索引的时候是采用最多切分, 比如
"清华大学" 分切分成"清华","大学","清华大学"3个词, 而在搜索的时候是采用最大匹配长度切分, "清华大学"会做成四个字的整体被搜索,而"清华"被做为2字整体被搜索. 按照这种方法能满足楼主及大多数用户要求 但是mmseg只有复合最大匹配切分,只能满足搜索的时候. ![]() 那只能细切啦,词库中不能出现"清华大学"这种其子中有独立意思的词 |
|
chencang
2008-10-08
![]() |
|
linliangyi2007
2008-10-08
换个分词器吧
![]() |
|
zhzhxh
2008-10-09
coderplay 写道 一般建立索引的时候是采用最多切分, 比如
"清华大学" 分切分成"清华","大学","清华大学"3个词, 请问,现在的分词器,怎么在切分“清华大学”的时候,能同时切出来“清华”,“大学”和“清华大学” 3个词呢? |
|
monner
2008-10-11
coderplay 写道 一般建立索引的时候是采用最多切分, 比如
"清华大学" 分切分成"清华","大学","清华大学"3个词, 而在搜索的时候是采用最大匹配长度切分, "清华大学"会做成四个字的整体被搜索,而"清华"被做为2字整体被搜索. 按照这种方法能满足楼主及大多数用户要求 但是mmseg只有复合最大匹配切分,只能满足搜索的时候. ![]() 那只能细切啦,词库中不能出现"清华大学"这种其子中有独立意思的词 ----------- 正解!!! |
|
wangxuliangboy
2008-11-11
chencang 写道 ![]() 你用PharseQuery可以做到..... 调用一下setSlop() |