两个问题:关于摘要和查询
shirdrn
2008-06-18
1、使用Lucene提取文章的摘要的一种设想:在建立索引过程中,分词的时候对每篇文章进行切词,这个过程中动态统计每个Term的频率,从而取到一个摘要的起始索引位置,当检索到该Document的时候,提取摘要只需要从之前设定的索引位置开始读取指定数量的摘要内容。这样。将生成摘要的时间放在了建立索引的过程中。
或者,还有更好的生成动态摘要的方法? 2、对检索关键字使用QueryParser解析,并从中提取切分出的多个Term,如果对这些已经确定的Term进行构造查询Query?自我感觉每一种Query都不是最完全的,比如对切出的Term构造BooleanQuery实例时,还要设置是AND还是OR——怎样构造出的Query才能使其最接近用户的检索意图呢? 大家是如何解决摘要和查询的呢…… |
|
wifivein
2008-06-19
1.你的摘要是用来做什么?如果只是检索时用于返回给页面显示,关键词高亮同时已经解决了这个问题,用不着自己来实现
2.我个人觉得这是用户(或者LZ你自己)怎么理解“搜索”的问题,如果输入的是词组或者短句,分词以后过滤掉干扰词,然后用AND——我看就很符合最初检索的意图 除非你给自己的定位就是自然语言搜索,要不然根本不会有这方面的困惑才对.. ![]() |
|
shirdrn
2008-06-23
wifivein 写道 1.你的摘要是用来做什么?如果只是检索时用于返回给页面显示,关键词高亮同时已经解决了这个问题,用不着自己来实现
2.我个人觉得这是用户(或者LZ你自己)怎么理解“搜索”的问题,如果输入的是词组或者短句,分词以后过滤掉干扰词,然后用AND——我看就很符合最初检索的意图 除非你给自己的定位就是自然语言搜索,要不然根本不会有这方面的困惑才对.. ![]() 1、哦,原来高亮能够实现摘要的提取,看样子我的高亮实现用到的是最基础的,还应该深入学习啊。不知道: 高亮解决关键字高亮显示,摘要提取应该有很多可以选择的方案吧,比如,按照词频提取连续的一段;可以是不连续,但是应该有相对比较完整的含义,是不连续的句子(可能逗点之前或者之后的一句);……等等。 2、我说的就是切词后过滤掉干扰词了。AND。百度和Google就是用AND,但似乎不是仅仅简单地使用AND。 |
|
wifivein
2008-06-24
LZ你可能把问题复杂化了...
|