[lucene] 关于lucene的几点疑问

lanbingfeihan 2010-05-04
    从去年开始就对搜索产生了浓厚的兴趣,刚开始调试通过lucene,后来能使用它进行建索引,检索,很高兴,但是现在我发现了几点问题:
    1、效率问题,lucene效率到底有多高,我使用的时候他表现的是不怎么样的。可能是我的架构问题,或者是程序写的问题。
    2、怎样去除重复项,Lucene In Action我看了也有三四遍了,上面没有说这个问题。
    3、solr是个不错的东西,思路非常好,但是他和lucene一样很神秘。说实话在没有接触solr之前我就想要这样做了。nutch我也调试了一下,它更神秘。
   
   
yangfuchao418 2010-05-04
呵呵 楼主研究了一年多了,这些问题应该早知道了。把nutch,heritrix,katta,elasticsearch这些也研究透吧。尤其是后面两个搜索,和云计算有关,实时搜索,分布式,高容错性等。呵呵,钱途无量
wu_quanyin 2011-01-05
楼主的去重问题解决了吗?现在遇到这个问题,不知道如何入手....

http://www.iteye.com/problems/56869
85600367 2011-01-06
lucene 不能取消重复
你自己在增量添加索引的时候自己控制就是了

lucene只是提供全文检索的一个jar包 不适合企业级应用
要么换solr 或者别的框架 要么你自己去封装lucene
fys124974704 2011-02-15
lucece的性能可以,solr是基于lucene。如果你感觉lucene性能不行,那么solr你能满意么?
solr是简单化了lucene,封装了lucene的一些代码,用配置实现了智能化!当然有时候我们更愿意使用lucene,因为lucenne更灵活!
37392872kiss 2011-02-16
85600367 写道
lucene 不能取消重复
你自己在增量添加索引的时候自己控制就是了

lucene只是提供全文检索的一个jar包 不适合企业级应用
要么换solr 或者别的框架 要么你自己去封装lucene


你的说法比较肤浅,我不敢苟同,solr是高度封装的lucene,apache为lucene定做solr子项目的初衷是为了弥补lucene应用化程度较小的缺憾,lucene和solr本身是不冲突的,由于lucene较solr的灵活性优势,小型和大型应用lucene再适合不过了,twitter和oracle等都是用lucene做企业搜索应用。由于半产品化,作为国内外的中等企业,solr是个折中的选择,别的开源搜索引擎框架不排斥,不过lucene在全球的口碑都是非常好的,也没时间多做这方面的研究。再回复楼主的问题,去重在lucene中表现为需要指定唯一字段进行去重,比如我们公司用的是以文章的url为主键进行去重,solr就很方便了,配置文件一下搞定
Global site tag (gtag.js) - Google Analytics