T级数据下 lucene 性能 还好吗?

aihua 2008-06-03
本人无能,1T数据下lucene的索引程序就做了8天。。还在继续。
无奈只好请教各位,有谁在1T数据下做过lucene索引程序,8天正常吗?

有点语无伦次了,说一下具体情况吧
------------------------------------------------------------------------------
服务器 win2003
cpu 8个,内存 8g 硬盘 11t
测试文件大小1t,包含文件目录200多,文件数目超过1700w,都是小文件,没有超过1m的。
-------------------------------------------------------------------------------

预估2天完成,预估索引大小200g
实际8天未完成,目前索引大小280g。

----------------------------------------------------------------------------------
预估是有差别的,而且还很大。

----------------------------------------------------------------------------------
log分析,后期平均每个文件处理时间变成 300%-500%,原因不清楚。


在小数据量下的情况下做各种测试,无问题。

请教各位解题思路,发现症结的方法。
fys124974704 2008-06-03
有没有在这个索引搜索过!估计数据快不到那里去吧还有 你在建立索引的时候有没有优化过啊
amw_demon 2008-06-03
你建几个索引?  估计 一个索引是不行的,这么大的数据量 得做分布式检索了。
amw_demon 2008-06-03
可以试试用nutch 和 hadoop
imjl 2008-06-03
第一:优先考虑分布式。这个和你业务和搜索要求有关系的。

第二:可以尝试hadoop来并行做。

第三:如果使用lucene,那么在索引前,看下怎么设置让索引更快(我在这里发过搜索和索引优化的帖子),细节上也要留意,不要反复做(adddoc,commit,optimize)

第四:需要留意索引日志会很大。


期待你的好消息。
linliangyi2007 2008-06-04
兄弟,做T级数据处理要有分布式的概念了!
javaeyes 2008-06-05
索引时间长跟索引合并的机制有很大关系,lucene合并时是把原来的索引写到新的索引中去, 可以想象几个G的索引合并抛开索引逻辑光写文件都很耗时间,甭说200g以上了。如果要把这么多数据做成一个索引,建议你把数据分块 分别索引,最后一次合并。还有个问题,1T的数据做索引还有200多G,你是不是把所有字段都存到索引中了?赶快把那些像content这样的大文本字段分离出来,索引会小很多哦
顺便问下,你的2003 Server怎么认出8G内存的?
bulrush 2008-06-06
1t索引文件,8G内存,再好的搜索也不可能高效率的处理,处理方式:分布式
不过你这个1T的索引也未免太大了,一定进行索引优化和适当存储
Global site tag (gtag.js) - Google Analytics