T级数据下 lucene 性能还好吗？

aihua 2008-06-03

本人无能，1T数据下lucene的索引程序就做了8天。。还在继续。
无奈只好请教各位，有谁在1T数据下做过lucene索引程序，8天正常吗？

有点语无伦次了，说一下具体情况吧
------------------------------------------------------------------------------
服务器 win2003
cpu 8个，内存 8g 硬盘 11t
测试文件大小1t，包含文件目录200多，文件数目超过1700w，都是小文件，没有超过1m的。
-------------------------------------------------------------------------------

预估2天完成，预估索引大小200g
实际8天未完成，目前索引大小280g。

----------------------------------------------------------------------------------
预估是有差别的，而且还很大。

----------------------------------------------------------------------------------
log分析，后期平均每个文件处理时间变成 300%-500%，原因不清楚。

在小数据量下的情况下做各种测试，无问题。

请教各位解题思路，发现症结的方法。

fys124974704 2008-06-03

有没有在这个索引搜索过！估计数据快不到那里去吧还有你在建立索引的时候有没有优化过啊

amw_demon 2008-06-03

你建几个索引？估计一个索引是不行的，这么大的数据量得做分布式检索了。

amw_demon 2008-06-03

可以试试用nutch 和 hadoop

imjl 2008-06-03

第一：优先考虑分布式。这个和你业务和搜索要求有关系的。

第二：可以尝试hadoop来并行做。

第三：如果使用lucene，那么在索引前，看下怎么设置让索引更快（我在这里发过搜索和索引优化的帖子），细节上也要留意，不要反复做（adddoc，commit，optimize）

第四：需要留意索引日志会很大。

期待你的好消息。

linliangyi2007 2008-06-04

兄弟，做T级数据处理要有分布式的概念了！

javaeyes 2008-06-05

索引时间长跟索引合并的机制有很大关系，lucene合并时是把原来的索引写到新的索引中去，可以想象几个G的索引合并抛开索引逻辑光写文件都很耗时间，甭说200g以上了。如果要把这么多数据做成一个索引，建议你把数据分块分别索引，最后一次合并。还有个问题，1T的数据做索引还有200多G，你是不是把所有字段都存到索引中了？赶快把那些像content这样的大文本字段分离出来，索引会小很多哦
顺便问下，你的2003 Server怎么认出8G内存的？

bulrush 2008-06-06

1t索引文件，8G内存，再好的搜索也不可能高效率的处理，处理方式：分布式
不过你这个1T的索引也未免太大了，一定进行索引优化和适当存储

发表回复

>>返回群组首页

T级数据下 lucene 性能还好吗？

相关讨论

相关资源推荐

T级数据下 lucene 性能 还好吗？

相关讨论

相关资源推荐

T级数据下 lucene 性能还好吗？