[lucene] 关于索引文件大小

rq2_79 2010-03-04
我想问一下大家对于7G的数据,如果使用StandardAnalyzer分词,保存数据和建索引,最后的索引文件或有多大。我测试下来整体有8G左右,使用压缩对索引的影响好像也不大。请大家帮忙给分析分析索引文件的正确大小范围!
TonyLian 2010-03-04
要看你7个G的都是什么了?
PDF? Word? GBK TXT? UTF-8 TXT? 。。。?
rq2_79 2010-03-05
就是GBK的txt
xchd 2013-10-31
结果出来了吗?我测出来的结果。分词好像比不分词占用的空间还大。。如果索引文件超过上百G甚至更加,有更好的办法吗?
Global site tag (gtag.js) - Google Analytics