[lucene] Lucene搜索PDF文档时遇到的问题

jssay 2009-11-06
我是用的PDFBox-0.7.3.jar+Lucene来实现搜索含有某关键字的PDF文档,但是在搜索的过程中,发现大部分的结果都是正确的,但是某些关键字却搜出很多不相关的文档,即打开PDF后却搜不到相关内容.有几个不相关的也就算了,但是有的关键字,比如resources,text等,能把所有的文档都能搜出来,但是在PDF文档里根本就没有这些关键字.难道PDF文档里有些隐藏的东西在创建索引的时候被包含进去了?请各位Lucene高 手 指 点 下!
kernaling.wong 2009-11-07
给个建议,可以先用PDFBox把内容先生成到数据库中,然后再用Lucene再去把数据中的内容进行索引,这么虽然多了一步,但是可以知道问题的所在了.
imjl 2009-11-09
直接用luke看索引

或者

将有问题的文档用PDFBOX 将内容解到日志文件或者其他地方,看下,解析有什么问题

然后用你的代码给他做索引,用luke看下索引中是否有不就得了。
jssay 2009-11-09
问题解决了,在document添加field的时候,之前我用了Field(String name, Reader reader)这个构造函数,在创建索引的时候有问题,如果用Field(String name, String value, Field.Store store, Field.Index index) 这个,然后用PDFParser解析PDF文档成String就可以了.谢谢两位的指导,感激不尽.
Global site tag (gtag.js) - Google Analytics