[lucene] (新手)Lucene3.0建索引问题

kexzcle 2009-12-31
在Lucene3.0中 对各种文档格式的解析 是否可以统一?
统一建索引,我很多关键字搜索PDF都查询不到。
不统一的话 单独解析 PDF 我用到的是PDFBOX0.7.3.可是它用到的是Lucene2.0的包 ,想问怎么用PDFBOX啊在Lucene3.0中


我现在是把lucene3.0源码包下载了
源码包下JSP中实例 改造了下
在WEB建立索引 然后搜索结果 !!






kexzcle 2009-12-31
有哪位大哥指导下小弟 不甚感激啊!!
lzj0470 2010-01-04
可以统一。不同的文档格式,实现不同的接口。解析PDF的时候,有些文字解析是乱码,搜索不到是正常的。你可以用多个解析PDF的API。然后选择出比较好的。
kexzcle 2010-01-05
lzj0470 写道
可以统一。不同的文档格式,实现不同的接口。解析PDF的时候,有些文字解析是乱码,搜索不到是正常的。你可以用多个解析PDF的API。然后选择出比较好的。


我现在是在web3.0中 不同格式分别解析创建索引

但是PDF这块 PDFBOX是用不了啦,现在正看XPDF解析PDF然后创建索引呢!并且在PPT、html用POI解析时,PPT报错,HTML字体变化就查询不出来

请求指教!!
lzj0470 2010-01-05
我PPT没搞过。什么html字体变化?查询跟字体变化有关系?不太明白你的意思
kexzcle 2010-01-14
lzj0470 写道
我PPT没搞过。什么html字体变化?查询跟字体变化有关系?不太明白你的意思

不好意思,前几天出差来的,查询时没关系,是用POI解析html后创建索引中,应该是解析问题,字体格式有的解析不过去可能,查询就查不到,请问你有相关的小程序么lucene的。我的邮箱kexzclee@163.com QQ:15036273
希望可以请教下。。
kexzcle 2010-01-14
collonn 写道
好多解析开源代码都还没有跟上lucene3.0,不如你用lucene2.9吧,至少有3.0有几呼所有新方法,但还没抛弃以前的旧方法。至少这也是个办法。升级也好点吧


2.9中解析PDF也会遇到相同问题。请问你有相关的程序或代码么。。
有的话 加我Q15036273 或 邮箱kexzclee@163.com

谢谢
TonyLian 2010-01-14
我觉得,不必用:
Document doc = LucenePDFDocument.getDocument( file );

仅仅用PDFBOX给解析出文本就可以了,如何建Field还是自己来吧。

LZ的另一个帖子我也回了,那里面写了方法。
Global site tag (gtag.js) - Google Analytics