[lucene] (新手)Lucene3.0建索引问题
kexzcle
2009-12-31
在Lucene3.0中 对各种文档格式的解析 是否可以统一?
统一建索引,我很多关键字搜索PDF都查询不到。 不统一的话 单独解析 PDF 我用到的是PDFBOX0.7.3.可是它用到的是Lucene2.0的包 ,想问怎么用PDFBOX啊在Lucene3.0中 我现在是把lucene3.0源码包下载了 源码包下JSP中实例 改造了下 在WEB建立索引 然后搜索结果 !! |
|
kexzcle
2009-12-31
有哪位大哥指导下小弟 不甚感激啊!!
|
|
lzj0470
2010-01-04
可以统一。不同的文档格式,实现不同的接口。解析PDF的时候,有些文字解析是乱码,搜索不到是正常的。你可以用多个解析PDF的API。然后选择出比较好的。
|
|
kexzcle
2010-01-05
lzj0470 写道 可以统一。不同的文档格式,实现不同的接口。解析PDF的时候,有些文字解析是乱码,搜索不到是正常的。你可以用多个解析PDF的API。然后选择出比较好的。
我现在是在web3.0中 不同格式分别解析创建索引 但是PDF这块 PDFBOX是用不了啦,现在正看XPDF解析PDF然后创建索引呢!并且在PPT、html用POI解析时,PPT报错,HTML字体变化就查询不出来 请求指教!! |
|
lzj0470
2010-01-05
我PPT没搞过。什么html字体变化?查询跟字体变化有关系?不太明白你的意思
|
|
kexzcle
2010-01-14
lzj0470 写道 我PPT没搞过。什么html字体变化?查询跟字体变化有关系?不太明白你的意思
不好意思,前几天出差来的,查询时没关系,是用POI解析html后创建索引中,应该是解析问题,字体格式有的解析不过去可能,查询就查不到,请问你有相关的小程序么lucene的。我的邮箱kexzclee@163.com QQ:15036273 希望可以请教下。。 |
|
kexzcle
2010-01-14
collonn 写道 好多解析开源代码都还没有跟上lucene3.0,不如你用lucene2.9吧,至少有3.0有几呼所有新方法,但还没抛弃以前的旧方法。至少这也是个办法。升级也好点吧
2.9中解析PDF也会遇到相同问题。请问你有相关的程序或代码么。。 有的话 加我Q15036273 或 邮箱kexzclee@163.com 谢谢 |
|
TonyLian
2010-01-14
我觉得,不必用:
Document doc = LucenePDFDocument.getDocument( file ); 仅仅用PDFBOX给解析出文本就可以了,如何建Field还是自己来吧。 LZ的另一个帖子我也回了,那里面写了方法。 |
相关讨论
相关资源推荐
- IDEA中web项目如何部署到Tomcat上
- tomcat中独立部署项目
- IntelliJ Idea发布项目到tomcat的方法(包括发布war)
- SpringBoot项目部署到外部Tomcat(Intellij IDEA)
- idea部署eclipse创建的maven,web项目到Tomcat服务器
- idea导入maven项目并部署到tomcat
- 超详细的tomcat部署web项目与idea中配置web项目方法及常见问题解决方法
- Intellij IDEA通过tomcat部署web项目的机制
- IDEA Spring Boot 部署到tomcat
- 前后端分离的项目部署到tomcat_如何部署前后端分离的JavaWeb项目