[其他] PDFBox解析PDF结构问题
zachdu
2009-05-03
刚接触PDFBox,目前需要解析PDF转化为XML,PDF文件是有表格结构的,但现在我用PDFBox解析出来的都是以纯文本格式的,没有结构。我想可能可以用Lucene对PDF进行排序,列出可使用的数据,数据量很小。我今天刚学习PDFBox和Lucene,请教高手是否能用此思路来转化.谢谢 (PDF为纯英文不需要考虑中文编码) |
zachdu
2009-05-03
刚接触PDFBox,目前需要解析PDF转化为XML,PDF文件是有表格结构的,但现在我用PDFBox解析出来的都是以纯文本格式的,没有结构。我想可能可以用Lucene对PDF进行排序,列出可使用的数据,数据量很小。我今天刚学习PDFBox和Lucene,请教高手是否能用此思路来转化.谢谢 (PDF为纯英文不需要考虑中文编码) |