[其他] PDFBox解析PDF结构问题

zachdu 2009-05-03

刚接触PDFBox,目前需要解析PDF转化为XML,PDF文件是有表格结构的,但现在我用PDFBox解析出来的都是以纯文本格式的,没有结构。我想可能可以用Lucene对PDF进行排序,列出可使用的数据,数据量很小。我今天刚学习PDFBox和Lucene,请教高手是否能用此思路来转化.谢谢

(PDF为纯英文不需要考虑中文编码)

Global site tag (gtag.js) - Google Analytics