[lucene] 发现Tika0.6升级带来1个好处

TonyLian 2010-03-03
Tika刚刚完成了0.6版的发布。听到这个消息第一反应就是0.5版的一个比较明显的bug是否解决了?

0.5时,UTF-8编码的html网页会解析成乱码,用0.5的朋友,可以把Google的首页另存为一个html文件试一试。


Tika挺逗只发布源码,不提供编译好的jar。
(0.5的jar我也忘了怎么来的了,好像是kexzcle传给我的??)
发现0.5的jar中除了2个配置用的xml文件外,language里还有很多.ngp文件,打开也看不懂,Google一下似乎是什么语义分析用的,无奈0.6的源码里只有.java文件,只能从0.5中提取所有非java文件到0.6中,编译后发现不论是 core 还是 parsers 都比0.5版的小了一点点。(JRE1.5)

比较了一下,0.6中少了一些 XXXXX$1.class 的内部类,命名成1、2,估计是临时测试用的。

但是,最让人兴奋的是,编译的0.6可以工作,而且UTF-8的html解析成乱码的bug解决了!!不必再单独解析Html了!

有相同困扰的朋友可以试一试。
Global site tag (gtag.js) - Google Analytics