喜欢发短信问问题的同学，请注意

imjl 2008-04-03

有问题请发到圈子里。直接发短信给他人请教问题，是不礼貌的。以后我不会理会。

引用

2008-03-30 yanweidong 发给我的消息
标题: 关于lucene 索引的建立
正文:
你好.我在论坛上看到你的贴子.想请教你几个问题我最近要建立一个40W条数据库的索引.可是我用单线程来处理非常的慢.我想采用并发.但是我主要不是做 JAVA的.我是做PHP的.不知道你有没有这方面的代码可以参考一下.谢谢了.我的msn是:weidong35@hotmail.com

不好意思，我从来不提供代码。你可以看下JAVA的多线程。我个人觉得单线程足够了，多线程太过复杂。
索引过程注意：将所有数据信息添加后，再做commit和optimize，具体优化看下我发的
http://lucene-group.group.iteye.com/group/topic/3147

引用

imjl，你好，我最近在写一个校园网的爬虫程序。我发现我们校园网中的网页好多都是gb2312字符集的，但是也有一些不是这个，这样用lucene demo中的htmlparse来解析的时候就会出现乱码。

我在你的一个回复中看到“爬虫首先要分析目标网页编码，连接数据库字符集，数据库内部字符集定义。保证统一。”

之前我也想只要完成“分析目标网页编码”工作，但是不知道怎么实现。
我是用java写的爬虫，想针对不同字符集的网页在连接的时候使用不同字符集。你能详细的跟我说说这个如何实现吗？

中文通常涉及的字符集UTF-8,GBK,GB2312(排序从大到小)。gb2312转换utf-8: http://www.iteye.com/topic/110233。
目标网页编码通常看“<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>”

建议定个统一格式，我通常是UTF-8，这就是说我在抓取外部数据一旦检查其不是utf-8格式，我就强行将它转换成utf-8（中文网页通常是gb2312，gbk，utf-8），程序和数据库的链接字符集也是utf-8，数据库定义也全部是utf-8.代码脚本也会存成utf-8格式。

javaeyes 2008-04-03

字符集检测用content_Type只能解决90％的问题.java里面有依据字节信息检测编码的工具，那个基本上能解决问题.比如IBM的ICU4J

lishali12345 2008-04-04

支持楼主啦
不过可能有的人是觉得问题私下里问更好一点吧
不过我个人认为大家一起来讨论，也分享一下会更好一点
到了讨论得比较深刻的时候或者可以选择单独交流吧
呵呵
小弟愚见，见笑~

chencang 2008-04-05

有我的一个问题

谢谢楼主的回答

sorry，以后偶要注意点，不再发短信问了

发表回复

>>返回群组首页

喜欢发短信问问题的同学，请注意

相关讨论

相关资源推荐