喜欢发短信问问题的同学,请注意

imjl 2008-04-03
有问题请发到圈子里。直接发短信给他人请教问题,是不礼貌的。以后我不会理会。

引用

2008-03-30 yanweidong 发给 我 的消息
标题: 关于lucene 索引的建立
正文:
你好.我在论坛上看到你的贴子.想请教你几个问题我最近要建立一个40W条数据库的索引.可是我用单线程来处理非常的慢.我想采用并发.但是我主要不是做 JAVA的.我是做PHP的.不知道你有没有这方面的代码可以参考一下.谢谢了.我的msn是:weidong35@hotmail.com

不好意思,我从来不提供代码。你可以看下JAVA的多线程。我个人觉得单线程足够了,多线程太过复杂。
索引过程注意: 将所有数据信息添加后,再做commit和optimize,具体优化看下我发的
http://lucene-group.group.iteye.com/group/topic/3147



引用
imjl,你好,我最近在写一个校园网的爬虫程序。我发现我们校园网中的网页好多都是gb2312字符集的,但是也有一些不是这个,这样用lucene demo中的htmlparse来解析的时候就会出现乱码。

我在你的一个回复中看到“爬虫首先要分析目标网页编码,连接数据库字符集,数据库内部字符集定义。保证统一。”

之前我也想只要完成“分析目标网页编码”工作,但是不知道怎么实现。
我是用java写的爬虫,想针对不同字符集的网页在连接的时候使用不同字符集。你能详细的跟我说说这个如何实现吗?

中文通常涉及的字符集UTF-8,GBK,GB2312(排序从大到小)。gb2312转换utf-8: http://www.iteye.com/topic/110233。
目标网页编码通常看“<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>”

建议定个统一格式,我通常是UTF-8,这就是说我在抓取外部数据一旦检查其不是utf-8格式,我就强行将它转换成utf-8(中文网页通常是gb2312,gbk,utf-8), 程序和数据库的链接字符集也是utf-8,数据库定义也全部是utf-8.代码脚本也会存成utf-8格式。

javaeyes 2008-04-03
字符集检测用content_Type只能解决90%的问题.java里面有依据字节信息检测编码的工具,那个基本上能解决问题.比如IBM的ICU4J
lishali12345 2008-04-04
支持楼主啦
不过可能有的人是觉得问题私下里问更好一点吧
不过我个人认为大家一起来讨论,也分享一下会更好一点
到了讨论得比较深刻的时候或者可以选择单独交流吧
呵呵
小弟愚见,见笑~
chencang 2008-04-05
有我的一个问题
谢谢楼主的回答

sorry,以后偶要注意点,不再发短信问了
Global site tag (gtag.js) - Google Analytics