喜欢发短信问问题的同学,请注意
imjl
2008-04-03
有问题请发到圈子里。直接发短信给他人请教问题,是不礼貌的。以后我不会理会。
引用 2008-03-30 yanweidong 发给 我 的消息 标题: 关于lucene 索引的建立 正文: 你好.我在论坛上看到你的贴子.想请教你几个问题我最近要建立一个40W条数据库的索引.可是我用单线程来处理非常的慢.我想采用并发.但是我主要不是做 JAVA的.我是做PHP的.不知道你有没有这方面的代码可以参考一下.谢谢了.我的msn是:weidong35@hotmail.com 不好意思,我从来不提供代码。你可以看下JAVA的多线程。我个人觉得单线程足够了,多线程太过复杂。 索引过程注意: 将所有数据信息添加后,再做commit和optimize,具体优化看下我发的 http://lucene-group.group.iteye.com/group/topic/3147 引用 imjl,你好,我最近在写一个校园网的爬虫程序。我发现我们校园网中的网页好多都是gb2312字符集的,但是也有一些不是这个,这样用lucene demo中的htmlparse来解析的时候就会出现乱码。
我在你的一个回复中看到“爬虫首先要分析目标网页编码,连接数据库字符集,数据库内部字符集定义。保证统一。” 之前我也想只要完成“分析目标网页编码”工作,但是不知道怎么实现。 我是用java写的爬虫,想针对不同字符集的网页在连接的时候使用不同字符集。你能详细的跟我说说这个如何实现吗? 中文通常涉及的字符集UTF-8,GBK,GB2312(排序从大到小)。gb2312转换utf-8: http://www.iteye.com/topic/110233。 目标网页编码通常看“<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"/>” 建议定个统一格式,我通常是UTF-8,这就是说我在抓取外部数据一旦检查其不是utf-8格式,我就强行将它转换成utf-8(中文网页通常是gb2312,gbk,utf-8), 程序和数据库的链接字符集也是utf-8,数据库定义也全部是utf-8.代码脚本也会存成utf-8格式。 |
|
javaeyes
2008-04-03
字符集检测用content_Type只能解决90%的问题.java里面有依据字节信息检测编码的工具,那个基本上能解决问题.比如IBM的ICU4J
|
|
lishali12345
2008-04-04
支持楼主啦
不过可能有的人是觉得问题私下里问更好一点吧 不过我个人认为大家一起来讨论,也分享一下会更好一点 到了讨论得比较深刻的时候或者可以选择单独交流吧 呵呵 小弟愚见,见笑~ |
|
chencang
2008-04-05
有我的一个问题
谢谢楼主的回答 sorry,以后偶要注意点,不再发短信问了 |