网络爬虫如何设计最佳 - lucene - lucene爱好者

[lucene] 网络爬虫如何设计最佳

lzj0470 2010-02-07

先来说一下我的粗略设计。
一般来说，垂直搜索引擎是提供某一行业或某一领域信息的服务。而网络爬虫设计的好坏直接影响到搜索结果精确性。为了得到搜索结果精确性。网络爬虫设计一般都是针对具体网站进行分析。这样的设计，可以一定程序上提高搜索的精确。但这样也会带来一定的问题。如：网页不规范、网页规则更新过快、维护难、投入时间长、人力多、物力多等问题。为了解决这些的问题，在原来的设计基础上再做修改。大概说一下设计，针对某一网站某一模块进行配置网页规则，这样做好处是基本上不用针对性写某一网站的代码，可以说解决掉维护难、投入时间长、人力多、物力的问题。还有两个比较头疼的问题（网页不规范、网页规则更新过快），再在原来的基础上进行修改，好像不太可能拉。于是，想到另外一个设计的方案。抛开精度问题，重新设计面向网页的方案。也就是自动抽取网页中你最关心的内容。打个比方。搜索引擎，都有标题，内容，时间，URL。那么就是你要抽取去网页中这些信息，其他信息不需要。听起来好像是不错，但是技术难度比较高，实现起来比较困难。目前我也没很好的实现，效果不佳。
不知道各位做过爬虫的朋友，你是怎么设计？

imjl 2010-02-08

我当时的情况是这样的，爬取的网站是指定的。

所以我先写了个测试爬虫，寻找共性。

然后针对共性写爬虫，看其爬取的准确率。

再不满足的网站再次分类寻找其共性。

说得比较简单，但做起来会碰到很多问题，这个只能靠自己在实践中解决了。

lzj0470 2010-02-08

提示imjl已经回答，但是我却看不到。晕~~

smilebug 2010-02-08

没有好的算法就一个网站一个网站写
用动态groovy一类的来写解析器，网站有更新就更新解析器
方法笨了点，但没啥技术难点

ivan.zhuang 2010-02-26

可以结合web-harvest针对不同的网站来实现

lzj0470 2010-02-26

web-harvest 效果怎么样。我没用过。

发表回复

>>返回群组首页

[lucene] 网络爬虫如何设计最佳

相关讨论

相关资源推荐