[lucene] 网络爬虫如何设计最佳
lzj0470
2010-02-07
先来说一下我的粗略设计。
一般来说,垂直搜索引擎是提供某一行业或某一领域信息的服务。而网络爬虫设计的好坏直接影响到搜索结果精确性。为了得到搜索结果精确性。网络爬虫设计一般都是针对具体网站进行分析。这样的设计,可以一定程序上提高搜索的精确。但这样也会带来一定的问题。如:网页不规范、网页规则更新过快、维护难、投入时间长、人力多、物力多等问题。为了解决这些的问题,在原来的设计基础上再做修改。大概说一下设计,针对某一网站某一模块进行配置网页规则,这样做好处是基本上不用针对性写某一网站的代码,可以说解决掉维护难、投入时间长、人力多、物力的问题。还有两个比较头疼的问题(网页不规范、网页规则更新过快),再在原来的基础上进行修改,好像不太可能拉。于是,想到另外一个设计的方案。抛开精度问题,重新设计面向网页的方案。也就是自动抽取网页中你最关心的内容。打个比方。搜索引擎,都有标题,内容,时间,URL。那么就是你要抽取去网页中这些信息,其他信息不需要。听起来好像是不错,但是技术难度比较高,实现起来比较困难。目前我也没很好的实现,效果不佳。 不知道各位做过爬虫的朋友,你是怎么设计? |
|
imjl
2010-02-08
我当时的情况是这样的,爬取的网站是指定的。
所以我先写了个测试爬虫,寻找共性。 然后针对共性写爬虫,看其爬取的准确率。 再不满足的网站再次分类寻找其共性。 说得比较简单,但做起来会碰到很多问题,这个只能靠自己在实践中解决了。 |
|
lzj0470
2010-02-08
提示imjl已经回答,但是我却看不到。晕~~
|
|
smilebug
2010-02-08
没有好的算法就一个网站一个网站写
用动态groovy一类的来写解析器,网站有更新就更新解析器 方法笨了点,但没啥技术难点 |
|
ivan.zhuang
2010-02-26
可以结合web-harvest针对不同的网站来实现
|
|
lzj0470
2010-02-26
web-harvest 效果怎么样。我没用过。
|