用lucene做搜索 被搜索的数据一般怎么获取

ppsddt 2009-06-10
用lucene做搜索 被建立索引的的数据对象一般怎么获取,索引数据库?还是用爬虫爬网后索引? 因为有可能会对本地文档索引,所以是不是用爬虫好一些? 如果是用爬虫 有没有好点的爬虫推荐一下 谢谢
imjl 2009-06-11
数据对象:文档,数据库,网页,其他

我这里是爬取页面信息到本地,然后索引。

至于到底哪类数据源,看你业务需求。如果学习那就是自己写个爬虫

我这里爬虫都是自己写的。

爬虫大致流程
1:拿页面信息 
2:正则匹配
3:将匹配到的信息保存到数据库
luckaway 2009-07-03
如果数据来源是数据库的话,那就自己先爬虫吧! 如果是抓取网页那就用开源的网络爬虫!

收集数据库肯定比爬网页要准确的多!!!
Global site tag (gtag.js) - Google Analytics