用lucene做搜索 被搜索的数据一般怎么获取
ppsddt
2009-06-10
用lucene做搜索 被建立索引的的数据对象一般怎么获取,索引数据库?还是用爬虫爬网后索引? 因为有可能会对本地文档索引,所以是不是用爬虫好一些? 如果是用爬虫 有没有好点的爬虫推荐一下 谢谢
|
|
imjl
2009-06-11
数据对象:文档,数据库,网页,其他
我这里是爬取页面信息到本地,然后索引。 至于到底哪类数据源,看你业务需求。如果学习那就是自己写个爬虫 我这里爬虫都是自己写的。 爬虫大致流程 1:拿页面信息 2:正则匹配 3:将匹配到的信息保存到数据库 |
|
luckaway
2009-07-03
如果数据来源是数据库的话,那就自己先爬虫吧! 如果是抓取网页那就用开源的网络爬虫!
收集数据库肯定比爬网页要准确的多!!! |
相关讨论
相关资源推荐
- ember-classy-page-object
- 吃透Java基础五:Class类和Object类
- [源码解析]Class
- java反射中的T_Java反射API研究(3)——java.lang.Class<T>
- Java基础--反射机制简单使用(Class<T>类)
- 深入理解Java类型信息(Class对象)与反射机制
- <T>T getBean(Class<T> requiredType):方法描述中的“唯一的bean实例”是什么意思?唯一体现在哪里?
- tock:计时器ObjectClass。 踢屁股!
- java final object_Java Object Class final Class getClass()方法(带示例)
- 泛型的使用例子 1.传入一个xxx.class对象,返回一个这个对象的实例