关于用lucene做检索 索引对象的获取方式
ppsddt
2009-05-21
想用lucene做检索,检索对象是网站上的内容(自己的网站)以及一些本地的文档,本地文档比较好处理,直接索引就好了,网站上的内容我打算用爬虫爬下来再索引,这个又涉及到用什么爬虫的问题了?看了一些 nutch 和 heritrix 的资料 不过nutch的话不仅要在命令行启动而且它把爬下来的都页面都建立了索引(我只找到了它建立好的索引文件,没找到我需要爬下来的网页文件) ,heritrix 也是同样的问题 爬完一个网站后 我找不到我所需要的。不知道有没有人遇到过通类的问题,希望能分享一下
我所需要的“爬虫”是我设定好了要爬的网站,它就会去把所有设定在内的网页都down下来,索引与检索我自己来完成,也就是说我现在的问题就是 数据源 怎么获取? |
|
luckaway
2009-05-21
做公司的产品,还是单纯的为了学习?
自己的网站最好是从数据库里去获取,从网页抓取下来,数据分类肯定会不精确的!自己还要实现网页分析器 |
|
ppsddt
2009-05-21
恩,谢谢上面的回答
我是做公司的项目,虽然说目前查询的内容都是在自己服务器上的,不过不排除以后会去搜索兄弟 部门的东西,索引数据库可能会引起不便了,所以如果要用爬虫,有什么好的解决方法吗? |
|
luckaway
2009-05-22
没做过爬虫!!!
|
|
imjl
2009-05-22
自己写个吧
|
|
wangzhenjava
2010-05-26
我现在做项目是遇到了和您同样的问题,就是用nutch去爬指定的网站,当它爬完后会自动建立索引,我现在用lucene对建好的索引进行搜索,可以拿到标题,和链接地址,但是就是不知道怎么样得到网页的contetn,如果您了解,就给兄弟讲下啊,谢谢……我的邮箱是wangzhenjava@163.com
|
|
ctxyzhanwei
2010-05-28
Heritrix+lucene
|