关于用lucene做检索索引对象的获取方式 - lucene爱好者 - ITeye群组

群组首页 → 企业架构 → lucene爱好者 → 论坛

关于用lucene做检索索引对象的获取方式

ppsddt 2009-05-21

想用lucene做检索，检索对象是网站上的内容（自己的网站）以及一些本地的文档，本地文档比较好处理，直接索引就好了，网站上的内容我打算用爬虫爬下来再索引，这个又涉及到用什么爬虫的问题了？看了一些 nutch 和 heritrix 的资料不过nutch的话不仅要在命令行启动而且它把爬下来的都页面都建立了索引（我只找到了它建立好的索引文件，没找到我需要爬下来的网页文件），heritrix 也是同样的问题爬完一个网站后我找不到我所需要的。不知道有没有人遇到过通类的问题，希望能分享一下

我所需要的“爬虫”是我设定好了要爬的网站，它就会去把所有设定在内的网页都down下来，索引与检索我自己来完成，也就是说我现在的问题就是数据源怎么获取？

luckaway 2009-05-21

做公司的产品，还是单纯的为了学习？

自己的网站最好是从数据库里去获取，从网页抓取下来，数据分类肯定会不精确的！自己还要实现网页分析器

ppsddt 2009-05-21

恩，谢谢上面的回答

我是做公司的项目，虽然说目前查询的内容都是在自己服务器上的，不过不排除以后会去搜索兄弟部门的东西，索引数据库可能会引起不便了，所以如果要用爬虫，有什么好的解决方法吗？

luckaway 2009-05-22

没做过爬虫！！！

imjl 2009-05-22

自己写个吧

wangzhenjava 2010-05-26

我现在做项目是遇到了和您同样的问题，就是用nutch去爬指定的网站，当它爬完后会自动建立索引，我现在用lucene对建好的索引进行搜索，可以拿到标题，和链接地址，但是就是不知道怎么样得到网页的contetn，如果您了解，就给兄弟讲下啊，谢谢……我的邮箱是wangzhenjava@163.com

ctxyzhanwei 2010-05-28

Heritrix+lucene

>>返回群组首页

相关讨论

相关资源推荐

Global site tag (gtag.js) - Google Analytics