[lucene] 工作中用lucene的来,分享下你们的经验把

imjl 2010-03-04
lzj0470 写道
solr还不是在lucene的基础上进行封装的,换句话来说,用lucene能做到7000多万还能保证3秒之内,已经很不错了。加上你是在N久之前做过。至于建立索引字符乱码,爬虫有时候很难做到抓取回来的都不是乱码。我写过一个通用的获取网页编码方式。基本上抓取回来的信息都是正确,但是也有乱码的情况。那种情况很少。在建立索引的时候。应该也是可以去到乱码的问题。


solr是lucene的商业扩展,提交者大部分是lucene的,他们中一部分人现在成立了商业公司。solr在lucene的基础上作了些优化,针对比较常见的需求做了些功能,也提供了比较好的解决方案,常见优化只需要通过修改配置文件就可以完成。管理界面还能看到比较具体功能。

我以前用lucene写过些搜索,当时的感觉就是搜索到信息,排序正确就好了,其实这个只是基础。当时感觉就是一个库的调用。离做一个比较完整的差多了。

当时一直觉得分词分得好就行了,但这个好很难。

imjl 2010-03-04
solr,,国外用的很多

aol啥的

最近开源项目那个source啥的也用它了
yijiangboq 2010-03-09
compass和Lucene的则重点不一样!
shijiyu 2010-03-10
lzj0470 写道
用3.0建立索引,遇到数组越标。
...

看了你的错误提示 应该是IKAnalyzer3.2.0Stable.jar 这个有问题 你把IKAnalyzer3.2的源代码下载下来看下
lzj0470 2010-03-11
shijiyu 写道
lzj0470 写道
用3.0建立索引,遇到数组越标。
...

看了你的错误提示 应该是IKAnalyzer3.2.0Stable.jar 这个有问题 你把IKAnalyzer3.2的源代码下载下来看下

好的,最近忙着别的事情,迟点在看看是怎么回事
strayly 2010-03-22
1百万多数据,一台服务器 Linux 8G内存 4核cpu 硬盘转速中上等,每日pv4万
使用ehcache做缓存,使用单例模式,分了四个索引,目前运行还可以
Global site tag (gtag.js) - Google Analytics