[lucene] Lucence 搜索技术
lym6520
2009-03-20
littleJava 写道 楼主有用的中文分词工具吗?是什么分词工具,给个介绍吧
用的是IKAnalyzer。IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是Lucene Analyzer接口的实现。 |
|
myclover
2009-03-20
楼主好强啊
有没有开源啊??? 有相关的Lucene的资料吗? 最近我也想研究一下这个东西 可以给点建议吗? |
|
qqwjz
2009-03-21
创建索引和查询索引不会出现并发问题
你们讨论的并发,到底是什么并发,索引库一个时刻只能有一个写锁独占,没有并发的概念。 请明示 |
|
h_yz
2009-03-22
qqwjz 写道 创建索引和查询索引不会出现并发问题
你们讨论的并发,到底是什么并发,索引库一个时刻只能有一个写锁独占,没有并发的概念。 请明示 同样的问题,讨论的并发是什么并发?? |
|
lym6520
2009-03-23
myclover 写道 楼主好强啊
有没有开源啊??? 有相关的Lucene的资料吗? 最近我也想研究一下这个东西 可以给点建议吗? http://lym6520.iteye.com/admin/blogs/353365 上传了些资料,可以下来看看 |
|
lym6520
2009-03-23
h_yz 写道 qqwjz 写道 创建索引和查询索引不会出现并发问题
你们讨论的并发,到底是什么并发,索引库一个时刻只能有一个写锁独占,没有并发的概念。 请明示 同样的问题,讨论的并发是什么并发?? 在创建或着添加索引的时候,索引文件会被写锁,也就是不能同时写索引,否则抛出:org.apache.lucene.store.LockObtainFailedException: Lock obtain timed out: SimpleFSLock@G:\luceneTest\index\write.lock |
|
fys124974704
2009-03-23
lym6520 写道 h_yz 写道 qqwjz 写道 创建索引和查询索引不会出现并发问题
你们讨论的并发,到底是什么并发,索引库一个时刻只能有一个写锁独占,没有并发的概念。 请明示 同样的问题,讨论的并发是什么并发?? 在创建或着添加索引的时候,索引文件会被写锁,也就是不能同时写索引,否则抛出:org.apache.lucene.store.LockObtainFailedException: Lock obtain timed out: SimpleFSLock@G:\luceneTest\index\write.lock 我曾经见过一个牛人改了lucene的代码,写索引的时候不加write.lock了,也支持并发了!可惜的是不能升级 |
|
lym6520
2009-03-23
fys124974704 写道 lym6520 写道 h_yz 写道 qqwjz 写道 创建索引和查询索引不会出现并发问题
你们讨论的并发,到底是什么并发,索引库一个时刻只能有一个写锁独占,没有并发的概念。 请明示 同样的问题,讨论的并发是什么并发?? 在创建或着添加索引的时候,索引文件会被写锁,也就是不能同时写索引,否则抛出:org.apache.lucene.store.LockObtainFailedException: Lock obtain timed out: SimpleFSLock@G:\luceneTest\index\write.lock 我曾经见过一个牛人改了lucene的代码,写索引的时候不加write.lock了,也支持并发了!可惜的是不能升级 不能升级? |
|
amigobot
2009-03-29
并发可以通过多个索引实现, 当然你得维护多个索引以及他们的同步问题。当然你也可以不用FSDirectory, 自己实现一个其他数据结构的索引, 但性能一般会比倒排表差。
实时间索引也没有什么大问题, 前提是你不能实时的都写到文件系统里面去, 不然光flush操作就会让系统慢很多。 结合这两点, 你可以用很多的index, 小的, 近期的放在内存上, 大的放在文件系统上。 当然你要是考虑删除的效率, 可靠性等等, 就会复杂很多了。 |
|
springbird
2009-03-29
谢谢lz,请问那个建立词库是怎么写的呢,对于一些网页怎么确定字段呢,一些文件又应该怎么处理呢,我是打算用lucene+heritrix,再用spring技术开发个局域网的搜索引擎,正愁怎么做呢
|