最近更新文章

Lucene Hack之通过缩小搜索结果集来提升性能 (1)

作者:caocao(网络隐士),http://www.caocao.name,http://www.caocao.mobi 转载请注明来源:http://www.iteye.com/topic/78884 一、缘起 Lucene在索引文件上G之后的搜索性能下降很严重,随便跑个搜索就要上0.x秒。如果是单线程搜索那么性能尚可,总可以在0.x秒返回结果,如果是Web式的多线程访问,由于Lucene的内 ...
caocao 评论 (1) 有 1738 人浏览 2011-05-26

基于词典的最大匹配的Lucene中文分词程序

把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词典 ...
billgmh 评论 (0) 有 2875 人浏览 2011-05-26

自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

前一段时间用lucene做一个搜索程序,找了好长时间的中文分词程序,都没找到合适的,最后自己弄了一个.现在共享出来.希望对大家有用. 分词算法: 基于词库的正向最大匹配算法. 分词词库用的是网上一个叫 segmenter 的分词程序使用的词库. 地址:www.mandarintools.com/segmenter.html 这个segmenter分词程序是把文件按行读取出来,然后把一行假设为一个词 ...
jolestar 评论 (1) 有 2991 人浏览 2011-05-26

Lucene相关度排序的调整

如欲转载,请注明作者:caocao,来源http://caocao.iteye.com/。 Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的事情。以 ...
caocao 评论 (5) 有 4538 人浏览 2011-05-26

Lucene中文分词之网络隐士八卦版

俺自己搞了个Lucene中文分词,看到版上qieqie师傅发表的他自己搞的Lucene中文分词,隐士很感兴趣,想进来说两句,注册一把,晕,三天后才可以说话,刚刚可以说话。俺来介绍一下俺的中文分词实现。参考站点:http://so.mdbchina.com 俺的分词做了这么几件事:装载各类词库 —— 中文繁体转简体 —— 初步分词 —— 在初步分词基础上进行运算量可控的二次分词(运算量o(n),n句子 ...
caocao 评论 (0) 有 2065 人浏览 2011-05-26

Lucene中文分词“庖丁解牛”

Lucene中文分词 “庖丁解牛” 附件 为本人设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。 高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。) 高可维护性:使用“庖丁”隐喻,形象明晰 高灵活性,可扩展:OOD 对比:《终于突破中文分词的效率问题》http://www.lucene.org.cn/ ...
Qieqie 评论 (1) 有 2361 人浏览 2011-05-26

Lucene-2.0学习文档(4)

接http://www.iteye.com/topic/39876 下面是搜索的例子: [code] public void SearchSort1() throws IOException, ParseException { IndexSearcher indexSearcher = new IndexSearcher("C:\\indexStore"); QueryParse ...
likunkun 评论 (0) 有 1664 人浏览 2011-05-26

Lucene-2.0学习文档(3)

接http://www.iteye.com/post/190335 到现在我们已经可以用lucene建立索引了 下面介绍一下几个功能来完善一下: 1.索引格式 其实索引目录有两种格式,一种是除配置文件外,每一个Document独立成为一个文件(这种搜索起来会影响速度)。另一种是全部的Document成一个文件,这样属于复合模式就快了。 2.索引文件可放的位置: 索引可以存放在两个地方1.硬盘,2.内 ...
likunkun 评论 (0) 有 2046 人浏览 2011-05-26

Lucene-2.0学习文档(2)

接http://www.iteye.com/post/190334 IndexWriter(File path, Analyzer a, boolean create) IndexWriter(String path, Analyzer a, boolean create) 可见构造它需要一个索引文件目录,一个分析器(一般用标准的这个),最后一个参数是标识是否清空索引目录 它有一些设置参数的功能如: ...
likunkun 评论 (0) 有 1706 人浏览 2011-05-26

Lucene-2.0学习文档(1)

[原创]Lucene-2.0学习文档 作者:Javafish(likunkun) Email:javafish@sunxin.org Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。 其功能非常的强大,api也很简单。总得来说用Lucene来进行建立 和搜索和操作数据库是差不多的(有点像),Document可以看作是 数据库的一行记录,Field可以看作是数据库的 ...
likunkun 评论 (0) 有 2975 人浏览 2011-05-26

搜索篇:lucene简单实例<二>

写文章的时候,感觉比较难写的就是标题,有时候不知道起什么名字好,反正这里写的都是关于lucene的一些简单的实例,就随便起啦. Lucene 其实很简单的,它最主要就是做两件事:建立索引和进行搜索 来看一些在lucene中使用的术语,这里并不打算作详细的介绍,只是点一下而已----因为这一个世界有一种好东西,叫搜索。 IndexWriter:lucene中最重要的的类之一,它主要是用来将文档加入 ...
lighter 评论 (1) 有 3712 人浏览 2011-05-26

知识库信息

最新评论

受用了
阿浊I 评论了 Lucene的评分(score)机制的简单解释
顶 很好啊
mnieguomin 评论了 Heritrix使用的初步总结
,没实质内容,鄙视
foollb 评论了 30分钟搭建一个百万全文搜索
不错不错,学到点东西了。
就叫我雷峰吧 评论了 使用Lucene+Paoding构建SSH2系统的站内搜索
http://50vip.com/?t=lucene这里也有lucene的应用~
wzwahl36 评论了 搜索篇:lucene的简单实例<一>
强烈鄙视标题党!!!
net211211 评论了 30分钟搭建一个百万全文搜索
如何实现更新频繁更新的数据进行实时搜索,求思想Email:hhfsky@126.com谢谢!!
hhfsky 评论了 用Lucene构造简单搜索!
http://blog.csdn.net/main_xtgjfge/article/details/8 ...
main_xtgjfge 评论了 搜索篇:lucene的简单实例<一>
挺好的谢谢
honsty2010 评论了 使用Lucene+Paoding构建SSH2系统的站内搜索
晕,华丽丽的编译出错~~
clsgo 评论了 搜索篇:lucene的简单实例<一>
这个是1.4的吧,Lucene版本间差别有点大
yjp0501 评论了 搜索篇:lucene的简单实例<一>
[flash=200,200][/flash]
junjun871012 评论了 Lucene的评分(score)机制的简单解释
给力
zdlhkblty 评论了 Lucene相关度排序的调整
学习了… [color=darkred][/color]
ahhsxycb 评论了 Lucene(Lucence)建立索引(字段)
哎。题目好大。。。内容很乱。
mebitten 评论了 30分钟搭建一个百万全文搜索
...
liweixw 评论了 30分钟搭建一个百万全文搜索
...
kanwangzjm 评论了 使用Lucene+Paoding构建SSH2系统的站内搜索
[img][/img][url][/url][flash=200,200][/flash]
349153273 评论了 lucene 入门(转)
什么东西?
zhameng 评论了 30分钟搭建一个百万全文搜索
...
rxopt 评论了 使用solr搭建你的全文检索
Global site tag (gtag.js) - Google Analytics