[lucene] 问个问题,请大家提供点思路。
jays1235
2010-07-11
现在希望用lucene来实现PageRank之类的link-based的排序。数据库是一个文件中含有多个html网页,这样的文件又有很多个,实现pagerank需要有网图,初步打算用邻接表存储网图,
1.请大家给点意见,怎样从这个文件中分割开每个html文件,并且赋予docId号,(2.lucene的docId号是怎样分配的?),而且每个html文件中会有超链接,这些超链接又可能是别的html文件的url地址,怎样让这个url的docId与后边可能出现的另一个html的docId匹配上(如果有匹配的话),我的想法是用hashmap,3.不知道大家有什么意见么? 4.算出PageRank的值后,我打算赋给相应的docId,以备查找的时候用,开始决定用payload,但是发现payload是针对每个term的,不知道大家还有没有什么其他的建议关于存储PageRank的值?以及一些关于修改lucene的score的相关问题的看法都可以。非常感谢!如有意可以加qq聊(947806433),毕竟搜索引擎的相关问题谈起来很复杂! |