“排重与分类统计”模块需求详细说明

jsntcw 2008-08-13

“排重与分类统计”模块需求详细说明

谁能实现？请与我联系QQ：77214014 有报酬。或电邮：tech#sm160.net

一、商机数据排重处理
要求按会员编号进行排重，每家公司显示的商机数量可以进行控制；在数量小于一定值时，可以自动中止排重功能。
1.1.1. 排重的表现形式
1.1.1.1. 显示1-N条信息
 列表中每家公司只显示1-N条产品信息（配置文件可以指定显示的数量）, 每家公司最后的一条信息显示隐藏的信息总数，以告知客户还可以查看更多的信息。
 < N 条记录时不排重。如果记录偏少时可以不排重，可通过配置指定排重的阀值。
1.1.2. 排重后的排序要求
 分类列表模式排序
点分类进入排重列表时的排序要求是：会员等级优先、时间优先；
 关键词查询模式排序
排重后的排序要求是：会员等级优先、时间优先（也可以指定相关度优先）；

说明：目前项目组已经实现上述功能，但是分页限制较窄，在索引50W条，限制为25页时，排重需要150-200毫秒，在达到100页排重时往往要超过几秒钟，无法达到设计要求。项目方案中对排重的要求是分页上限为500页，排重速度达到50-100毫秒以内；
二、搜索结果分类统计
1.1.3. 分类统计的表现形式
默认时显示统计量最高的前TOP20（配置文件中可以指定呈现分类的数目）的分类，但用户也可以选择查看全部的统计分类；
1.1.4. 分类统计的误差率
 命中：1000条以上：20%误差
 命中：100-1000条之间：10%误差
 命中：100条以内：5%误差
 命中：超大命中集时，分类统计进入超低采样率，例如：关键词出现“公司”、“供应”、“的”（配置文件中可以指定一些导致超大命中集的词或字），分类统计允许99%的误差；
可以根据上述的4种状态（配置文件可以指定误差的条件和阀值）进入不同的统计程序；
1.1.5. 何时中止分类统计
 关键词中间出现空格或其他符号
 关词长度超过指定长度时拒绝统计

说明：目前分类统计功能也已经实现，但是方法较笨，采用遍历分类进行查询统计，然后采用优先级读取TOP-N的分类统计。也就是说分类越多统计越慢，项目方案中对分类统计的要求是50W索引记录，3000个分类，统计速度50-100毫秒以内；
三、项目配置选项
1.1.6. 分组统计的配置
 呈现分类的数目
 导致大命中集的词或字
 统计误差的条件和阀值
 内存缓存过期时间
 数据库缓存过期时间
 拒绝统计的符号
 关键词长度超过N值拒绝统计
1.1.7. 信息排重的配置
 排重后呈现的条数
 少于多少条可以不排重
 排重后允许的最大页号

发表回复

>>返回群组首页

“排重与分类统计”模块需求详细说明

相关讨论

相关资源推荐