“排重与分类统计”模块需求详细说明

jsntcw 2008-08-13
“排重与分类统计”模块需求详细说明

谁能实现?请与我联系QQ:77214014 有报酬。或电邮:tech#sm160.net

一、 商机数据排重处理
要求按会员编号进行排重,每家公司显示的商机数量可以进行控制;在数量小于一定值时,可以自动中止排重功能。
1.1.1. 排重的表现形式
1.1.1.1. 显示1-N条信息
 列表中每家公司只显示1-N条产品信息(配置文件可以指定显示的数量), 每家公司最后的一条信息显示隐藏的信息总数,以告知客户还可以查看更多的信息。
 < N 条记录时不排重。如果记录偏少时可以不排重,可通过配置指定排重的阀值。
1.1.2. 排重后的排序要求
 分类列表模式排序
点分类进入排重列表时的排序要求是:会员等级优先、时间优先;
 关键词查询模式排序
排重后的排序要求是:会员等级优先、时间优先(也可以指定相关度优先);

说明:目前项目组已经实现上述功能,但是分页限制较窄,在索引50W条,限制为25页时,排重需要150-200毫秒,在达到100页排重时往往要超过几秒钟,无法达到设计要求。项目方案中对排重的要求是分页上限为500页,排重速度达到50-100毫秒以内;
二、 搜索结果分类统计
1.1.3. 分类统计的表现形式
默认时显示统计量最高的前TOP20(配置文件中可以指定呈现分类的数目)的分类,但用户也可以选择查看全部的统计分类;
1.1.4. 分类统计的误差率
 命中:1000条以上:20%误差
 命中:100-1000条之间:10%误差
 命中:100条以内:5%误差
 命中:超大命中集时,分类统计进入超低采样率,例如:关键词出现“公司”、“供应”、“的”(配置文件中可以指定一些导致超大命中集的词或字),分类统计允许99%的误差;
可以根据上述的4种状态(配置文件可以指定误差的条件和阀值)进入不同的统计程序;
1.1.5. 何时中止分类统计
 关键词中间出现空格或其他符号
 关词长度超过指定长度时拒绝统计

说明:目前分类统计功能也已经实现,但是方法较笨,采用遍历分类进行查询统计,然后采用优先级读取TOP-N的分类统计。也就是说分类越多统计越慢,项目方案中对分类统计的要求是50W索引记录,3000个分类,统计速度50-100毫秒以内;
三、 项目配置选项
1.1.6. 分组统计的配置
 呈现分类的数目
 导致大命中集的词或字
 统计误差的条件和阀值
 内存缓存过期时间
 数据库缓存过期时间
 拒绝统计的符号
 关键词长度超过N值拒绝统计
1.1.7. 信息排重的配置
 排重后呈现的条数
 少于多少条可以不排重
 排重后允许的最大页号
Global site tag (gtag.js) - Google Analytics