“排重与分类统计”模块需求详细说明
jsntcw
2008-08-13
“排重与分类统计”模块需求详细说明
谁能实现?请与我联系QQ:77214014 有报酬。或电邮:tech#sm160.net 一、 商机数据排重处理 要求按会员编号进行排重,每家公司显示的商机数量可以进行控制;在数量小于一定值时,可以自动中止排重功能。 1.1.1. 排重的表现形式 1.1.1.1. 显示1-N条信息 列表中每家公司只显示1-N条产品信息(配置文件可以指定显示的数量), 每家公司最后的一条信息显示隐藏的信息总数,以告知客户还可以查看更多的信息。 < N 条记录时不排重。如果记录偏少时可以不排重,可通过配置指定排重的阀值。 1.1.2. 排重后的排序要求 分类列表模式排序 点分类进入排重列表时的排序要求是:会员等级优先、时间优先; 关键词查询模式排序 排重后的排序要求是:会员等级优先、时间优先(也可以指定相关度优先); 说明:目前项目组已经实现上述功能,但是分页限制较窄,在索引50W条,限制为25页时,排重需要150-200毫秒,在达到100页排重时往往要超过几秒钟,无法达到设计要求。项目方案中对排重的要求是分页上限为500页,排重速度达到50-100毫秒以内; 二、 搜索结果分类统计 1.1.3. 分类统计的表现形式 默认时显示统计量最高的前TOP20(配置文件中可以指定呈现分类的数目)的分类,但用户也可以选择查看全部的统计分类; 1.1.4. 分类统计的误差率 命中:1000条以上:20%误差 命中:100-1000条之间:10%误差 命中:100条以内:5%误差 命中:超大命中集时,分类统计进入超低采样率,例如:关键词出现“公司”、“供应”、“的”(配置文件中可以指定一些导致超大命中集的词或字),分类统计允许99%的误差; 可以根据上述的4种状态(配置文件可以指定误差的条件和阀值)进入不同的统计程序; 1.1.5. 何时中止分类统计 关键词中间出现空格或其他符号 关词长度超过指定长度时拒绝统计 说明:目前分类统计功能也已经实现,但是方法较笨,采用遍历分类进行查询统计,然后采用优先级读取TOP-N的分类统计。也就是说分类越多统计越慢,项目方案中对分类统计的要求是50W索引记录,3000个分类,统计速度50-100毫秒以内; 三、 项目配置选项 1.1.6. 分组统计的配置 呈现分类的数目 导致大命中集的词或字 统计误差的条件和阀值 内存缓存过期时间 数据库缓存过期时间 拒绝统计的符号 关键词长度超过N值拒绝统计 1.1.7. 信息排重的配置 排重后呈现的条数 少于多少条可以不排重 排重后允许的最大页号 |
相关讨论
相关资源推荐
- SDSE2-PORTABLE:强大的编辑器,可翻译Danganronpa 2中的所有文本文件
- mfc 获取C盘信息
- Think Python:Chapter 1:The way of the program 笔记
- idapython
- python修复不了_修复 Python version 2.6 required, which was not found in the registry.
- python多进程共享内存_python 进程间通信 共享内存
- C/C++ 获取当前所有逻辑驱动器的根驱动器路径
- 树莓派python毕业设计_毕业论文--基于树莓派的Python小车研究与实现
- ML之XGBoost:XGBoost算法(Kaggle神器)的简介(原理/特点/核心技术/关键思路)、算法流程(目标函数/评价函数)、案例应用之详细攻略
- 基于Python的飞机大战游戏系统设计与实现