热词的识别与提取算法
标签(空格分隔):SPARK机器学习
本小小草的微信 ,并求带飞~
热词排名法二:牛顿冷却定律
将热词排名想象成一个即自然冷却的过程。可以利用物理学定律,建立“温度”与“时间”之间的函数关系,构建一个“指数式衰减”的过程。
牛顿冷却定律:物体的冷却速度,与其当前温度与室温之间的温差成正比。
若仅仅使用今天与昨天的搜索量对比,时间差为1,最终的冷却系数可以通过如下公式计算:
3.实验设计
3.1 数据获取
3.2 热词的评价标准
(1)统计词语一周内的词频,词频在当天未峰值,并大于某一阀值
(2)该峰值与起始值差值大于某一阀值
(3)热度值大于某一阀值
写成公式,可如下表示:
4.实验过程
4.1 贝叶斯平均实验
今天的词频比昨天的词频增长地越多,那么说明这个词今天越热,但是如何表示这个增长呢先肯定会想到减法,让今天的词频减去昨天的词频,差越大表示热度越大,但是以下两个词就戳穿了这个逻辑的BUG:
好男儿从0到441,搜索量猛增,男同志虽然也增长了那么多,但他本来基数就大,所以好男儿更应该被选为热词。故光看增长量是有误区的
比如计算“俞思远”这个词的热度,套用以上公式
4.2 牛顿冷却定律实验
利用以上提到的牛顿冷却定律的公式对以上词语进行计算,可以得到每个词的冷却系数。冷却系数越低则说明热度越大,如下表:
牛顿冷却定律相比于贝叶斯平均法的有点在于其热度的变化比较清晰。但是,对于(当前词频)/(历史词频)的比值较大的词估计过高,贝叶斯平均法则没有这个问题
4.3 热词评价值的改进
改进热词评价后,以下是计算出的新热度值
文章知识点与官方知识档案匹配,可进一步学习相关知识算法技能树首页概览33962 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!