截至2020年12月,我国手机 民规模达9.86亿。移动互联 时代,个人信息和用户数据成为重要的商业资源。一些企业和个人为牟取经济利益,导致垃圾短信频发,让人们不胜其扰。保护私生活安宁已经成为一项迫切需要解决的 会问题。
用户迫切的需要一种快速、有效的垃圾短信识别方法。通过垃圾短信的精准识别,以完善用户的通讯环境,为有关部门提供有效依据,维护运营商利益。数据挖掘平台Smartbi也不甘示弱,为了能尽快解决垃圾短信的问题,Smartbi利用Smartbi Mining进行建模,使用随机森林文本分类算法建立合理的短信识别模型,对垃圾短信进行识别,解决运营商和手机用户的困扰。
Smartbi mining数据挖掘平台将操作分为四个步骤:
-
数据获取,获取所需数据集;
-
数据预处理,对数据进行文本中文分词、停用词过滤处理等;
-
模型构建与评价,构建随机森林模型,并建立评价指标精确率、召回率、F1值对模型分类效果进行评价。
-
分析结果,总结和建议。
1数据获取
目前,某运营商已经积累了大量的垃圾短信数据。经过加工处理数据如图3-2所示。本案例收集了295755条短信文本数据,字段说明见表3-1。
表3-1 字段说明
图3-2 数据集
图3-4 分词
2.2、停用词处理
中文表达中常常包含许多功能性词语,相比于其它词汇,功能性词语并没有太多的实际含义。最常用的功能性词语是限定词,如“的”、“一个”、“这”、“那”等。这些词语的使用较大的作用仅仅是协助一些文本的名词描述和概念表达。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。
我们选择_c2_seg_words列,接入一个停用词处理节点,自定义停用词列表,如图3-5所示,输出结果如图3-6所示。
图3-6 停用词处理
2.3、TF-IDF
由于文本数据无法直接用于建模,因此需要将文本表示成计算机能够直接处理的形式,即文本数字化。TF-IDF算法即将文本数据进行数值化。TF意思是词频,IDF意思是逆文本频率指数,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF值越高,说明该词越重要。
我们接入TF-IDF算法进行抽取变换,输出结果如图3-6所示。
图3-7 数据预处理
3 构建模型
本案例采用随机森林算法模型,通过特征选择_c2_seg_words_filtered_idf列,目标标签为target,整体模型训练预测如图3-8所示。
图3-9 参数配置
4 模型评价
通过评估节点接入,如图3-8所示,评估结果如图3-10所示。
分析结果得出F1分数达到0.91,说明该模型效果比较不错的。
该模型能较好地识别出垃圾短信,有效进行垃圾短信过滤,解决运营商及用户的困扰。
Smartbi数据挖掘平台这个案例运用短信数据,对垃圾短信进行识别。主要实现了垃圾短信的精确识别,通过获得以上挖掘结果,为相关运营商提供一种解决垃圾短信过滤问题的方案。
思迈特软件统一登录平台
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!