朴素贝叶斯算法—-评论情感分析系统

文章目录

    • 前言
    • Step1: 爬取京东评论,作为模型数据集
      • 测试爬虫
      • 爬取6000条好评信息作为数据集,并存储为CSV文件
      • 爬取4000条差评信息作为数据集,并存储为CSV文件
    • Step2: 读取数据集
    • Step3: 数据预处理(分词、去除停用词、建立词典)
    • Step4: 评论语句 转化为 向量
    • Step5: 拆分数据集—-训练集、测试集
    • Step6: 以朴素贝叶斯算法构建模型、训练模型
    • Step7: 评估模型
    • Step8: 测试评论,输出情绪分类
    • 小结

2022/12/17更新, 由于很多小伙伴需要数据集与代码,我已上传至github,请点击此处获得。

前言

近期学校实验室有一个任务,要求爬取大量评论数据,自己构建机器学习模型并训练数据集,对评论进行情感的分析,即好评或差评。

刚好前天学到了朴素贝叶斯定理, 便根据该定理构建模型,训练数据集,评估模型,并完成了评论情感的分析。

以下是具体实现步骤

Step1: 爬取京东评论,作为模型数据集

爬取10个京东商品的评论信息,每个商品爬取1000条,其中好评信息爬取6000条,差评信息爬取4000条。

作为本次评论情感分析的数据集

测试爬虫

首先测试下爬虫效果,可以爬取评论信息

运行结果

爬取6000条好评信息作为数据集,并存储为CSV文件

商品链接分别为:(每个商品爬取1000条评论)

Apple MacBook Pro 13.3 八核M1芯片 8G 256G SSD 深空灰 笔记本电脑 轻薄本 MYD82CH/A

联想笔记本电脑小新Pro14 英特尔Evo平台 14英寸游戏轻薄本(标压i5 16G 512G 2.8K 90Hz护眼屏)全面屏办公本

华为笔记本电脑MateBook D 14 2022款 14英寸 11代酷睿 i5 16G+512G 锐炬显卡 轻薄本/护眼全面屏 银

联想ThinkBook 14+ 英特尔酷睿i5 笔记本电脑全新2022款 14英寸标压轻薄本i5-12500H 16G 512G 2.8K 90Hz

荣耀MagicBook 16 16.1英寸高性能标压轻薄笔记本电脑(R7-5800H 16+512G 144Hz高刷)冰河银

惠普(HP) 笔记本电脑 星14进阶版高端pro轻薄本超薄商用办公游戏手提学生女超极本旗舰店官 初恋粉:【背光键盘版-新11代进阶丨2022款】 新i5-1155G7/16G/512G/高72%

由于水平原因,总是被反爬虫,所以本段代码需要执行6次(差评需要执行4次),来爬取6000条信息,每次执行需要更换以下ids中的商品id

爬取4000条差评信息作为数据集,并存储为CSV文件

商品链接分别为:(每个商品爬取1000条评论)

联想笔记本电脑小新Pro14 英特尔Evo平台 14英寸游戏轻薄本(标压i5 16G 512G 2.8K 90Hz护眼屏)全面屏办公本

华为笔记本电脑MateBook D 14 2022款 14英寸 11代酷睿 i5 16G+512G 锐炬显卡 轻薄本/护眼全面屏 银

联想笔记本电脑 小新Air14 英特尔酷睿i5 14英寸轻薄本(i5 16G 512G 高色域 大电池)银 全面屏商务办公本

联想笔记本电脑小新Pro16 16英寸游戏轻薄本(8核标压R7-5800H 16G 512G RTX3050 2.5K 120Hz)高性能商务办公

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年11月15日
下一篇 2022年11月15日

相关推荐