文章目录
-
- 前言
- Step1: 爬取京东评论,作为模型数据集
-
- 测试爬虫
- 爬取6000条好评信息作为数据集,并存储为CSV文件
- 爬取4000条差评信息作为数据集,并存储为CSV文件
- Step2: 读取数据集
- Step3: 数据预处理(分词、去除停用词、建立词典)
- Step4: 评论语句 转化为 向量
- Step5: 拆分数据集—-训练集、测试集
- Step6: 以朴素贝叶斯算法构建模型、训练模型
- Step7: 评估模型
- Step8: 测试评论,输出情绪分类
- 小结
2022/12/17更新, 由于很多小伙伴需要数据集与代码,我已上传至github,请点击此处获得。
前言
近期学校实验室有一个任务,要求爬取大量评论数据,自己构建机器学习模型并训练数据集,对评论进行情感的分析,即好评或差评。
刚好前天学到了朴素贝叶斯定理, 便根据该定理构建模型,训练数据集,评估模型,并完成了评论情感的分析。
以下是具体实现步骤
Step1: 爬取京东评论,作为模型数据集
爬取10个京东商品的评论信息,每个商品爬取1000条,其中好评信息爬取6000条,差评信息爬取4000条。
作为本次评论情感分析的数据集。
测试爬虫
首先测试下爬虫效果,可以爬取评论信息
运行结果
爬取6000条好评信息作为数据集,并存储为CSV文件
商品链接分别为:(每个商品爬取1000条评论)
Apple MacBook Pro 13.3 八核M1芯片 8G 256G SSD 深空灰 笔记本电脑 轻薄本 MYD82CH/A
联想笔记本电脑小新Pro14 英特尔Evo平台 14英寸游戏轻薄本(标压i5 16G 512G 2.8K 90Hz护眼屏)全面屏办公本
华为笔记本电脑MateBook D 14 2022款 14英寸 11代酷睿 i5 16G+512G 锐炬显卡 轻薄本/护眼全面屏 银
联想ThinkBook 14+ 英特尔酷睿i5 笔记本电脑全新2022款 14英寸标压轻薄本i5-12500H 16G 512G 2.8K 90Hz
荣耀MagicBook 16 16.1英寸高性能标压轻薄笔记本电脑(R7-5800H 16+512G 144Hz高刷)冰河银
惠普(HP) 笔记本电脑 星14进阶版高端pro轻薄本超薄商用办公游戏手提学生女超极本旗舰店官 初恋粉:【背光键盘版-新11代进阶丨2022款】 新i5-1155G7/16G/512G/高72%
由于水平原因,总是被反爬虫,所以本段代码需要执行6次(差评需要执行4次),来爬取6000条信息,每次执行需要更换以下ids中的商品id。
爬取4000条差评信息作为数据集,并存储为CSV文件
商品链接分别为:(每个商品爬取1000条评论)
联想笔记本电脑小新Pro14 英特尔Evo平台 14英寸游戏轻薄本(标压i5 16G 512G 2.8K 90Hz护眼屏)全面屏办公本
华为笔记本电脑MateBook D 14 2022款 14英寸 11代酷睿 i5 16G+512G 锐炬显卡 轻薄本/护眼全面屏 银
联想笔记本电脑 小新Air14 英特尔酷睿i5 14英寸轻薄本(i5 16G 512G 高色域 大电池)银 全面屏商务办公本
联想笔记本电脑小新Pro16 16英寸游戏轻薄本(8核标压R7-5800H 16G 512G RTX3050 2.5K 120Hz)高性能商务办公
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!