文章目录
- 项目背景
- 获取数据
- 情感倾向
-
- senta_bilstm 模型
- 情感划分
- 数据描述
- 数据分析
-
- 总体评论倾向
- 评论分布
- 各分布的情感倾向
- 评论分词
-
- 去除停用词
- 绘制词云图
- 结论
- 使用 pandas 中的 read_sql 读取 sqlite 中的数据
- 使用飞浆模型 senta_bilstm 对评论数据进行情感分析
- 使用飞浆模型 lac 对评论数据进行分词
- 使用 groupby+agg 方法统计评论主题中消极和积极用户分布
- 使用 value_counts 方法统计整体评论分布情况
- 使用 pyecharts 绘制柱状图、词云图
数据解释:
user_id:用户id
username:用户名
age:年龄
content:评论内容
sentiment_value:情感值【0消极,1积极,-1未知】(用飞浆重写训练得到情感值)
create_time:评论时间
subject:评论主题
情感倾向
小凡使用百度飞浆(paddlepaddle)模型库中的情感分析模型,将评论数据(content)转化为情感类别【积极1,消极0】
senta_bilstm 模型
一、window10+anaconda3的安装命令:
其他安装飞浆命令:官 地址
二、安装预训练模型应用工具 PaddleHub
飞浆模型库地址:官 地址
飞浆情感分析模型介绍:官 地址
情感划分
将 negative_probs>=0.7 的定义为消极
数据分析
总体评论倾向
用户的评论内容多集中在配置、音质等主题上
各分布的情感倾向
评论分词
这里使用百度飞浆的LAC分词模型
飞浆LAC分词模型:官 地址
去除停用词
绘制词云图
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!