第四章:用Python对用户的评论数据进行情感倾向分析

文章目录

  • 项目背景
  • 获取数据
  • 情感倾向
    • senta_bilstm 模型
    • 情感划分
  • 数据描述
  • 数据分析
    • 总体评论倾向
    • 评论分布
    • 各分布的情感倾向
  • 评论分词
    • 去除停用词
    • 绘制词云图
  • 结论
  1. 使用 pandas 中的 read_sql 读取 sqlite 中的数据
  2. 使用飞浆模型 senta_bilstm 对评论数据进行情感分析
  3. 使用飞浆模型 lac 对评论数据进行分词
  4. 使用 groupby+agg 方法统计评论主题中消极和积极用户分布
  5. 使用 value_counts 方法统计整体评论分布情况
  6. 使用 pyecharts 绘制柱状图、词云图

数据解释:

user_id:用户id

username:用户名

age:年龄

content:评论内容

sentiment_value:情感值【0消极,1积极,-1未知】(用飞浆重写训练得到情感值)

create_time:评论时间

subject:评论主题

情感倾向

小凡使用百度飞浆(paddlepaddle)模型库中的情感分析模型,将评论数据(content)转化为情感类别【积极1,消极0】

senta_bilstm 模型

一、window10+anaconda3的安装命令:

其他安装飞浆命令:官 地址

二、安装预训练模型应用工具 PaddleHub

飞浆模型库地址:官 地址

飞浆情感分析模型介绍:官 地址

情感划分

将 negative_probs>=0.7 的定义为消极

数据分析

总体评论倾向

用户的评论内容多集中在配置、音质等主题上

各分布的情感倾向

评论分词

这里使用百度飞浆的LAC分词模型

飞浆LAC分词模型:官 地址

去除停用词

绘制词云图

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年1月9日
下一篇 2022年1月9日

相关推荐