基于R软件对qq消息可视化给分析的实现

关注天善智能,走好数据之路↑↑↑

天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直 区,学习,问答、求职一站式搞定!

你没有看错,其实这是我们跑团推出的第一篇技术文章

其实有着想法很久了,碍于各种事情一拖再拖,现在也是实现了几个小功能,但是我想最后的动力就是先分享出来,看到大家的反响之后再做新的东西出来。如果有感兴趣的同学,我们可以一起去做更多有意思的事情~~~

下面进入正题

——基于R软件的qqmining包对qq消息可视化给分析的实现

R软件的安装

R(https://www.r-project.org/)

官 如上,剩下的需要你自己去百度探索了

R Package的安装

这一步是基于你已经安装好了R软件,开始安装R Package, 这里就不由得感叹下程序员的厉害,r+package的模式,使得r成为轻量好用的统计分析软件,用什么包下载什么包,很是愉快。

仅用四行代码就可以挖掘你的QQ聊天记录(仅用四行代码就可以挖掘你的QQ聊天记录)

rJava,Rwordseg,dplyr,wordcloud2,ggplot2

基于java环境

因为对句子的分析是建立在对词的分析上的,所以我们需要对句子做分词,这个工作国内外已经很成熟了,不同的软件有不同的方式,我们这里采用的是Rwordseg,是基于java环境的,所以下面简单介绍下windows10安装java环境的步骤

认识java

安装java指南(
https://www.shiyanlou.com/courses/18/labs/94/document)

根据上面的信息,全程配置java环境大概20分钟

里面有个坑,配置好了javac命令无效,其实是配置好了的,只需要关闭dos或者重启下机器就好了~~~~

关于Rwordseg以及rJava的安装

关于Rwordseg以及rJava的安装(
http://bbs.pinggu.org/thread-3167152-1-1.html)

Rwordseg、Rweibo、tm的安装

参考 站:[Rwordseg、Rweibo、tm的安装] (
http://www.dataguru.cn/thread-482875-1-1.html)

推荐 址:R-Forge(
https://r-forge.r-project.org/R/?group_id=1054),安装很多官 没有的包

开始qqmining

topic

下面,环境都配置好了,我们进入正题,开始分析我们的跑群聊天消息

时间大概只有3-5月的聊天记录,可怕的是,居然有19912条记录

聊天条数.png

平均每人100条发言,充分说明,我们的跑步 团是很活跃的,下面我们具体来看下同学们讨论的有哪些topic

没删除停词的时候,效果不是很理想(频率最高的是‘的’‘我们’之类的==)

删掉停词后,发【图片】,【表情】是同学们发的最多的,但是这个对于topic没有什么意义,当然也可以理解为现在是图文化的主流,但是图片信息不能观察到topic,所以我们将图片和表情加入到停词后,就得到了最后的词云

取前150出现的次词频当当当~~~~

top150词云.png

取前50%的词频:

top50%词云.png

图中是有彩蛋的,分词分的还不错,可以找的很多熟悉的名字哦

所以努力水群,下次让我们看到你

time

time_freq.png

看时间,主要水群的时间是晚上下课之后,而且按照我们以往打卡的经验,跑虫们更喜欢夜跑,所以有问题找大佬,记得晚上发消息,大佬会看到的几率更大~

后续

后续还会增加:

1.每周聊天频率分布

2.十大活跃id

3.观察每月的聊天峰值

4.连续对话的次数(以三十分钟为间隔,可以很好地体现出一个 群的活跃程度)

5. 交 络图

6.找到配对(邪恶脸)

我有话说:跑团里的每个人都可以用自己的专业把自己和跑步的故事讲出来,那将是我们的故事

参考:

R语言做文本挖掘 (
http://f.dataguru.cn/thread-493366-1-1.html)

使用 R 语言挖掘 QQ 群聊天记录(使用 R 语言挖掘 QQ 群聊天记录)

天善学院谢佳标老师R语言系列好课推荐:
https://edu.hellobi.com/classroom/1/courses

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年4月26日
下一篇 2017年4月27日

相关推荐