爆肝之作,禁止白嫖
词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。
从四行代码开始,一步步教你做出高大上的词云图片,可视化生动直观展示出枯燥文字背后的核心概念。进一步实现修改字体、字 、背景颜色、词云形状、勾勒边框、颜色渐变、分类填色、情感分析等高级玩法。
学完本课之后,你可以将四大名著、古典诗词、时事新闻、法律法规、政府 告、小说诗歌等大段文本做成高大上的可视化词云,还可以将你的微信好友个性签名导出,看看你微信好友的“画风”是怎样的。
从远古山洞壁画到微信表情包,人类千百年来始终都是懒惰的视觉动物。连篇累牍的大段文本会让人感到枯燥乏味。在这个“颜值即正义”的时代,大数据更需要“颜值”才能展现数据挖掘的魅力。
对于编程小白,学会此技可以玩转文本,入门中文分词、情感分析。对于编程高手,通过本课可以进一步熟悉Python的开源 区、计算生态、面向对象,自定义自己专属风格的词云。
词云的应用场景
- 会议记录
- 海 制作
- PPT制作
- 生日表白
- 数据挖掘
- 情感分析
- 用户画像
- 微信聊天记录分析
- 微博情感分析
- Bilibili弹幕情感分析
- 年终总结
安装本课程所需的Python第三方模块
一行命令安装(推荐,适用于99.999%的情况)
打开命令行,输入下面这行命令,回车执行即可。
如果安装过程中 错(0.001%会发生)
如果 错:
解决方法:
到 http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 页面下载所需的wordcloud模块的.whl文件,再用pip安装下载的文件。
比如,对于64位windows操作系统,python版本为3.6的电脑,就应该下载
这个文件
下载后打开命令行,使用cd命令切换到该文件的路径,执行命令,即可安装成功。
四行Python代码上手词云制作
1 词云:《葛底斯堡演说》黑色背景词云(4行代码上手)
运行完成之后,在代码所在的文件夹,就会出现图片文件。可以看出,wordcloud自动将等废话词组过滤掉,并且把出现次数最多的大 显示。
库为每一个词云生成一个WordCloud对象(注意,此处的W和C是大写)
也就是说,代表一个词云对象,我们将它赋值给。
现在,这个就是词云对象啦!我们可以调用这个对象。
我们可以在括 里填入各种参数,控制词云的字体、字 、字的颜色、背景颜色等等。
wordcloud库会非常智能地按空格进行分词及词频统计,出现次数多的词就大。
美化词云
2 词云:面朝大海,春暖花开(配置词云参数)
增加宽、高、字体、背景颜色等参数
如果参数过多,第二行写成长长的一行不好看,可以写成多行,让代码更工整
常用参数
-
width 词云图片宽度,默认400像素
-
height 词云图片高度 默认200像素
-
background_color 词云图片的背景颜色,默认为黑色
-
font_step 字 增大的步进间隔 默认1
font_path 指定字体路径 默认None,对于中文可用
-
mini_font_size 最小字 默认4
-
max_font_size 最大字 根据高度自动调节
-
max_words 最大词数 默认200
-
stop_words 不显示的单词
-
Scale 默认值1。值越大,图像密度越大越清晰
-
prefer_horizontal:默认值0.90,浮点数类型。表示在水平如果不合适,就旋转为垂直方向,水平放置的词数占0.9/p>
-
relative_scaling:默认值0.5,浮点型。设定按词频倒序排列,上一个词相对下一位词的大小倍数。有如下取值:“0”表示大小标准只参考频率排名,“1”如果词频是2倍,大小也是2倍
-
mask 指定词云形状图片,默认为矩形
通过以下代码读入外部词云形状图片(需要先安装imageio)
也就是说,我们可以这样来构建词云对象w,其中的参数均为常用参数的默认值,供我们自定义:
从外部文件读入文本
3 词云:乡村振兴战略中央文件(句子云)
中文分词
中文分词第三方模块
中文分词-小试牛刀
安装中文分词库jieba:在命令行中输入
打开python的界面,也就是有三个大于 的这个界面,依次输入以下命令。
以上代码将一句转换成了,而后者是绘制词云时方法要求传入的参数。
中文分词库的常用方法
:每个字只用一遍,不存在冗余词汇。
:把每个字可能形成的词汇都提取出来,存在冗余。
:将全模式分词的结果从短到长排列好。
以下命令演示了三种分词模式及结果,精确模式是最常用的。
4 词云:大学介绍词云(中文分词)
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!