Python 词云可视化【爆肝之作】

爆肝之作,禁止白嫖

词云是文本大数据可视化的重要方式,可以将大段文本中的关键语句和词汇高亮展示。

从四行代码开始,一步步教你做出高大上的词云图片,可视化生动直观展示出枯燥文字背后的核心概念。进一步实现修改字体、字 、背景颜色、词云形状、勾勒边框、颜色渐变、分类填色、情感分析等高级玩法。

学完本课之后,你可以将四大名著、古典诗词、时事新闻、法律法规、政府 告、小说诗歌等大段文本做成高大上的可视化词云,还可以将你的微信好友个性签名导出,看看你微信好友的“画风”是怎样的。

从远古山洞壁画到微信表情包,人类千百年来始终都是懒惰的视觉动物。连篇累牍的大段文本会让人感到枯燥乏味。在这个“颜值即正义”的时代,大数据更需要“颜值”才能展现数据挖掘的魅力。

对于编程小白,学会此技可以玩转文本,入门中文分词、情感分析。对于编程高手,通过本课可以进一步熟悉Python的开源 区、计算生态、面向对象,自定义自己专属风格的词云。

词云的应用场景

  • 会议记录
  • 海 制作
  • PPT制作
  • 生日表白
  • 数据挖掘
  • 情感分析
  • 用户画像
  • 微信聊天记录分析
  • 微博情感分析
  • Bilibili弹幕情感分析
  • 年终总结

安装本课程所需的Python第三方模块


一行命令安装(推荐,适用于99.999%的情况)

打开命令行,输入下面这行命令,回车执行即可。

如果安装过程中 错(0.001%会发生)

如果 错:

解决方法:

到 http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud 页面下载所需的wordcloud模块的.whl文件,再用pip安装下载的文件。

比如,对于64位windows操作系统,python版本为3.6的电脑,就应该下载

这个文件

下载后打开命令行,使用cd命令切换到该文件的路径,执行命令,即可安装成功。

四行Python代码上手词云制作


1 词云:《葛底斯堡演说》黑色背景词云(4行代码上手)

运行完成之后,在代码所在的文件夹,就会出现图片文件。可以看出,wordcloud自动将等废话词组过滤掉,并且把出现次数最多的大 显示。


库为每一个词云生成一个WordCloud对象(注意,此处的W和C是大写)

也就是说,代表一个词云对象,我们将它赋值给。

现在,这个就是词云对象啦!我们可以调用这个对象。

我们可以在括 里填入各种参数,控制词云的字体、字 、字的颜色、背景颜色等等。

wordcloud库会非常智能地按空格进行分词及词频统计,出现次数多的词就大。

美化词云


2 词云:面朝大海,春暖花开(配置词云参数)

增加宽、高、字体、背景颜色等参数

如果参数过多,第二行写成长长的一行不好看,可以写成多行,让代码更工整

常用参数

  • width 词云图片宽度,默认400像素

  • height 词云图片高度 默认200像素

  • background_color 词云图片的背景颜色,默认为黑色

  • font_step 字 增大的步进间隔 默认1

    font_path 指定字体路径 默认None,对于中文可用

  • mini_font_size 最小字 默认4

  • max_font_size 最大字 根据高度自动调节

  • max_words 最大词数 默认200

  • stop_words 不显示的单词 

  • Scale 默认值1。值越大,图像密度越大越清晰

  • prefer_horizontal:默认值0.90,浮点数类型。表示在水平如果不合适,就旋转为垂直方向,水平放置的词数占0.9/p>

  • relative_scaling:默认值0.5,浮点型。设定按词频倒序排列,上一个词相对下一位词的大小倍数。有如下取值:“0”表示大小标准只参考频率排名,“1”如果词频是2倍,大小也是2倍

  • mask 指定词云形状图片,默认为矩形

    通过以下代码读入外部词云形状图片(需要先安装imageio)

也就是说,我们可以这样来构建词云对象w,其中的参数均为常用参数的默认值,供我们自定义:

从外部文件读入文本


3 词云:乡村振兴战略中央文件(句子云)

中文分词


中文分词第三方模块

中文分词-小试牛刀

安装中文分词库jieba:在命令行中输入

打开python的界面,也就是有三个大于 的这个界面,依次输入以下命令。

以上代码将一句转换成了,而后者是绘制词云时方法要求传入的参数。

中文分词库的常用方法

:每个字只用一遍,不存在冗余词汇。

:把每个字可能形成的词汇都提取出来,存在冗余。

:将全模式分词的结果从短到长排列好。

以下命令演示了三种分词模式及结果,精确模式是最常用的。

4 词云:大学介绍词云(中文分词)

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年11月25日
下一篇 2020年11月25日

相关推荐