[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解

文章目录

  • 一.词云技术
    • 1.词云
    • 2.安装WordCloud
  • 二.WordCloud基本用法
    • 1.快速入门
    • 2.中文编码问题
    • 3.词云形状化
  • 三.文档主题模型
    • 1.LDA主题模型
    • 2.LDA安装过程
  • 四.LDA基本用法及实例
    • 1.初始化操作
    • 2.计算文档主题分布
    • 3.主题关键词的Top-N
    • 4.可视化处理
  • 五.总结

下载地址:

  • https://github.com/eastmountyxz/Python-zero2one

前文赏析:

第一部分 基础语法

  • [Python从零到壹] 一.为什么我们要学Python及基础语法详解
  • [Python从零到壹] 二.语法基础之条件语句、循环语句和函数
  • [Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象

第二部分 络爬虫

  • [Python从零到壹] 四. 络爬虫之入门基础及正则表达式抓取博客案例
  • [Python从零到壹] 五. 络爬虫之BeautifulSoup基础语法万字详解
  • [Python从零到壹] 六. 络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解
  • [Python从零到壹] 七. 络爬虫之Requests爬取豆瓣电影TOP250及CSV存储
  • [Python从零到壹] 八.数据库之MySQL基础知识及操作万字详解
  • [Python从零到壹] 九. 络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)
  • [Python从零到壹] 十. 络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备技能)

第三部分 数据分析和机器学习

  • [Python从零到壹] 十一.数据分析之Numpy、Pandas、Matplotlib和Sklearn入门知识万字详解(1)
  • [Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解
  • [Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解

一.词云技术

首先,读者可能会疑问什么是词云呢云又叫文字云,是对文本数据中出现频率较高的关键词在视觉上的突出呈现,出现频率越高的词显示得越大或越鲜艳,从而将关键词渲染成类似云一样的彩色图片,感知文本数据的主要主题及核心思想。

1.词云

“词云”就是对 络文本中出现频率较高的关键词,予以视觉上的突出,使浏览 页者只要一眼扫过文本就可以领略文本的主旨,主要利用文本挖掘和可视化技术。个性化词云既是研究分析内容的一种表现方式,又是广告传媒的一种“艺术品”。在Python中,通过安装WordCloud词云扩展包可以形成快速便捷的词云图片。词云可以使关键词可视化展现,更加直观、艺术。

前面讲述了词云的效果图,由于其炫酷的效果,很多广告公司、传媒海 都利用该技术进行宣传。下面将讲解Python调用WordCloud库进行词云分析,图3是词云分析的算法流程,包括读取文件、中文分词、词云库导入、词云热点分析和可视化分析。

(3) 调用WordCloud函数生成词云热点词频
调用WordCloud()函数生成词云,其中该函数核心参数包括设置背景颜色、设置背景图片、最大实现词数、字体最大值、颜色种类数。借用Python强大的第三方扩展包对该语料进行词云分析,其中核心代码如下:

上述示例代码主要使用WordCloud()函数,并省略了参数。

  • my_wordcloud = WordCloud().generate(wl_space_split)

(4) 调用imshow扩展包进行可视化分析
接下来调用plt.imshow(my_wordcloud)代码显示语料的词云,词频变量为my_wordcloud;调用plt.axis(“off”)代码是否显示x轴、y轴下标,最后通过plt.show()代码展示词云。

总之,词云分析可以广泛的应用于词频分析,可以直观的给出文章的主题词等内容,接下来讲解的CSDN技术论坛分析实例很好地利用了该技术。


2.中文编码问题

如果语料是中文,在词云分析中可能出现中文乱码的情况,如图所示,在绘制的词云中,其中文关键词均错误的显示为方框,而英文字母组成的关键词能够显示。

此时的运行结果如下所示,这是分析CSDN多篇博客所得到的词云,其中“阅读”和“评论”出现的比较多,因为每篇文章都有对应的阅读数和评论数,所以该关键字显示较为突出。下图通过词云图形清晰地显示了热点词汇。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年7月8日
下一篇 2021年7月8日

相关推荐