文章目录
- 一.词云技术
-
- 1.词云
- 2.安装WordCloud
- 二.WordCloud基本用法
-
- 1.快速入门
- 2.中文编码问题
- 3.词云形状化
- 三.文档主题模型
-
- 1.LDA主题模型
- 2.LDA安装过程
- 四.LDA基本用法及实例
-
- 1.初始化操作
- 2.计算文档主题分布
- 3.主题关键词的Top-N
- 4.可视化处理
- 五.总结
下载地址:
- https://github.com/eastmountyxz/Python-zero2one
前文赏析:
第一部分 基础语法
- [Python从零到壹] 一.为什么我们要学Python及基础语法详解
- [Python从零到壹] 二.语法基础之条件语句、循环语句和函数
- [Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象
第二部分 络爬虫
- [Python从零到壹] 四. 络爬虫之入门基础及正则表达式抓取博客案例
- [Python从零到壹] 五. 络爬虫之BeautifulSoup基础语法万字详解
- [Python从零到壹] 六. 络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解
- [Python从零到壹] 七. 络爬虫之Requests爬取豆瓣电影TOP250及CSV存储
- [Python从零到壹] 八.数据库之MySQL基础知识及操作万字详解
- [Python从零到壹] 九. 络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)
- [Python从零到壹] 十. 络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备技能)
第三部分 数据分析和机器学习
- [Python从零到壹] 十一.数据分析之Numpy、Pandas、Matplotlib和Sklearn入门知识万字详解(1)
- [Python从零到壹] 十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解
- [Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解
一.词云技术
首先,读者可能会疑问什么是词云呢云又叫文字云,是对文本数据中出现频率较高的关键词在视觉上的突出呈现,出现频率越高的词显示得越大或越鲜艳,从而将关键词渲染成类似云一样的彩色图片,感知文本数据的主要主题及核心思想。
1.词云
“词云”就是对 络文本中出现频率较高的关键词,予以视觉上的突出,使浏览 页者只要一眼扫过文本就可以领略文本的主旨,主要利用文本挖掘和可视化技术。个性化词云既是研究分析内容的一种表现方式,又是广告传媒的一种“艺术品”。在Python中,通过安装WordCloud词云扩展包可以形成快速便捷的词云图片。词云可以使关键词可视化展现,更加直观、艺术。
前面讲述了词云的效果图,由于其炫酷的效果,很多广告公司、传媒海 都利用该技术进行宣传。下面将讲解Python调用WordCloud库进行词云分析,图3是词云分析的算法流程,包括读取文件、中文分词、词云库导入、词云热点分析和可视化分析。
(3) 调用WordCloud函数生成词云热点词频
调用WordCloud()函数生成词云,其中该函数核心参数包括设置背景颜色、设置背景图片、最大实现词数、字体最大值、颜色种类数。借用Python强大的第三方扩展包对该语料进行词云分析,其中核心代码如下:
上述示例代码主要使用WordCloud()函数,并省略了参数。
- my_wordcloud = WordCloud().generate(wl_space_split)
(4) 调用imshow扩展包进行可视化分析
接下来调用plt.imshow(my_wordcloud)代码显示语料的词云,词频变量为my_wordcloud;调用plt.axis(“off”)代码是否显示x轴、y轴下标,最后通过plt.show()代码展示词云。
总之,词云分析可以广泛的应用于词频分析,可以直观的给出文章的主题词等内容,接下来讲解的CSDN技术论坛分析实例很好地利用了该技术。
2.中文编码问题
如果语料是中文,在词云分析中可能出现中文乱码的情况,如图所示,在绘制的词云中,其中文关键词均错误的显示为方框,而英文字母组成的关键词能够显示。
此时的运行结果如下所示,这是分析CSDN多篇博客所得到的词云,其中“阅读”和“评论”出现的比较多,因为每篇文章都有对应的阅读数和评论数,所以该关键字显示较为突出。下图通过词云图形清晰地显示了热点词汇。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!