python 页结构分析图_Python对 页内容作词云图分析

在线生成词云图

WordArt

定制性比较强,支持中文,但是图中的词需要手动输入。Word Cloud Art Creator?wordart.com

Python生成词云图

下例中使用了urllib库从抓取 页内容,jieba库用于分词,wordcould库用于生成词云,代码如下:

import matplotlib.pyplot as plt

import jieba

from wordcloud import WordCloud

import urllib.request

import html2text

%matplotlib inline

#url = ‘https://mp.weixin.qq.com/s/Pr04533M2chdA3pVA8idNA’

url = ‘http://baijiahao.baidu.com/s=1645663163087703799&wfr=spider&for=pc’

page = urllib.request.urlopen(url)

contents = page.read().decode()

h = html2text.HTML2Text()

h.ignore_links=True # 去掉超链接

text = h.handle(contents)

text = text.replace(‘ ‘, ”)

text = text.replace(‘*’, ”)

text = text.replace(‘n’, ‘ ‘)

cut_text = jieba.cut(text) # 分词

result = ” “.join(cut_text)

print(result)

wc = WordCloud(

font_path=’simhei.ttf’,

background_color=’white’,

width=1000,

height=600,

max_font_size=50,

min_font_size=10,

max_words=200,

mask=plt.imread(‘star.jpg’) #mask图片

)

wc.generate(result)

wc.to_file(‘ciyun.png’) #图片保存

plt.imshow(wc) # 显示图片

plt.axis(‘off’) #关闭坐标

plt.show()

读者替换 址后,重新运行即可生成词云图。其中的mask图片用于设置词云的形状,本例中使用了背景为白色,前景为黑色的图片star.jpg(注意使用jpg格式图片),效果如下图所示(左侧为mask,右侧为生成的词云图):

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览214689 人正在系统学习中 相关资源:菜鸟耍人专用-软件测试其他资源-CSDN文库

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年1月6日
下一篇 2021年1月6日

相关推荐