Python实现《人民的名义》关系可视化

流程概述

  1. 在 上找到《人民的名义》剧本并下载
  2. 在 上查询《人民的名义》的一些主要人物,做一个人物字典
  3. 基于共现原理寻找人物关系
  4. 使用软件Gephi绘制关系图,将关系可视化

人物字典

在结巴分词中,人物姓名以标记”nr”来标志。

基于人物共现的人物关系挖掘

我们假设两个人物在某一长度的文本中同时出现就认为这两个人物有关系,在这里我们选取这个长度为段落。即在同一段落中出现了两个不同的文本,即认为这两个人物有关系。

处理过程中的一些问题

  • 一些词汇如“林城”、“白云”、“吕州”等,它们的属性被归到了”nr”,而且出现次数较多,和一些人物共现次数较多,如果不做处理的话,它们将会出现在绘制的关系图中。在这里可以将这些词作为停用词梳理。
  • 一些人物之间常常会以亲密的词汇称呼对方,而且出现次数非常多,如果将这些词汇忽略,关系刻画可能会出现很大的偏差,如陈海和侯亮平之间的“猴子”,高育良和侯亮平、祁同伟之前的师生称呼。所以在分词之后,我们可以判断一下如果出现了这些亲密称呼,将其替代为他的姓名。

最终代码展示

绘制图片

将生成的文件导入软件Gephi,简单的操作方法可以参考下面的链接
gephi学习笔记

结果展示

这里写图片描述

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览212037 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年5月5日
下一篇 2018年5月5日

相关推荐