Gephi 功能详解
一、Gephi 简介
i. 操作节点和连线的工具
边:
- 节点:节点标签字体大小和颜色;
- 边:边上标签的字体大小及颜色;
- 隐藏未选中:勾选后,只有鼠标移动到某个节点上后标签才会显示;
- 节点标签大小:共有三种类型,fixed(固定大小,标签大小不跟节点大小变化而变化)、scaled(标签随节点大小变化而变化)、nodeSize(节点越大,标签越大,但标签大小本身是固定的,不随节点大小变化而变化);
- 节点标签颜色:共有三种类型,unique 表示节点标签和边标签都是用选定的颜色,object 表示节点标签使用节点颜色,边标签使用边的颜色;text表示节点标签都使用默认黑色。
(2)布局:节点与边的排布
布局是根据某种策略对节点和边进行排布,使图形既具有特定需要的合理性,也易于视觉识别。它们的核心都是平衡一个 络中节点的斥力和引力关系。
一般来说,布局应满足:
- 使节点均匀分布在有限的区域内;
- 避免边的交叉和弯曲;
- 保持边的长度一致;
- 使整体布局能反映图的内在特性。
默认布局(12种)大致可分为两类:
- 力引导布局,共 6 种:force atlas;force atlas2;fruchterman reingold;openord;yifan hu;yifan hu 比例;
布局类型 |
描述 |
参数配置 |
force atlas |
使布局更加紧凑,可读性更强 |
1、惯性:值越大,图摇摆幅度越大 2、斥力强度:节点排斥其他节点的强度,值越大,节点距离越大 3、吸引强度:连接节点的吸引力强度,值越大,有连接的节点越被拉进 4、重力:值越小,图越分散;值越大,图越被压缩 5、速度:布局运动的速度,值越大,图布局的速度越快 |
force atlas 2 |
改进的 force atlas,速度更快 |
1、缩放:节点的斥力强度,值越大,斥力越大,图越稀疏 2、更强的重力:已定义好的较强的重力 3、重力:自定义的重力值,可以比更强的重力更强 4、劝阻 hubs:只有输入的边会被推到边缘 5、LinLog 模式:线性和对数模式的切换 6、防止重叠:将重叠的节点展开 7、容差(速度):布局速度的选取,较小的值速度慢,但精度更高 |
Fruchterman Reingold 布局 |
FR 布局,基于再次改进的弹性模型 |
1、区:定义图形的幅度,值越大图越大,越稀疏 2、重力:定义重力值,值越大重力越强,节点越被中心吸引 3、速度:布局的速度,值越大布局速度越快,但越不精确 |
Noverlap(交叠) |
可防止节点重叠,但不考虑节点标签重叠 |
1、速度:速度越快,精度越差 2、节点间距:间距为 1 时,节点会连接在一起,间距为 2 时,节点会分开;间距为 1.1 时,间距增加 10%,小于 1 时允许节点重叠 3、幅度:增加幅度半径,幅度为 0 时,没有余量,幅度为 10 时,节点分开至少 20 像素,负幅度允许重叠 |
Openord |
支持多核、并行,适合处理节点较多的图 |
布局阶段分为 liquid、expansion、cooldown、crunch 和 simmer 5 个过程 |
rotate |
顺/逆时针旋转 |
将图形从整体上做顺时针或逆时针旋转 |
Yifan Hu |
在多层级力引导算法中引入超节点概念 |
1、最佳距离:值越大,整个图的尺寸越大 2、相对强度:值越大,节点越稀疏 |
扩展/收缩布局 |
对图形做整体上的放大或缩小处理 |
比例因子为 1,图保持原状: 大于 1:图放大,值越大,放大比例越大; 小于 1:图缩小,值越小,缩小比例越大 |
标签调整布局 |
防止节点标签重叠 |
1、速度:值为 1,可较缓慢地把标签重叠的节点躲避开,使节点标签没有重叠,值越大,速度变快,但躲避的幅度会较大 2、包括节点的大小:勾选后,会使重叠的节点也躲开 |
随机布局 |
Gephi 初始导入数据时的模式,将节点随机散步在正方形内 |
空间大小可以设置随机散步节点的正方形的边长 |
(3)统计:使用算法测度 络
统计面板,主要围绕以下内容:
- 根据统计算法,为节点或边计算出不同的数值;
- 研究节点的度:度、加权度、PageRank、聚类系数、特征向量中心度、模块化;
- 研究边的连接性: 络直径、连接组件;
- 研究图的整体特性:平均度、平均加权度、图密度、平均路径长度;
- 研究聚类特性:模块化。
-
模块化和连接组件都具有某种归类或聚类的特性,但模块化根本上是统计节点的一种度,并在此基础上把度相同的节点归类;连接组件并不考虑节点度的状态,而仅仅是根据连接关系对节点归类。
-
分类 |
统计量 |
解释 |
络概述 |
平均度 |
无向图:所有节点的度数和/节点数量(一个边能表示两个节点的度,所以所有节点的度数和等于边的数量乘以 2) 有向图:出度和或入度和/节点数量(因为出度和等于入度和,所以公式可以简化为数量直接除以节点的数量) |
平均加权度 |
平均度中将所有的权重当做 1 来处理,平均加权度中根据实际的权重计算节点的度,再根据加权的度计算平均度,即所有节点的加权度和除以节点数量,有向图类似 |
|
络直径 |
在一个 络中,最短路径最长的两个节点之间的距离 |
|
图密度 |
实际的边数与最大可能的边数之比 |
|
最短路径 |
两个节点之间可能存在多条可连通的路径,其中最短的路径称为最短路径,最短路径的值是最短路径中边的个数 |
|
模块化 |
根据图的连接关系对节点归类,类型相同的节点会增加一个字段,用相同的数字表示,可用于 区发现 |
|
PageRank |
基于 PageRank 算法计算节点的重要性 |
|
连接部件 |
如果所有节点都可以连通,称为连通图;否则称为非连通图。在非连通图中基于连接关系可划分多个区块,每个区块称为一个连通分量。计算连接组件后,Gephi 会给每个节点一个标注,把属于同一个连通分量的节点用一个相同的数字表示。 在有向图中,可分为强连通图和弱连通图。 |
|
介数中心度 |
所有的节点对之间通过该节点的最短路径条数,一个节点的 Betweenness 越大,流经它的数据分组越多,意味着它更容易拥塞,成为 络的瓶颈 |
|
亲密中心度 |
一个节点所能到达的节点的数量除以所能到达节点的最短路径之和。此种节点在 络中并非处于核心位置,与其他节点的关系并非最多;所处的位置也并非十分核心,但此节点与 络中其他节点的距离总和最短,也就是该节点在 络中有最佳视野,可以察知 络中所发生的事情,以及讯息的流通方向 |
|
离心度 |
一个节点能到达的最大的最短路径,即从一个节点所有可以到达的节点中,账 出最长的最短路径 |
|
节点概述 |
平均聚类系数 |
|
特征向量中心度 |
当前节点的中心性取决于邻居点的中心性 |
|
边概述 |
平均路径长度 |
节点数量除以所有两个节点最短路径之和,即平均每个最短路径可以分配到几个节点 |
动态 |
度 |
一个节点的边的数量,有向图中区分度、出度和入度 |
聚类系数 |
一个节点一度连接的节点中,实际的边数与最大边数之比 |
(4)外观:节点、边、标签设置
- 设置为统一的颜色和大小
- 第一个:重置,清除所有过滤规则;
- 第二个:往过滤的节点中写入数据;
- 第三个:把过滤出的节点和边移动到一个新的工作空间;
- 第四个:隐藏过滤出的节点和边。
- 节点和边数据展示
- 配置
- 增加节点和边;
- 搜索/替换;
- 输入输出电子表格
- 删除图、删除边
- 重复数据监测
- 添加、删除、合并列
- 预览界面上面,可以看到图的所有配置项,在预览界面同样可以修改图上的元素样式。
- Gephi 支持输出 SVG、PDF 或 PNG 格式,可以微调输出图片的比例大小。
ii. 边
ii. 过滤选取工具
数据资料界面最主要的是数据表格面板,数据表格面板提供了丰富的功能:
五、总结
整体看来,Gephi 属于图可视化工具中的佼佼者,虽然很多交互比较反人性,且 UI 丑到爆,但瑕不掩瑜,强大的功能及性能足以掩盖种种不足,是非常值得我们去好好研究和借鉴的图可视化工具,我们做的所有图探索分析产品,在能力上面都应该尽可能地向 Gephi 看齐。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!