VOSviewer是众多科学知识图谱软件之一,即通过“ 络数据”(主要是文献知识单元)的关系构建和可视化分析,实现科学知识图谱的绘制,展现知识领域的结构、进化、合作等关系,其突出特点是图形展示能力强,适合大规模数据。
image
一、VOSviewer概况
(一)开发历程
VOSviewer是荷兰莱顿大学科技研究中心[1](The Centre for Science and Technology Studies, CWTS)的van Eck 和Waltman[2]于2009年开发的一款基于JAVA的免费软件,至今已更新至1.6.6版本(2017年10月23日发布)[3],主要面向文献数据,适应于一模无向 络的分析,侧重科学知识的可视化。
(二)下载安装介绍
1、本地安装使用:JAVA(java 6或更高版本) + VOSviewer
(1)安装JAVA6或更高版本:https://www.java.com/zh_CN/
(2)下载VOSviewer安装包:http://www.vosviewer.com/download
提供windows、mac OS X及其他系统三种系统安装包支持)
(3)运行:解压VOSviewer安装包,直接点击exe文件运行即可
image
2、 页使用:
打开http://www.vosviewer.com/vosviewer.php,下载vosviewer.jnlp文件并启动。
二、软件功能介绍
(一)主要功能介绍
VOSviewer软件设计的核心思想是“共现聚类”,即两个事物同时出现代表它们之间是相关的;这种相关关系存在多种类型,它们的强度和方向也不一样;基于关系强度与方向的测度指标聚类,可寻找不同类型的团体。
image
基于共现聚类的分析单元和聚类可视化效果,VOSviewer的主要功能可归结如下:
1、支持多类数据格式
image
image
image
image
2、提供多类视图解读
VOSviewer提供可视化视图包括三种:network visualization(聚类视图)、overlay visualization(标签视图)、density visualization(密度视图)。
(1)Network visualization(聚类视图)
(2)Overlay visualization(标签视图)
image
visualization:区别于Networkvisualization的特点是用户可以根据自己的研究需要,通过map file文件中的score或颜色(红、绿、蓝)字段对节点赋予不同的颜色。默认按关键词的平均年份取score值进行颜色映射。
(3)Density visualization(密度视图)
image
visualization:图谱上每一点都会根据该点周围元素的密度来填充颜色,密度越大,越接近红色;相反,密度越小,越接近蓝色。密度大小依赖于周围区域元素的数量以及这些元素的重要性。密度视图可用来快速观察重要领域以及某一领域知识及研究密度情况。
(二)其他功能
1、数据清洗功能
2、通用词汇筛选功能
仅支持文本数据,主要针对数量较大、通用性较强但缺乏研究价值的词语,例如结论、方法等词汇,VOSviewer可以计算每个名词的相关度得分,允许用户省略较低得分的主题词,从而只对具有特定意义的词汇进行共现。
3、高级功能
(1)支持 页发布,节点及连线信息的显示可以基于HTML(仅适用于自定义数据)
(2)支持使用命令行
(3)支持内存扩充(解决处理大批量数据内存不足的问题)
三、工作流程及实现技术
1、数据标准化:支持不标准化、Association strength、Fractionalization LinLog/modularity。
2、聚类算法:VOS聚类
3、布局算法:VOS布局
4、其它图形属性映射:支持用户对(节点/标签/连线/簇)大小/粗细、颜色、形状、标度等图形属性的设置。
四、案例实践
(一)基于关键词共现分析信息计量领域的研究结构
(1)检索平台:Web of science
(2)检索式:SO=( SCIENTOMETRICS OR JOURNAL OF INFORMETRICS); 时间跨度: 所有年份;索引: SCI-EXPANDED, SSCI,A&HCI;文献类型不限。
(3)检索结果:3874篇(检索时间:2017.11.09)
(4)选取“全纪录与引用的参考文献”,并统一保存为制表符分隔文件(tab delimited)。
2、数据清洗准备工作:编制词表
(1)需要清洗哪些词/p>
A. 人名消歧(本例不需要)
B. 通用性强、无意义的词(主要针对标题、摘要等,关键词一般不需要):vosviewer内部提供相应的算法,可以计算出该词的通用性,但仅适应于文本数据的分析,在文献著录信息中不能使用。
C. 含义相同、表述相异:缩写词(如social network analysis和SNA)、中英混用、单复数(citation/citations)、同义词、近义词等。
(2)如何建立词表
因为建立词表的成本较高,如果经常做某个领域的分析或严谨性要求较高,可以建立相对完备的词表,一般来说,可以先将数据导入VOSviewer进行初步观察和统计,如果发现干扰词汇较多,可以只针对该批文献集建立词表。本例利用OpenRefine对关键词字段进行聚类,主要对出现频次较高、存在单复数或词性不同的关键词进行了合并,形成如下的用于数据清洗的词表:
image
3、数据分析与图谱解读
(1)导入数据,并进行功能选择
A. 分析单元类型:co-occurrence-all keyword(author keyword+keyword plus)
B. 计数方式:full counting
C. 节点过滤(过滤标准为节点的出现频次≥3、节点度排名前800,大约占总节点的10%) (2)图谱调整与解读
调整布局和聚类参数等获得效果较好的聚类及布局,并导出最终的数据结合图谱进行分析。
A. 聚类视图
image
可以看出,cluster1主要针对专利技术的计量,基于国家、企业层面,研究技术创新、研发及流动规律;cluster2主要是计量理论及方法的研究,其中,方法上侧重 络分析、引文分析、共词分析、知识图谱等,研究对象包括领域结构、发展演变规律等;cluster3是对计量指标的研究,基于引文的数量关系来构建和检验指标,从而运用到具体的领域,如排名、科研评价等;cluster4是对针对传统科学出版物(期刊、论文)的评价研究,除对基于引文的评价方法外,替代计量等新兴指标频次也较高,此外,对科学出版物的评价也围绕不同学科和领域展开;cluster5是针对(国家、大学、学者)科研产出的评价研究;cluster6是对科研合作的研究,主要运用 络分析的相关方法,如 会 络分析中各项测度指标,研究的层面包括学者层次,也涉及国际层面,包括简单 络分析,也涉及复杂 络,不仅设计合作的结构特征,还包括合作结构的演化,cluster7是对跨学科/领域现象的测度研究,该领域研究规模较其他领域相对较小,学者主要纳米技术领域切入对学科交叉型进行测度。
B. 密度视图
image
密度视图可以发现某一研究领域的研究重点和热点,可以看到信息计量领域的研究重点包括引文分析、科研产出评价、科研合作、计量指标、 络分析和专利技术创新。
此外,可以通过时间映射的标签视图探索该领域研究演化情况。
(二)基于中文多源数据分析情 学近三年研究小团体
(1)检索平台:中国知 和万方
(2)检索式:中国知 (JN=‘情 科学’+‘情 理论与实践’+‘情 资料工作’);
万方(刊名:情 学 );起始年:2015 结束年:2017
(3)检索结果:中国知 (情 科学;情 理论与实践;情 资料工作):2550篇;万方(情 学 ):335篇
2、数据格式转换
image
3、数据分析与图谱解读
image
image
image
image
(三)基于被引文献DOI分析信息计量领域的知识基础
采用案例一中的数据集
2、数据转换与分析
(1)利用VOSviewer的共被引分析功能,提取出所有的参考文献及被引数量M(dataframe);
(2)将M导入R提取参考文献中的DOI信息;
3874篇文献共引用63543篇文献,但仅有29628篇文献有DOI数据,这里以被引量在前5%(1500篇)的文献作为待分析文献集
(3)将所有参考文献的DOI保存为txt文件,利用VOSviewer的文本数据分析功能进行分析。
image
六、参考资源
1、Manual:VOSviewer_1.6.6;VOSviewer_1.6.5
VOSviewer的官方指南手册,功能介绍详细
2、Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.
3、Ding Y, Rousseau R, Wolfram D. Measuring Scholarly Impact: Methods and Practice[M]. Springer Publishing Company, Incorporated, 2014.
Chapter 13 Visualizing Bibliometric Networks对主要科学知识图谱软件进行了总结和归纳。
4、Aria M, Cuccurullo C. bibliometrix : An R-tool for comprehensive science mapping analysis[J]. Journal of Informetrics, 2017, 11(4):959-975.
虽然是对bibliometrix的介绍,但可以深入了解知识图谱类软件的处理流程。
5、Bner K, Chen C, Boyack K W. Visualizing knowledge domains[J]. Annual Review of Information Science & Technology, 2003, 37(1):179-255.
6、Chaomei, Chen. Science Mapping:A Systematic Review of the Literature[J]. 数据与情 科学学 (英文), 2017(2):1-40.
【参考】
[1] 荷兰莱顿大学科技研究中心:https://www.cwts.nl/
[2] Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.
[3] VOSviewer官 :http://www.vosviewer.com/
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!