0. 科学知识图谱
0.1 科学知识图谱概念
学知识图谱(下简称知识图谱)是以科学文献知识为对象,以文献计量学、信息计量学、 络计量学、知识计量学和科学计量学的理论方法为基础,显示学科或领域发展进程与结构关系的一种图形,具有“图”和“谱”的双重性质与特征,是一种复杂 络结构图。知识图谱作为一种有效的、综合性的可视化分析方法和工具,被广泛应用并取得了较可靠的结论,被越来越多的学者所重视。通过知识图谱较形象、定量、客观、真实地显示一个学科的结构、热点、演化与趋势,无疑为学科的基础研究提供了一种新的视角。
与一般计算机图的结构相比,复杂 络的复杂性最主要表现在节点数目庞大,通常达到几千甚至几万个。因此,复杂 络的结构比一般的计算机图的结构要复杂得多。复杂 络可以用来描述人与人之间的 会关系、物种之间的捕食关系、计算机之间的 络联接、词与词之间的语义联系、科学家之间的合作关系、科研文章之间的引用关系,以及 页的链接结构等等。
科学知识图谱主要用于对研究热点、研究前沿、研究趋势、知识结构和科学领域结构进行探索。研究前沿是正在兴起的理论趋势和新主题的涌现,共引 络则组成了知识基础。在分析中可以利用从文献题目、摘要等部分提取的突发性术语与共引 络的混合 络来进行分析。
研究热点可以认为是在某个领域中学者共同关注的一个或者多个话题,从“研究热点”的字面理解,它具有很强的时间特征。一个专业领域的研究热点保持的时间可能有长有短,在分析时要加以注意。
关于学科领域结构的研究视角,笔者认为最直接的方法是是使用科学领域的贡献 络进行分析,但这些结果是宏观的,还可以结合期刊的共被引聚类进行分析。
目前应用领域主要集中在图书馆与档案管理、管理科学与工程、安全科学以及教育学等领域。
0.2 知识图谱主要工具
围绕科学知识图谱的绘制,学者和工程师们开发了很多有用的绘制工具,如Citespcae、Bibexcel、Pajek、Ucinet、HistCite和Sci2等
软件名称 | 开发者 | 功能描述 | 推荐指数 |
---|---|---|---|
CiteSpace | Chaomei Chen | 科学计量与可视化分析 | ★★★★★ |
VOSViewer | Van Eck, N.J | 科学计量与可视化分析 | ★★★★★ |
SCI2 | Katy Borner团队 | 科学计量与可视化分析 | ★★★★★ |
SciMat | M.J.Cobo,A.G | 科学计量与可视化分析 | ★★★★ |
Loet_Tools | Leydesdorff | 科学计量与可视化分析 | ★★★★ |
BibExcel | Olle Persson | 科学计量与可视化分析 | ★★★★ |
HistCite | Eugene Garfield | 科学计量与引证 络 | ★★★★ |
CiteNetExplore | Van Eck, N.J等 | 引证 络及可视化 | ★★★★★ |
Publish or Perish | Anne Wil Harzing | 谷歌学术数据采集及分析 | ★★★ |
Mapequation | Daniel Edler等 | 络及演化的可视化 | ★★★ |
Gephi | 络可视化分析 | ★★★★★ | |
Pajek | V Batagelj等 | 络可视化分析 | ★★★★★ |
NetDraw | Borgatti, S.P | 络可视化分析 | ★★★ |
Cyoscape | 络可视化分析 | ★★★ | |
Ucinet | Borgatti, S.P | 络文件的统计分析 | ★★★ |
BICOMB | 崔雷等 | 矩阵的提取和统计 | ★★★ |
SATI | 刘启元 | 矩阵的提取和统计 | ★★★ |
Carrot2 | Audilio Gonzales | 辅助文本可视化 | ★★★ |
Jigsaw | John Stasko团队 | 辅助文本可视化 | ★★★ |
GPS Visualizer | 辅助地理可视化 | ★★★ |
0.3 CiteSpace
CiteSpace 是国际著名信息可视化专家、美国德雷塞尔大学(Drexel_University)信息科学与技术学院陈超美教授和团队研发的一款用于分析和可视共现 络的Java应用程序。CiteSpace近年来在中国广泛使用,大连理工大学等多所中国院校使用CiteSpace展开了不同程度的研究,并将国内的CNKI、CSSCI等数据源成功应用到了CiteSpace中。
CiteSpace不仅适用于自然科学领域还适用于 会科学领域,但自然科学的新理论、新发现要比 会科学相对频繁,研究内容变化幅度要比 会科学相对较大,变化趋势较容易捕捉。
0.4 Bibexcel
Bibexcel软件是瑞典于默奥大学(Ume?_University)Olle_Persson教授设计开发的一款软件,主要用于辅助用户分析书目数据或者格式相近的自然语言文本,生成的数据文件可导出到Excel或其他可以处理Tab键隔开数据的程序中。Bibexcel是免费软件,包括一系列工具,这些工具一些可以在程序窗口中看到,一些被设置在菜单中。
Bibexcel软件与其帮助文档均可从于默奥大学官方 站进行下载,http://www.soc.umu.se/english/research/bibexcel/。早期在Windows系统中安装Bibexcel软件需要将Bibexcel程序放在C:bibexcel目录下,但现在可以将其放在任何磁盘和目录下。Bibexcel还可以在Linux系统利用“wine”命令进行运行。如果运行中需要附加文件,可以根据提示在互联 中进行下载。
Bibexcel利用汤森路透旗下Web_of_Science平台中的SCI、SSCI和A&HCI3个引文库中的数据进行分析,也可以转换其他格式的数据。利用Bibexcel可以进行文献计量分析(bibliometric)、书目计量分析(bibliometry)、引文分析(citation_analysis)、共引分析(co-citation)、文献共享(shared_references)、书目耦合(bibliographic_coupling)、聚类分析(cluster_analysis)、绘制文献图谱(prepare_bibliometric_maps)等。
0.5 Pajek
Pajek在斯洛文尼亚语中是“蜘蛛”的意思。Pajek软件是有斯洛文尼亚卢布尔雅纳大学的Vladimir Batagelj和Andrej Mrvar两位教授共同编写的免费软件。
下载地址:http://mrvar.fdv.uni-lj.si/pajek/
费弗尔(Jurgen Pfeffer)编写了两个Windows应用程序,用于帮助创建Pajek 络文件。Txt2pajek 下载地址:http://www.pfeffer.at/txt2pajek/
Pajek软件的结构基于六大数据类型:
- (1)Networks( 络)Networks主要对象是结点和边,数据文件的默认扩展名是.net。
- (2)Partitions(分区)Partition指明了每个结点分别属于哪个区,数据文件的默认扩展名是.clu。
- (3)Permutations(排序)Permutations将结点重新排列,数据文件的默认扩展名是.per。
- (4)Cluster(类)Cluster是指结点的子集,数据文件的默认扩展名是.cls。
- (5)Hierarchy(层次)Hierarchy是指按层次关系排列的结点,数据文件的默认扩展名是.hie。
- (6)Vectors(向量)Vectors是指每个结点具有的数字属性(实数),数据文件的默认扩展名是.vec。
Pajek软件操作基本流程:
- (3)Pajek官 提供了一个Microsoft Acess空白数据库模板(network.mdb),用户可以构建1-Mode和2-Mode 络所需的“表”、“查询”、“ 表”三种内容。
Pajek可处理结点数高达百万的大型 络,同时具有 络分析和可视化功能,还可以将一个大型 络分解为多个、可以独立显示的子 络,有助于进行进一步的精确分析;它还为使用者提供了有效的分析算法和强大的可视化工具,提供给了一个可视化的界面,帮助用户更加直观地了解各种复杂 络的结构。
与其他 会 络可视化软件相比较,Pajek具有以下特点:
- (1)快速有效
一个算法的复杂度主要表现时间复杂度和存储空间复杂度两个方面。Pajek为用户提供了一整套快速有效的、分析复杂 络的算法,用以计算和分析数以万计结点数的大型复杂 络。 - (2)可视化
Pajek为用户提供了一个界面友好的可视化平台。用户不仅可以快速绘制出一张 络图,还可以根据自己的需要对 络图进行精细调整,从而允许用户从视觉的角度更加直观的分析复杂 络特性。 - (3)抽象化
Pajek可以将复杂 络的全局结构进行抽象,将联系紧密的结点归为一类。每个类看成一个整体,将它作为新的结点得到一个新的 络图。新的 络图中各个类之间通过少数几条边相连接,可以很容易看出整个 络的整体结构。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!