知识工程
1 知识工程概念
1994 年图灵奖获得者、知识工程的建立者费根鲍姆给出知识工程定义—将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统, 以提供互联 智能知识服务。大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(Smart Data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提 供支持、改进用户体验等目标。知识图谱在以下应用中已经凸显出越来越重要的应用价值:
我们根据知识工程生命周期各个阶段的关键技术,利用 AMiner 中近年来知识图谱领域的高水平学术论文,挖掘出了包括知识表示(knowledge representation)、知识获取(knowledge acquisition)、知识推理(knowledge reasoning)、 知识集成(knowledge integration)和知识存储(knowledge storage)等相关关键词近年来全球活跃的学术研究。此外,结合知识图谱技术,本 告将以上研究领域表示为三级图谱结构,具体分析和处理的方法如下:
1. 使用自然语言处理技术,提取每篇论文文献的关键词,据此,结合学科领域知识图谱,将文章分配到相应领域;
2. 依据学科领域对论文进行聚类,并统计论文数量作为领域的研究热度;
3. 领域专家按照领域层级对学科领域划分等级,设计了三级图谱结构,最后根据概念热度定义当前研究热点。
知识工程三级知识图谱的详细数据到
https://www.aminer.cn/data 中直接下载原始数据。鉴于自动分析技术和论文采集的局限性,图谱还可以进一步完善,欢迎读者批评指正,我们会根据根据读者的反馈定期更新。
2 知识工程发展历史
回顾知识工程四十年多来发展历程,总结知识工程的演进过程和技术进展, 可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维 1.0 时期,群体智能时期以及知识图谱时期,如下图所示。
知识工程发展历程
? 1950-1970 时期:图灵测试—知识工程诞生前期
人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是 手段。这一阶段主要有两个方法:符 主义和连结主义。符 主义认为物理符 系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有代表性的工作是通用问题求解程序(GPS): 将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义 络等。这一时代人工智能和知识工程的先驱 Minsky,Mccarthy 和 Newell 以 Simon 四位学者因为他们在感知机、人工智 能语言和通用问题求解和形式化语言方面的杰出工作分别获得了 1969 年、1971 年、1975 年的图灵奖。
? 1970-1990 时期:专家系统—知识工程蓬勃发展期
通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。70 年开始,人工智能开始 转向建立基于知识的系统,通过“知识库+推理机”实现机器智能,这一时期涌 现出很多成功的限定领域专家系统,如 MYCIN 医疗诊断专家系统、识别分子结 构的 DENRAL 专家系统以及计算机故障诊断 XCON 专家系统等。斯坦福人工智能实验室的奠基人 Feigenbaum 教授在 1980 年的一个项目 告《Knowledge Engineering:The Applied Side of Artificial Intelligence》中提出知识工程的概念, 从此确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进,包括框架和脚本等。80 年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。
? 1990-2000 时期:万维
? 2000-2006 时期:群体智能
在 2001 年,万维 发明人、2016 年图灵奖获得者 Tim Berners-Lee 在科学美国人杂志中发表的论文《The Semantic Web》正式提出语义 Web 的概念,旨在对 互联 内容进行结构化语义表示,利用本体描述互联 内容的语义结构,通过对 页进行语义标识得到 页语义信息,从而获得 页内容的语义信息,使人和机器能够更好地协同工作。W3C 进一步提出万维 上语义标识语言 RDF(资源描述框架)和 OWL(万维 本体表述语言)等描述万维 内容语义的知识描述规范。
万维 的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联 大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。
? 2006 年至今:知识图谱—知识工程新发展时期
从 2006 年开始,大规模维基百科类富结构知识资源的出现和 络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与 Cyc、WordNet 和 HowNet 等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的,并且在 络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛 使用。典型的例子是谷歌收购 Freebase 后在 2012 年推出的知识图谱(Knowledge Graph),Facebook 的图谱搜索,Microsoft Satori 以及商业、金融、生命科学等 领域特定的知识库。最具代表性大规模 络知识获取的工作包括 DBpedia、 Freebase、KnowItAll、WikiTaxonomy 和 YAGO,以及 BabelNet、ConceptNet、 DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia 等。这 些知识图谱遵循 RDF数据模型,包含数以千万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义体现的客观世界的概念结构中。
目前知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊 天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。
在我国知识工程领域研究中,中科院系统所陆汝钤院士、计算所史忠植研究 员等老一代知识工程研究学者为中国的知识工程研究和人才培养做出了突出贡 献,例如,陆汝钤院士因在知识工程和基于知识的软件工程方面作出的系统和创造性工作,以及在大知识领域的开创性贡献,荣获首届“吴文俊人工智能最高成就奖”。
3 人才概况
? 全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为知识工程领域全球学者分布情况:
知识工程全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集 中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;欧 洲及亚洲东部也有较多的人才分布;其他诸如非洲、南美洲等地区的学者非常稀 少;知识工程领域的人才分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,知识工程领域中男性学者占比 89.7%,女性学者占 比 10.6%,男性学者占比远高于女性学者。
知识工程领域学者的 h-index 分布如下图所示,大部分学者的 h-index 分布 在中低区域,其中 h-index 在 20-30 区间的人数最多,有 783 人,占比 38.9%, 小于 20 区间的人数最少,有 90 人。
知识工程学者 h-index 分布
? 中国人才分布
我国专家学者在知识工程领域的分布如下图所示。通过下图我们可以发现, 京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时, 通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比, 中国在知识工程领域学者数量较多。
知识工程中国学者分布
知识工程领域中国与各国合作论文情况
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在知识工程领域合作之密切;此外,中国与欧洲的合作非常广泛,前 10 名合作关系里中欧合作共占 4 席;中国与新加坡合作的论文数虽然不是最多,但 是拥有最高的平均引用数说明在合作质量上中国与新加坡合作达到了较高的水平。
4 知识工程最新进展
近两年知识获取、推理和应用研究取得了显著的进展,主要表现在如下几个方面:
? 资源匮乏情况下的知识获取
知识图谱的构建始终是知识图谱领域的核心问题之一,近年来除了传统的有监督的实体、关系、事件知识获取的研究外,也涌现了一批在弱资源情况下的知识获取方法。例如:在集合扩展(实体集扩展)研究中,Learning to Bootstrap for Entity Set Expansion 使用蒙特卡洛树搜索策略的 booststrap 方法有效地提升了实体集扩展方法的稳定性,尤其是在与分类体系相关任务的同时优化上。HiExpan: Task-Guided Taxonomy Construction by Hierarchical Tree Expansion 提出一个知识 分类体系的扩展框架,模型利用弱监督关系抽取模型,从一个小型的上下位关系树出发,抽取扩展的节点并扩展成一个更加丰富的上下位体系。FewRel 2.0: Towards More Challenging Few-Shot Relation Classification 提出了少次学习任务, 通过设计少次学习机制,能够利用从过往数据中学到的泛化知识,结合新类型数据的少量训练样本,实现快速迁移学习。COMET: Commonsense Transformers for Automatic Knowledge Graph Construction 提出常识 Transformer 架构,将 GPT-2 等语言模型与种子知识图谱相结合,学习其结构和关系,根据图表征形成语言模 型,从而生成新的知识并将它们添加到种子图中。
? 知识图谱的知识补全和可解释推理
传统的表示学习缺乏可解释性,知识图谱推理越来越受到关注,其中既有使用强化学习方法寻找路径的方法,也有使用实体邻居和注意力权重做可解释性推 理方法。Multi-Hop Knowledge Graph Reasoning with Reward Shaping 是基于多跳推理的知识库问答方法,基于强化学习扩展在知识图谱的推理路径,以获得问题的正确答案。Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs 提出一种基于注意力机制的特征嵌入方法,获取实体邻近范围内的实体和关系特征,引入关系聚类和多跳关系,有效提升了基于多跳推理的知识图谱补全的效果。Iteratively Learning Embeddings and Rules for Knowledge Graph Reasoning 研究如何迭代地进行知识表示学习和规则学习,提出的 IterE 模型可以利用学习的规则改进稀疏实体的表示学习,进而提升规则学习和链接预测效果。
? 基于知识图谱的推荐和对话问答
将知识图谱作为辅助信息引入到推荐系统中可以有效地解决传统推荐系统存在的稀疏性和冷启动问题,近几年吸引大量研究人员在相关工作。随着图卷积 神经 络,图注意力机制等技术的逐渐兴起,基于图表示学习的推荐模型达到了更高的表现效果,并为推荐系统的可解释性提供了帮助。KGAT: Knowledge Graph Attention Network for Recommendation 利用知识图谱中商品之间的关系,训练了 一个端到端的含注意力机制的模型,用于提高推荐系统的能力。AKUPM: Attention-Enhanced Knowledge-Aware User Preference Model for Recommendation 使用注意力模型,利用知识图谱对用户进行建模,显著提升了推荐系统的效果。 Reinforcement Knowledge Graph Reasoning for Explainable Recommendation 结合 强化学习的框架和知识图谱推理来提供对推荐结果的解释。在对话问答方面,以 前对话生成的信息源是文本与对话记录,但如果遇到词表之外的(Out-of-Vocabulary)的词,模型往往难以生成合适的、有信息量的回复,而会产生一些 低质量的、模棱两可的回复。Commonsense Knowledge Aware Conversation Generation with Graph 提出一种基于常识知识图谱的对话模型 CCM 来理解对话, 产生信息丰富且合适的回复。
扩展阅读:
人工智能发展概况:机器学习篇
人工智能发展概况:计算机视觉篇
人工智能发展概况:知识工程篇
人工智能发展概况:自然语言处理篇
视频:人工智能时代
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!