东南大学王萌｜ “神经+符 ”学习与多模态知识发现

分享嘉宾｜王萌博士东南大学助理教授

具体将围绕以下几部分展开：

引言——两个例子
为什么符知识很重要
“神经”+“符 ”学习
多模态知识发现

引言——两个例子

首先按照我自己的风格，先举两个和本次分享主题相关的例子。

为什么符知识很重要

对上述内容感兴趣的同学或朋友们，我建议大家可以看看以上三本书。中间这本书是一个诺贝尔经济学奖获得者写的一本关于认知科学理论的书，其中有一些很有意思的题目让你去做，你会发现人脑在处理这些相同或类似的任务时，所产生的差异也是非常明显的。哪怕是非常接近的任务，有的任务你可能需要思考很长的时间才能完成，有的任务你可能在直觉上一下子就能判断出来。我想这可能也对应现实世界中的一些应用场景，可以帮助你找到答案。

从本质上讲，神经系统和符系统的目标都是一致的，即输入一个问题（Input（Question）），产生一个答案（Goal（Answer））。区别在于它们擅长处理的数据类型不一样，神经系统可能擅长于处理非结构化的文本、语音、图片等，通常采用的是端到端的方式；符系统擅长处理数据库以及定义的模式/语义规则/推理规则、图数据库、图谱等等。但是从任务的输入、输出的角度来讲，它们都是一致的。

这里提到的“神经”+“符 ”并不是说它们两者是对立的。我一直在跟踪前沿的工作，我不是想说“符系统”有多么的好，而是说我们现在需要的是找到所有可能的方式去补充深度学习目前所出现的问题。这也是我本次分享的核心出发点。从上图中可知，目前现有的神经系统模型主要还是集中在感知或语言方面，而人类的符知识包含了大量的常识，我们如何能够将它们用在神经系统里面，这方面的研究具有无限的潜力。

G．Marcus在2020年的KR会议上也对符知识进行了概括，他说符知识可以分为几类，例如变量、实例，在变量/实例上的操作，以及绑定（binding）。符知识的泛化能力从何而来据Gary F．Marcus这本书中提出的观点，这主要得益于变量的强大之处，也就是说，当我们能在一个符系统中定义有代表性的变量时，它其实是永无止境的泛化（open-ended generalization）。

概括而言，符知识包括：对一类对象的表示（Representationsof objects），一些结构化的代数层级的表示（Structured, algebraicrepresentations），定义在变量上的运算（Operations over variables），一些单词级别的区别（A type-token distinction），对于集合、地点、路径、轨迹、障碍物以及一些持久性质个体的表达能力（A capacity to represent sets, locations, paths, trajectories，obstacles and enduring individuals），一种表示对象属性的方式（A way of representing the affordances of objects），大量的时空信息（Spatiotemporal contiguity/conservation of mass），因果关系（Causality），平均变量（Translational invariance）和成本效益分析能力（Capacity for cost-benefit analysis）。以上可视为对常见的符知识的系统性的总结。大家可以思考下，根据自己的背景知识，是否可以将上述中的每一类嵌入到神经学习系统中来。

符系统不单单是表示问题，符知识也是与方法相关的。但现在为止，AI系统已经有很多种类型了，我们在选择知识表达时应紧密联系实际场景，一个核心的问题是，在一个“神经”+“符 ”的结合系统中，面向一个给定的问题，或是一个给定的人来选择一个最合适的知识表达，这样最终可以实现两个目的：一是帮助研究者跳出传统的知识图谱/知识表示的思维，进而帮助其获得全新的知识理解（New understanding/ insights）；二是让研究者的神经系统更加个性化（Personalizationof system）。

基于上述设计思想，我们可以充分利用人类世界中的不同知识，这些知识上的不同操作方式，不同个体对于该问题的不同思考，核心的目的是能够根据不同的人，不同的任务选择相应的符知识与推理规则，最后将知识嵌入到模型之中（With symbols model use, inferences model enable, and knowledge modelencode）。

总结一下，我们期望的目标是能够实现一个“神经”+“符 ”的系统，在这个系统中，我们可以集成“神经”+“符 ”的所有优点，最终来完成既定的任务。在IJCAI 2018的一个辅导告（tutorial）中，专门介绍了如何来结合“神经”+“符 ”，本质上这是一个循环的过程。

“神经”+“符 ”学习

下面，我将给大家介绍“神经”+“符 ”的学习方法。

详细来说，第一类将神经系统直接应用于推理任务中的方法就是表示学习，它其实是在用神经的方法解决浅层的关系预测问题（在符系统中，它们本质就是简单的推理问题），但是我们知道，在知识图谱表示学习中，基本上全部都是用神经络或统计学习的方法去解决这个任务。还有现在流行的图神经络，如GCN,GNN等，它们都是在用神经的方法去解决浅层的推理问题。但是我想说的是，这里的推理更多侧重的是统计上的推理，而不是逻辑上的演绎推理。所以这里值得我们做更深层的探讨，是否可以让神经系统去做更高级别的推理。

再比如多跳问答，相比而言，单跳问答是一个复杂的推理或复杂的问题，然而在传统的符知识领域中，它依然是一个浅层的推理。在多跳问答中，常使用循环神经络+注意力机制（RNN+Attention）或层次图卷积络（Hierarchical GCN）来解决这一问题。

还有一类方法主要还是在做神经系统面临的问题，主要是通过引入符知识来提升神经络的效果。其中具有代表性的问题包括：信息编审问题，如知识蒸馏（有老师络和学生络的过程，在这些过程中就可以嵌入一些逻辑的规则），远程监督（在自然语言处理的过程中将知识图谱作为监督信息，并且在这其中去思考降噪的问题）。在计算机视觉领域，本质上还是在用符知识的迁移去解决一些小样本、零样本的问题。

在NLP场景中嵌入知识的三种常见方法：

此外，符知识还能帮助我们更好地解释神经络的输出结果，以及提供更好的可解释性。这些都是“神经”+“符 ”学习的特点。

首先多模态知识发现与多模态知识图谱不是一个新的问题，从2004到2019年，在每一个阶段，研究者都有不同的定义。

他们总结了在将文本知识与场景知识融合过程中所面临的一些挑战。专门提到了不同模态知识的精准对齐是多模态知识发现中的一个核心问题。

上图为该系统的主要架构，我们可以发现：多模态知识发现其实是一个庞大的工程，因为每种模态的知识都有不同的抽取方法，不同模态的知识还涉及对齐以及联合学习等核心问题。

大家可以顺着去发现在推荐系统（请见《Multi-modalKnowledge Graphs for Recommender Systems》一文）、旅游场景（请见《Constructionof Multi-modal Chinese Tourism Knowledge Graph》一文）、软件工程（请见《Multimodal Knowledge Graph for Deep Learning Papers and Code》一文）以及个人生活场景（请见《Multimodal joint learning for personal knowledge base constructionfrom Twitter-based lifelogs》一文），都可以发现多模态知识发现和多模态知识图谱过程中不同知识和神经系统相结合的一些探索。

这里总结一下，我借鉴Dong老师等人的表达，上图所示为商品知识图谱。多模态知识图谱的发展最终会向上图中所总结的情况一样，在开始时（2016-2017年），多模态知识图谱只是传统知识图谱中的一个小块（如图（A）），大家刚刚开始关注这个问题；到2020年，我们发现传统知识图谱和多模态知识图谱逐渐成为并列关系（如图（B））；未来，我相信多模态知识图谱必定是包含了传统知识图谱（如图（D））。

2. 我们的多模态知识图谱

对于上图中的每个部分，我们都有相应的论文。

以上是我们对于场景的理解。

例如在符层级，我们如何利用拥有的知识去解决尾部关系类型很少的实体抽取。

以上为该模型的整体框架，以及相应的实验结果。

3. 其它多模态发现任务

上图是多模态机器翻译的对抗性评价。

接下来，我总结了多模态数据/知识图谱中的真实挑战：

是否真正有多模态的数据，如知识图谱、文本数据、图像和视频等；
在符层级，我们需要去思考多模态知识/符知识应该如何去表达；
在神经络层级，我们需要去探索多模态预训练语言模型，是否有不同模态基准的对齐，以及是否有强大的计算资源。

上图给出了这个领域未来的浅层研究方向，大家可以去探讨。

今天的分享就到这里，谢谢大家。

分享嘉宾：

点击阅读原文，进入 OpenKG 站。

文章知识点与官方知识档案匹配，可进一步学习相关知识算法技能树首页概览34297 人正在系统学习中

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

东南大学王萌 ｜ “神经+符 ”学习与多模态知识发现

相关推荐

东南大学王萌｜ “神经+符 ”学习与多模态知识发现