Open-Ended Multi-Modal Relational Reason for Video Question Answering
Abstract
Index Terms
HRI, Video Question Answering, VQA, NLP
introduction
Related Work
Pre-training for Natural Language Processing (NLP)
有趣的是,自然语言 络有一些训练前的模型。在以往的研究中,NS-VQA[2]等模型采用序列到序列的方法进行模型构建。然而,在日常对话中,这种问答方式也可以运用大量的条件,如对话。在我们的研究工作中,我们的目标是建立一个能够处理语言语境和理解语法的视觉障碍患者急需使用的模型。在对话对话中,很有可能出现句子后面没有符 和[3]句中的多义条件的问题。已有关于改进[4]、[5]嵌入的研究。随着[6]变换的出现,自然语言处理领域取得了新的进展,特别是对句子中的多义词的处理。近年来,出现了许多新的预训练模型,如BERT[7]、XLNet[8]、gpt-2[9]和ViLBERT[10]等,用于判断问题并根据模型结果给出答案。其中,BERT可能是最受欢迎的,因为它的简单和优越的性能。
Multi-Model for Visual Question Answering(VQA)
在之前的模型中,有许多最先进的ap方法正在研究视觉问答,如BUTD[11]、MFB[12]、BAN[13]、MMNasNet[14]等。然而,我们的研究不仅在计算源的使用上存在局限性,而且在视觉和语言任务的VQA训练数据的原始方法上也存在局限性。它会失去机器的很多资源。我们提出了一个框架来利用这些软件程序和场景图。在神经符 VQA[2]的里程碑上,开发了Stack-NMN[15]、LXMERT[16]等在软件程序和场景图方面具有较高性能的模型。这些在软件程序和场景图中具有较高性能的框架为我们的建模提供了很多思路。
Visual Recognition
对于视频识别的工作,我们使用的数据库称为CATER.[17]。在CATER数据集中,由于格式是视频,使用mask-rnn[18]进行场景解析时,不能很大程度上检测出随着时间变化的物体的动作。随着3D-ConvNet[19]的思想,视频动作识别的里程碑I3D[20]出现在了研究领域。I3D在模型中使用了两流3D-ConvNet,其中一流是光流变化,另一流是图像变化。光流是运动场的关系。在I3D的基础上,我们用Resnet实现I(2+1)D,也称为R(2+1)D[21]。其中,有二维空间卷积和一维时间卷积。原始的空间和时间3D卷积模型(如I3D)与明确分解3D卷积的模型(如I(2+1)D)之间有很多优势。优点之一是在这两个操作之间增加了一个非线性校正;而另一个问题是,显式卷积比具有时空特征的原始三维卷积模型更容易优化。尽管R(2+1)D均匀地使用了单一类型的残差块,但它仍然导致了最先进的动作识别精度。
Visual Question Answering (VQA) with Soft Function
普通视觉问答(VQA)模型,如MFB[12],在从图像中检测答案时,在场景部分重复训练模型。在我们的研究中,工作应该用于机器人,有有限的资源可以使用。为了减少VQA的消耗,我们计划用软件程序和serene graph制作一个可以解决问题的程序,以端到端的方式训练问题的答案。目前研究的主要模型有NS-VQA[2]、Stack-NMN[15]和LXMERT[16]。所有这些工作都大大减少了记忆的使用和训练时间的速度。基于堆栈- NMN建立了具有软功能的VQA模型。在VQA的软程序问题中具有较高的性能。
C. Natural Language Processing (NLP) In Pre-training Model
在考虑NLP模型对VQA问题进行推理时,在sequence to sequence中使用了NS-VQA[2]中的原始方法。它是一个基本的LSTM模型,只考虑问题的一个方向。然而,在现实生活中,人们的对话可以被视为对话。对话中的人物语法不如书面对话中的人物。有时在我们的谈话中也存在着大量的俚语,这些俚语不能用书面文字来表达。此外,还存在一些多义词的条件。在图3中。在我们的算法中,模型时间图和一些能够处理这些条件的模型是比较重要的。随着ELMO[5]和转换[6]的里程碑,开始存在许多需要进行微调的模型。这些微调模型使我们的算法在不改变输入参数的情况下,能够快速推理出VQA中的问题。这会减少很多资源。在我们的研究中,我们发现BERT[7]和XLNet[7]组合在VQA问题的推理方面表现最好。伯特为每个单词给出了句子的上下文关系,但它缺乏随时间变化而变化的记忆。XLNet同时考虑了BERT和LSTM的优点,使模型能够以更好的性能处理多词问题。然而,它需要比BERT更大的资源。同时,某些特殊条件也不能像伯特函数那样工作。因此,在我们的研究中,我们将分别使用BERT和XLNet对VQA问题进行推理,并将两种模型的推理结果进行比较,得到一个置信度较高的结果。
E. Method of evaluation
我们将对精度进行分析,精度可以用:
在实验1和实验2中,我们将我们的模型与其他几种模型(表1)的分类精度进行了比较。对于在CATER和Chadha等人[26]中使用的方法,他们使用注意算法来确保模型对任务具有竞争性。然而,它们的表现没有我们的模型那么好。所有的模型及其变量都对每个参与者进行了一次实验训练,得出了结果的平均值。我们发现之前的算法表现不如我们的模型。经测量,我们的模型在物体数量上比Chadha等人的方法好3.09%,在物体形状上比Chadha等人的方法好0.67%,在物体数量上比Yang等人的方法好4.19%。在此基础上的改进对其他模型具有重要意义。但是,在视频答疑的某些功能上的表现仍然不如其他型 。例如,我们的模型对物体颜色的判断就比Chadha等人的[26]差。精度较低的原因在于我们的模型更多地关注物体运动的关系。在我们的模型中,我们使用光流来测量物体的动作。当我们使用光流时,我们没有使用RGB3这样做,它会使我们的模型在某些情况下失去颜色值,在模型性能上造成很高的错误率。
B. Trust and interactivity of HRI
我们使用调查来计算每个参与者的信任分数。信任分数越低,参与者对机器人的信任度就越低。1 ~ +1之间的信任是一个合理的分数范围,即参与者既不过度信任也不不足信任。对于那些很少信任机器人的参与者来说,他们与机器人进行有效互动的可能性更小。例如,一个参与者要求机器人识别物体的位置,并依赖机器人的引导,他不信任机器人。在这种情况下,这个参与者花了更长的时间来描绘周围的环境或到达他/她想去的地方。我们必须问,为什么信任不足会导致更糟糕的互动。在理想情况下,收到机器人反馈的参与者应该根据收到的信息进行大胆的尝试。但同时,参与者也要思考反馈是否在合理的范围内。对于不信任机器人的参与者来说,他们可能会就单一情况问太多类似的问题。例如,任务是探索视频中三角形的数量。正常的参与者可以问两个问题:有多少个三角形和多少个锥,以确定三角形的数量。对于不被信任的参与者,他们会问10多个问题来确认答案。我们通过两个因素来衡量交互性:探索的正确性和时间。对于图6和图7,它们以图图和直方图的形式表示交互和信任结果。以图6为例,上面的图表示交互性,下面的图表示可信度。在x轴,我们从1到10,这是我们用来评估参与者的分数。在y轴上,值表示调查中出现的得分的可能性。例如,在图6(上图)中,有20%的参与者在交互性评估中得到6分。从图6和图7可以看出,信任度与交互性之间存在正相关关系。这样,我们将200名参与者的实验结果投影到图5中。
Conclusion And Future Work
我们开发了一个与盲人用户进行高级交互的新模型。我们的研究主要集中在交互改进上。该模型使用了VQA技术,在不同场景下具有不同的性能。通过这种方式,前两个假设被设计来验证哪种设置可以产生最佳的交互结果。同时,我们在视频问答区域将我们的模型与其他模型进行比较。实验表明,该模型在很多方面都优于其他模型。我们还研究了信任的作用,并观察信任是如何影响互动的。我们研究的核心思想是识别与我们的机器人代理和盲人互动呈正相关的特征。我们目前的实验使用的是“对象视频”。在未来的工作中,我们将在更加复杂和真实的情况下发挥我们的机器人代理。我们还可以在机器人代理身上安装机械手臂,这样它就能执行动作,而不仅仅是语言交流。在这种情况下,新的机器人代理与盲人之间的互动将会不同于当前的互动。我们将检验这种新型机器人代理能力的极限,看看是否有我们可以做的潜在改进。此外,在未来,我们计划使用一种不同的注意力来构建我们的模型,比如分级注意力[27]。我们将用RGB3来判断我们的光流,以确保模型在颜色检测方面变得更加敏感。
文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树OpenCV中的深度学习图像分类11286 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!