雷锋 AI 科技评论按:作为计算机视觉领域的顶级学术会议,CVPR 2019 近期公布了最终论文接收结果,引来学界密切关注。据悉,CVPR 2019 今年一共获得 5165 篇有效提交论文,最终抉出了 1300 篇接收论文,接收率达到 25.2% 。
(接收论文列表:
http://cvpr2019.thecvf.com/files/cvpr_2019_final_accept_list.txt)
正当学界纷纷议论各单位获接收论文多寡的当儿,雷锋 AI 科技评论为大家精心整理了一份从 2000 年——2018 年的 CVPR 最佳论文清单,借此对这批计算机领域的重要论文进行复习。
2018年最佳论文
任务学:任务迁移学习的解耦
Taskonomy: Disentangling Task Transfer Learning
论文链接:
http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf
2017年最佳论文
密集连接的卷积 络
Densely Connected Convolutional Networks
核心内容:近期的研究已经展现这样一种趋势,如果卷积 络中离输入更近或者离输出更近的层之间的连接更短, 络就基本上可以更深、更准确,训练时也更高效。这篇论文就对这种趋势进行了深入的研究,并提出了密集卷积 络(DenseNet),其中的每一层都和它之后的每一层做前馈连接。对于以往的卷积神经 络, 络中的每一层都和其后的层连接,L 层的 络中就具有 L 个连接;而在 DenseNet 中,直接连接的总数则是 L(L+1)/2 个。对每一层来说,它之前的所有的层的 feature-map 都作为了它的输入,然后它自己的 feature-map 则会作为所有它之后的层的输入。
论文链接:
http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf
通过对抗训练从模拟的和无监督的图像中学习
Learning from Simulated and Unsupervised Images through Adversarial Training
核心内容:随着图像领域的进步,用生成的图像训练机器学习模型的可行性越来越高,大有避免人工标注真实图像的潜力。但是,由于生成的图像和真实图像的分布有所区别,用生成的图像训练的模型可能没有用真实图像训练的表现那么好。为了缩小这种差距,论文中提出了一种模拟+无监督的学习方式,其中的任务就是学习到一个模型,它能够用无标注的真实数据提高模拟器生成的图片的真实性,同时还能够保留模拟器生成的图片的标注信息。论文中构建了一个类似于 GANs 的对抗性 络来进行这种模拟+无监督学习,只不过论文中 络的输入是图像而不是随机向量。为了保留标注信息、避免图像瑕疵、稳定训练过程,论文中对标准 GAN 算法进行了几个关键的修改,分别对应「自我正则化」项、局部对抗性失真损失、用过往的美化后图像更新鉴别器。
论文链接:
http://openaccess.thecvf.com/content_cvpr_2017/papers/Shrivastava_Learning_From_Simulated_CVPR_2017_paper.pdf
2016年最佳论文
图像识别的深度残差学习
Deep Residual Learning for Image Recognition
核心内容:在现有基础下,想要进一步训练更深层次的神经 络是非常困难的。我们提出了一种减轻 络训练负担的残差学习框架,这种 络比以前使用过的 络本质上层次更深。我们明确地将这层作为输入层相关的学习残差函数,而不是学习未知的函数。同时,我们提供了全面实验数据,这些数据证明残差 络更容易优化,并且可以从深度增加中大大提高精度。我们在 ImageNet 数据集用 152 层–比 VGG 络深 8 倍的深度来评估残差 络,但它仍具有较低的复杂度。在 ImageNet 测试集中,这些残差 络整体达到了 3.57% 的误差。该结果在 2015 年大规模视觉识别挑战赛分类任务中赢得了第一。此外,我们还用了 100 到 1000 层深度分析了的 CIFAR-10。
对于大部分视觉识别任务,深度表示是非常重要的。仅由于极深的表示,在 COCO 对象检查数据时,我们就得到了近 28% 相关的改进。深度剩余 络是我们提交给 ILSVRC 和 COCO2015 竞赛的基础,而且在 ImageNet 检测任务,ImageNet 定位,COCO 检测和 COCO 分割等领域赢我们获得了第一。
论文链接:
https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
2015年最佳论文
动态融合:实时非刚性场景的重建与跟踪
DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time
论文链接:
https://rse-lab.cs.washington.edu/papers/dynamic-fusion-cvpr-2015.pdf
2014年最佳论文
关于未知双向反射分布函数,摄像机运动揭示了什么
What Object Motion Reveals About Shape With Unknown BRDF and Lighting
论文链接:
https://cseweb.ucsd.edu/~ravir/differentialtheory.pdf
2013年最佳论文
在单个机器上快速、准确地对100,000个物体类别进行检测
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine
论文链接:
https://www.cv-foundation.org/openaccess/content_cvpr_2013/papers/Dean_Fast_Accurate_Detection_2013_CVPR_paper.pdf
2012年最佳论文
一个针对基于活动分解非刚性结构的简单、无先验方法
A Simple Prior-free Method for Non-Rigid Structure-from-Motion Factorization
该方法易于实现,可以解决包括小型与固定大小的 SDP(半定规划)、线性最小二乘或范数最小化追踪等问题。大量实验结果表明,该方法优于现有的多数非刚性因子分解线性方法。本论文不仅提供全新的理论见解,同时提供了一种适用于非刚性结构运动分解的实用日常解决方案。
论文链接:
http://users.cecs.anu.edu.au/~hongdong/CVPR12_Nonrigid_CRC_17_postprint.pdf
2011年最佳论文
针对单个深度图像部件的实时人体姿态识别模型
Real-Time Human Pose Recognition in Parts from Single Depth Images
该系统能在消费类硬件上以每秒 200 帧的速度运行。评估系统在合成与实际测试集的处理结果中显示了高精度,并分析了几个训练参数对此的影响。与相关工作相比,该模型实现了目前最先进的精度,并在全骨架最近邻匹配上有了很大进步。
论文链接:
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/BodyPartRecognition.pdf
2010年最佳论文
利用L1范数对数据缺失的鲁棒低秩近似矩阵进行有效计算
Efficient Computation of Robust Low-Rank Matrix Approximations in the Presence of Missing Data using the L1 Norm
核心内容:低秩近似矩阵计算是许多计算机视觉应用中的基础操作。这类问题的主力解决方案一直是奇异值分解(Singular Value Decomposition)。一旦存在数据缺失和异常值,该方法将不再适用,遗憾的是,我们经常在实践中遇到这种情况。
论文提出了一种计算矩阵的低秩分解法,一旦丢失数据时会主动最小化 L1 范数。该方法是 Wiberg 算法的代表——在 L2 规范下更具说服力的分解方法之一。通过利用线性程序的可区分性,可以对这种方法的基本思想进行扩展,进而包含 L1 问题。结果表明,现有的优化软件可以有效实现论文提出的算法。论文提供了令人信服、基于合成与现实数据的初步实验结果。
论文链接:
https://acvtech.files.wordpress.com/2010/06/robustl1_eriksson.pdf
2009年最佳论文
暗通道先验去雾法
Single Image Haze Removal Using Dark Channel Prior
论文链接:
http://www.jiansun.org/papers/Dehaze_CVPR2009.pdf
2008年最佳论文
二阶平滑先验下的全局立体重建
Global Stereo Reconstruction under Second Order Smoothness Priors
核心内容:3D 曲面平滑度中的二阶先验是比一阶先验更好的典型场景模型。然而,基于全局推理算法(如图形切割)的二阶平滑先验法未能与二阶先验很好地进行结合,因为表达所需的三重集会产生难以处理的(非子模块)优化问题。
论文链接:
http://www.robots.ox.ac.uk/~ojw/2op/Woodford08.pdf
超越滑动窗口:利用高效子窗口搜索实现对象定位
Beyond Sliding Windows: Object Localization by Efficient Subwindow Search
核心内容:大部分有效的物体识别系统都依赖于二进制分类,不过这种方法只能确认物体是否存在,而无法提供物体的实际位置。为了实现物体定位功能,我们可以考虑采用滑动窗口法,然而这将大大增加计算成本,因为必须在大量的候选子窗口上进行分类器函数评估。
为此,论文提出了一种简单而强大的分支界定方案,可以在所有可能子图像上有效最大化大类分类器函数。它在次线性时间内提供基于全局最优解的收敛方案。论文展示了该方法如何适用于不同的检测对象与场景。该方案实现的加速效果允许使用类似具有空间金字塔内核的 SVMs 或者基于χ2-距离的最近邻分类器来进行物体定位,而在过去,这些分类器被认为在处理相关任务时的速度太慢了。该方案在 UIUC 车辆数据集、PASCAL VOC 2006 数据集以及 PASCAL VOC 2007 竞赛中均取得了最先进的结果。
论文链接:
https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/34843.pdf
2007年最佳论文
在移动工具中进行动态三维场景分析
Dynamic 3D Scene Analysis from a Moving Vehicle
通过 SfM 自定位系统,我们可以将检测到的 2D 对象转换为 3D 成像,并在真实世界的坐标系中持续累积。随后跟踪模块将对 3D 观测结果进行分析,进而找到跟物理空间吻合的时空轨迹。最后,全局优化标准会将对象 – 对象交互(object-object interactions)考虑在内,以获得精确的汽车和行人的 3D 定位和轨迹预估结果。论文展示了该集成系统在挑战真实世界数据方面的表现,该数据集显示了拥堵市区内的汽车行驶情况。
论文链接:
https://homes.esat.kuleuven.be/~konijn/publications/2007/00483.pdf
2006年最佳论文
在透视场景中放置物体
Putting Objects in Perspective
大多数物体检测方法会考虑图像的比例和位置。通过对 3D 几何进行概率预估(包括表面以及世界坐标),我们可以将物体放置在透视图中,进而对图像的比例和位置变化进行建模。该方法通过对物体概率进行假设以细化几何,借此反映问题的周期性,反之亦然。该框架允许任意物体探测器进行「无痛」替换,且便于扩展至包括图像理解在内的其他方面。最终实验结果证实该综合方法的优势。
论文链接:
http://dhoiem.cs.illinois.edu/publications/hoiem_cvpr06.pdf
2005年最佳论文
实时非刚性表面检测
Real-Time Non-Rigid Surface Detection
将可变形 格与设计良好的鲁邦性估计器进行结合,是该方法得以处理涉及大量参数的可变形表面建模,且获得高达 95% 避免错误匹配率的关键,远远超过了实际要求。
论文链接:
https://infoscience.epfl.ch/record/128408/files/PiletLF05.pdf
2004年最佳论文
使用电子微镜阵列实现可编程的图像创建
Programmable Imaging using a Digital Micromirror Array
核心内容:论文介绍了可编程成像系统的概念。该成像系统为人类或视觉系统提供了对系统辐射度与几何特征的控制方法。该灵活性是通过可编程微镜阵列才得以实现的。我们可以通过把控空间和时间上的高精度来控制阵列方向,使得系统可以根据应用需要来灵活选择并调制光线。
论文链接:
https://www.researchgate.net/publication/4082198_Programmable_imaging_using_a_digital_micromirror_array
2003年最佳论文
使用尺度无关的无监督学习实现物体类型识别
Object Class Recognition by Unsupervised Scale-Invariant Learning
核心内容:论文提出一种通过尺度不变方法(scale invariant manner)从未标记、未分段的杂乱场景中学习并识别物体类模型的方法。这些物体被建模成灵活性的系列部件。概率表示方法被用于识别物体的所有方面,包括形状、外观、遮挡物以及相对比例。基于熵的特征检测器则用于对图像内的区域及其比例做选择。在这过程中,尺度不变对象模型的参数将被模型预估,这是通过最大似然设置(maximum-likelihood setting)中的期望最大化(expectation-maximization)来完成的。该模型基于贝叶斯方式对图像进行分类。通过一系列在几何约束类(例如面部,汽车)和柔性物体(例如动物)数据集上取得的优异结果,证明了该模型的灵活性。
论文链接:
https://cs.nyu.edu/~fergus/papers/fergus03.pdf
2001年最佳论文
视频中的形变三维模型
Morphable 3D models from video
核心内容:非刚性运动 3D 结构 和 2D 光流被认为是张量分解领域的问题。通过嘈杂仿射变换方法,我们可以将这两者问题变为组合非刚性结构强度问题,进而使用结构化矩阵分解方法进行解决。然而,图像噪声及数据缺陷将导致该因式分解法的前提条件无法成立。即便如此,我们依然可以通过等级约束、范数约束以及强度值来解决这两个问题,进而产生针对不确定性 SVD、不确定性分解、非刚性因子分解以及子空间光流的全新解决方案。最终获得的集成算法可以跟踪以及进行 3D 重建具有细小纹理的非刚性表面,比如具有平滑部分的面部。通过结合低分辨率低纹理的「视频发现」,这些方法可以产生良好的跟踪与 3D 重建结果。
论文链接:
http://www.merl.com/publications/docs/TR2001-37.pdf
2000年最佳论文
运用均值漂移实现对非刚性物体的实时追踪
Real-Time Tracking of Non-Rigid Objects using Mean Shift
核心内容:论文提出一种可以从移动摄像机实时追踪非刚性物体的全新方法。中央计算模块将基于均值漂移以及当前帧中的目标可能位置进行运算。目标模型(颜色分布)与目标候选者之间的差异由 Bhattacharyya 系数进行表示。该方法的理论分析表明,它与贝叶斯框架息息相关,同时提供了实用、快速且有效的解决方案。针对多个图像序列的演示结果,展示了该方法跟踪并处理实时部分遮挡、显着杂波以及目标比例变化的能力。
论文链接:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.28.41&rep=rep1&type=pdf
雷锋 AI 科技评论
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!