覆盖100余篇论文,这篇综述系统回顾了CV中的扩散模型

机器之心 道

在这篇论文中,来自布加勒斯特大学、中佛罗里达大学的 Mubarak Shah(IEEE Fellow)等几位研究者对计算机视觉中的 100 多篇去噪扩散模型论文进行了全面回顾。

扩散模型在深度生成模型中自成一派,最近成为计算机视觉领域最热门的话题之一(见图 1)。扩散模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。

论文链接:https://arxiv.org/pdf/2209.04747.pdf

根据研究者的说法,至少有三个子类别的扩散模型符合上述定义。

第一个子类别包括去噪扩散概率模型(DDPMs),其灵感来自非平衡热力学理论。DDPMs 是潜变量模型,采用潜变量来估计概率分布。从这个角度来看,DDPMs 可以被看作是一种特殊的变分自编码器(VAEs),其中正向扩散阶段对应于 VAE 内部的编码过程,而反向扩散阶段对应于解码过程。

第二个子类别的代表是噪声条件下的分数 络(NCSN),基于分数匹配机制训练得到一个共享的神经 络,用来估计不同噪声水平下扰动数据分布的分数函数(定义为对数密度的梯度)。

随机微分方程(SDEs)代表了另一种建立扩散模型的方式,形成了扩散模型的第三个子类别。通过正向和反向 SDEs 对扩散进行建模,可以得到有效的生成策略以及强有力的理论结果。第三种(基于 SDEs)可以被看作是对 DDPMs 和 NCSNs 的概括。

扩散模型的三种表述

扩散模型的分类

研究者考虑到不同的分类标准,将扩散模型归入一个多角度的分类法。也许区分模型的最重要标准是由(i)它们所应用的任务和(ii)它们所需要的输入信 来定义的。此外,由于在制定扩散模型时有多种方法,(iii) 基础架构是对扩散模型进行分类的另一个关键因素。最后,训练和评估过程中使用的数据集也非常重要,因为这有助于在同一任务上比较不同的 baseline。研究者根据前面列举的标准对扩散模型进行了分类,见表 1。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年8月17日
下一篇 2022年8月17日

相关推荐