覆盖100余篇论文，这篇综述系统回顾了CV中的扩散模型

机器之心道

在这篇论文中，来自布加勒斯特大学、中佛罗里达大学的 Mubarak Shah（IEEE Fellow）等几位研究者对计算机视觉中的 100 多篇去噪扩散模型论文进行了全面回顾。

扩散模型在深度生成模型中自成一派，最近成为计算机视觉领域最热门的话题之一（见图 1）。扩散模型展示了强大的生成能力，无论是生成高水平的细节还是其生成的多样性，都让人印象深刻。

论文链接：https://arxiv.org/pdf/2209.04747.pdf

根据研究者的说法，至少有三个子类别的扩散模型符合上述定义。

第一个子类别包括去噪扩散概率模型（DDPMs），其灵感来自非平衡热力学理论。DDPMs 是潜变量模型，采用潜变量来估计概率分布。从这个角度来看，DDPMs 可以被看作是一种特殊的变分自编码器（VAEs），其中正向扩散阶段对应于 VAE 内部的编码过程，而反向扩散阶段对应于解码过程。

第二个子类别的代表是噪声条件下的分数络（NCSN），基于分数匹配机制训练得到一个共享的神经络，用来估计不同噪声水平下扰动数据分布的分数函数（定义为对数密度的梯度）。

随机微分方程（SDEs）代表了另一种建立扩散模型的方式，形成了扩散模型的第三个子类别。通过正向和反向 SDEs 对扩散进行建模，可以得到有效的生成策略以及强有力的理论结果。第三种（基于 SDEs）可以被看作是对 DDPMs 和 NCSNs 的概括。

扩散模型的三种表述

扩散模型的分类

研究者考虑到不同的分类标准，将扩散模型归入一个多角度的分类法。也许区分模型的最重要标准是由（i）它们所应用的任务和（ii）它们所需要的输入信来定义的。此外，由于在制定扩散模型时有多种方法，(iii) 基础架构是对扩散模型进行分类的另一个关键因素。最后，训练和评估过程中使用的数据集也非常重要，因为这有助于在同一任务上比较不同的 baseline。研究者根据前面列举的标准对扩散模型进行了分类，见表 1。

感兴趣的读者可以阅读论文原文，了解更多研究细节。

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

覆盖100余篇论文，这篇综述系统回顾了CV中的扩散模型

相关推荐