程序员微调Stable Diffusion，打造神奇宝贝生成器，任何人脸秒变宝可梦

整理 | 核子可乐、冬梅

近日，来自 Lambda Labs 的机器学习研究员 Justin Pinkney，分享了通过微调 Stable Diffusion 而创建的一个“文本转宝可梦”生成器。

输入一个文本，即可秒变“宝可梦”

这款名为 Text-to-Pokémon（文本转宝可梦）的生成器是一个 AI 艺术插件，可以根据大家输入的姓名或描述，轻松生成相应的精灵宝可梦形象。值得一提的是，该款文本转宝可梦生成器与 OpenAI 的 DALL-E 2 同源。

该模型的输出虽然称不上完美，但仍然是乐趣满满。大家可以尝试输入名人或政治家的姓名（参见上图中的鲍里斯·约翰逊和弗拉基米尔·普京），或者输入其他自己感兴趣的形象组合，精彩马上呈现。

该模型出自机器学习研究员 Justin Pinkney 之手，他曾构建过许多视觉 AI 工具和资源。值得注意的是，这套特殊模型改编自另一个更大、更强的 AI 艺术生成器，名为 Stable Diffusion。

与“闭门造车”的 DALL-E 和 Midjourney 等同类模型不同，Stable Diffusion 为开源软件，因此每个人都能轻松调整它的输出结果。

Pinkney 也正是借此机会，使用宝可梦数据库对 Stable Diffusion 做出微调，进而建立了这款小工具。

Pinkney 在 Twitter 上进一步解释称，一旦对模型完成了微调，大家都可轻松生成类似风格的图像。他还将快速调试模型的攻略分享出来，链接如下：

https://github.com/LambdaLabsML/examples/tree/main/stable-diffusion-finetuning

在 Twitter 上一搜，就能看到人们正用它制作各种混搭形象，包括孙悟空、刺猬索尼克和耶稣基督等形象。

宝可梦版孙悟空链接：
https://replicate.com/lambdal/text-to-pokemon

在 Twitter 的一篇帖子中，Pinkney 更详细地介绍了这款工具的开发过程。

他解释道，“Stable Diffusion 是个很好的通用模型，但想获得特定风格的输出却比较麻烦，需要一些相当硬核的（我本人其实不太擅长）。但如果有了相关数据，那模型微调的难度就会大为降低。所以我利用宝可梦数据集对原版 Stable Diffusion 做了微调。”

在得到了微调模型之后，无论输入怎样的提示，它都会直接生成宝可梦形象，比如：“带翅膀的机器猫”（
pic.twitter.com/OoeAyoDhOB）。

这就是 Stable Diffusion 这类开源 AI 模型的一大优势：人们可以以此为基础，鼓捣出各种各样的有趣小工具。但开源也非完美无瑕，开放意味着每个人也都可以用 Stable Diffusion 生成暴力 / 色情图像或者虚假信息。Stable Diffusion 模型的创建者专门解释了他们为什么选择开源，感兴趣的朋友可以点击点击下方链接查看详情：

https://www.theverge.com/2022/9/15/23340673/ai-image-generation-stable-diffusion-explained-ethics-copyright-data

文本生成的图像过于逼真，

背后风险令人担忧

近年来，一些研究人员已经在探索训练多模式（multimodal）的 AI 模型，也就是在不同类型的数据上操作系统，比如文本和图像。

在 2021 年，OpenAI 发布了 CLIP，这是一个深度学习模型，能够将文本和图像映射到相同的嵌入空间中，让用户判断文本描述是否与给定的图像匹配。该模型在很多计算机视觉任务中被证明是有效的，OpenAI 还用它创建了 DALL-E 模型，它能够通过文本描述生成逼真的图像。CLIP 以及类似的模型都是在图像 – 文本组合的数据集上进行训练，这些数据都是从互联上搜集而来，类似于 InfoQ 今年早些时候道的 LAION-5B 数据集。

参考链接：

https://www.theverge.com/2022/9/26/23372457/pokemon-ai-generator-stable-diffusion-model

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

程序员微调Stable Diffusion，打造神奇宝贝生成器，任何人脸秒变宝可梦

相关推荐