整理 | 核子可乐、冬梅
近日,来自 Lambda Labs 的机器学习研究员 Justin Pinkney,分享了通过微调 Stable Diffusion 而创建的一个“文本转宝可梦”生成器。
输入一个文本,即可秒变“宝可梦”
这款名为 Text-to-Pokémon(文本转宝可梦)的生成器是一个 AI 艺术插件,可以根据大家输入的姓名或描述,轻松生成相应的精灵宝可梦形象。值得一提的是,该款文本转宝可梦生成器与 OpenAI 的 DALL-E 2 同源。
该模型的输出虽然称不上完美,但仍然是乐趣满满。大家可以尝试输入名人或政治家的姓名(参见上图中的鲍里斯·约翰逊和弗拉基米尔·普京),或者输入其他自己感兴趣的形象组合,精彩马上呈现。
该模型出自机器学习研究员 Justin Pinkney 之手,他曾构建过许多视觉 AI 工具和资源。值得注意的是,这套特殊模型改编自另一个更大、更强的 AI 艺术生成器,名为 Stable Diffusion。
与“闭门造车”的 DALL-E 和 Midjourney 等同类模型不同,Stable Diffusion 为开源软件,因此每个人都能轻松调整它的输出结果。
Pinkney 也正是借此机会,使用宝可梦数据库对 Stable Diffusion 做出微调,进而建立了这款小工具。
Pinkney 在 Twitter 上进一步解释称,一旦对模型完成了微调,大家都可轻松生成类似风格的图像。他还将快速调试模型的攻略分享出来,链接如下:
https://github.com/LambdaLabsML/examples/tree/main/stable-diffusion-finetuning
在 Twitter 上一搜,就能看到人们正用它制作各种混搭形象,包括孙悟空、刺猬索尼克和耶稣基督等形象。
宝可梦版孙悟空链接:
https://replicate.com/lambdal/text-to-pokemon
在 Twitter 的一篇帖子中,Pinkney 更详细地介绍了这款工具的开发过程。
他解释道,“Stable Diffusion 是个很好的通用模型,但想获得特定风格的输出却比较麻烦,需要一些相当硬核的(我本人其实不太擅长)。但如果有了相关数据,那模型微调的难度就会大为降低。所以我利用宝可梦数据集对原版 Stable Diffusion 做了微调。”
在得到了微调模型之后,无论输入怎样的提示,它都会直接生成宝可梦形象,比如:“带翅膀的机器猫”(
pic.twitter.com/OoeAyoDhOB)。
这就是 Stable Diffusion 这类开源 AI 模型的一大优势:人们可以以此为基础,鼓捣出各种各样的有趣小工具。但开源也非完美无瑕,开放意味着每个人也都可以用 Stable Diffusion 生成暴力 / 色情图像或者虚假信息。Stable Diffusion 模型的创建者专门解释了他们为什么选择开源,感兴趣的朋友可以点击点击下方链接查看详情:
https://www.theverge.com/2022/9/15/23340673/ai-image-generation-stable-diffusion-explained-ethics-copyright-data
文本生成的图像过于逼真,
背后风险令人担忧
近年来,一些研究人员已经在探索训练多模式(multimodal)的 AI 模型,也就是在不同类型的数据上操作系统,比如文本和图像。
在 2021 年,OpenAI 发布了 CLIP,这是一个深度学习模型,能够将文本和图像映射到相同的嵌入空间中,让用户判断文本描述是否与给定的图像匹配。该模型在很多计算机视觉任务中被证明是有效的,OpenAI 还用它创建了 DALL-E 模型,它能够通过文本描述生成逼真的图像。CLIP 以及类似的模型都是在图像 – 文本组合的数据集上进行训练,这些数据都是从互联 上搜集而来,类似于 InfoQ 今年早些时候 道的 LAION-5B 数据集。
参考链接:
https://www.theverge.com/2022/9/26/23372457/pokemon-ai-generator-stable-diffusion-model
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!