【新智元导读】还在为PS的各种命令、工具头疼吗?魏茨曼联合英伟达发布了一个新模型Text2LIVE,只需用自然语言就能轻松完成各种抠图、贴图,图像和视频都能用!
使用Photoshop类的软件算是创造性工作还是重复性工作?
对于用PS的人来说,重复性工作如抠图可能是一大噩梦,尤其是头发丝、不规则的图形、与背景颜色贴近的,更是难上加难。
如果有AI模型能帮你抠图,还能帮你做一些如替换纹理、添加素材等工作,那岂不是能节省大把时间用来创作?
一些专注于视觉效果(VFX)的从业者对图像和视频合成方面的新工作和创新很感兴趣,但他们同时也会感觉到威胁,担心AI的快速发展是否会替代他们,毕竟现在AI从绘画到生成视频,简直无所不能。
比如让一个新手生成一个伪造视频需要大量的学习和操作时间,如果使用deepfake的话则不需要什么门槛,而且效率也高得多。
不过好消息是,AI目前并非全知全能,一个模型只能做软件内的一点点工作;如果要把多个模型组装成一个Pipeline,那还得需要人来操作才行;对于更复杂的任务,那还需要人类的创造力。
论文链接:https://arxiv.org/pdf/2204.02491.pdf
Text2Live能够用复杂的半透明效果增强输入场景,而不改变图像中的无关内容。
比如对模型念出咒语或者,就可以给图片合成上相应的效果,十分真实;
对着面包图片说,就可以变成一个冰面包,甚至也不在话下;
或是对着视频说,它也能精确识别出来长颈鹿的脖子,并在每一帧都给它戴上一个围脖,还能换各种不同的效果。
用自然语言P图
但还有一个困难,就是在所有真实世界的图像中想用CLIP达到完美性能还是不容易的。
Text2LIVE采取了一条不同的路线,提出从单一的输入(图像或视频和文本提示)中学习一个生成器。
Text2LIVE主要设计了两个关键部分来实现这一目标:
2. 模型通过对输入的图像和文本进行各种数据增强,在一个由不同的图像-文本训练实例组成的上训练生成器。实验结果也表明,这种可以作为一个强大的regularization,能够高质量地生成复杂的纹理和半透明的效果。
文本增强主要使用预定义的14个模板提示符,能够提供CLIP向量的多样性。
图像数据的Pipeline由一个在单一输入图像上训练的生成器和目标文本提示组成。
左侧就是生成内部数据集的过程,即由不同训练实例组成的内部(图像,文本)对和数据增强后得到的数据集。
参与者必须选择?
在视频的实验中,参与者需要选择,实验数据包含19个(视频,文本)对和2400个用户的判断结果。结果可以看到,Frames基线模型产生了时间线不一致的结果,而Atlas基线的结果更一致,但在生成高质量纹理方面表现不佳,经常产生模糊的结果。
参考资料:
https://www.unite.ai/consistent-ai-video-content-editing-with-text-guided-input/
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!