自己造个真正意义上的AI纸片人离我们还有多远?

自己造个真正意义上的AI纸片人离我们还有多远/h2>

自己造个真正意义上的AI纸片人离我们还有多远?
我一直想自己“造”个可以像个人一样跟我聊天,当我想操作电脑或手机或玩游戏时,只要跟ta说,ta都能为我操作,还帮我玩游戏挂机……的纸片人AI出来;于是我不断地,时不时寻找一些方法:
1,首先是图像,利用软件图像生成技术,设置软件时把你想的输入成参数,通过程序从 络上抓取对应的图片,运用程序建立图像数据库,并且利用软件使其像动画里的人物一样动起来,怎么动起来本有位同志Pramook Khungurn突发奇想用深度学习给自己做一个AI,做出的AI可以将人们输入的静态人物图,变成会眨眼,会张嘴,还能望天发呆的动态形象。据他所说,2D人物的动态建模较为耗时,如果要批量地处理,显然一步一步来是行不通的。于是他就选择用深度学习的方法来跳过繁琐的建模步骤。Pramook决定要做了以后,第一件事就是建立一个数据集,训练算法。这个数据集具体来说是标注好姿势的脸部数据集。二次元没有直接可用的现成数据集,所以需要自己创建。于是他用3D模型来训练2D的算法:从初音未来的MikuMikuDance里下载了8000多个虚拟人物来帮助自己建立数据集。一个3D模型就有上千张图片可以使用,何况是8000个虚拟人物的模型。
数据集有了,接下来是算法。在Pramook的AI中,算法分为两方面,一个是表情变化器,一个是脸部旋转器。表情变化器较为简单,Pramook借用了中选ECCV 2018的GANimation算法。原来很简单,就是把两张图之间的变化过程用一张图显示出来,再与原图结合,就可以实现表情的变化。脸部旋转器就比较复杂了,用了两个互补算法。其中一个依然是GANimation,另一个是来自Zhou等人2016年的视角合成算法,用来让图片里的3D物体转起来。要做到这一点, 络会计算出一个外观流(Appearance Flow):它知道,输出的每个像素,色彩是来自输入中的哪个像素。两者结合可以让表情动作的转换变得平滑流畅。
最后,Pramook进行了测试,发现行得通。仅输入一张图片就可以让二次元角色动起来。如果将这个AI搭配着面部追踪算法一起使用,就可以让二次元角色跟着别的视频进行动作。有人就用奥巴马的视频做了实验,发现完全行得通,二次元角色栩栩如生地同步着奥巴马的神态和动作,这样就可以用视频来“锻炼”一个二次元角色了。视频还能自己拍摄,并且Pramook已经实验过表示可行。这样阿宅也可以手把手地教心仪地“纸片人”「锻炼」成自己的二次元AI了。

还有一种技术:照片唤醒(Photo Wake-Up)
它可以让偶像明星从照片里面“跑”出来,它还能将二次元角色AR或vr化。不管是照片、卡通还是抽象角色,只要有个人样,照片唤醒技术都能唤醒它们,让它们从二维世界中“走”到你眼前。这项技术如果运用到游戏、动画制作行业的话,或许仅仅画个2D的角色,自动就能变成3D。那么这技术又是怎么让偶像明星和二次元角色“动”起来变成立体的呢术人员表示,让主角从平面静态图像里走出来,最难的地方就是要在系统中重建一个“虚拟人”。虚拟人必须能透过厚重的衣物,精确对应到画中人物的身体轮廓:头对头,肩并肩,手腕对手腕…… 而实现它的操作仅仅三步:
第一步,技术人员利用现成的图像分割算法,将画中人的躯干、四肢分割,再用人体姿态估计,提取画中人的2D骨骼关键点,忽略厚重的衣服,拟合出一种半裸的可塑3D模型,称为SMPL模型(Skinned Multi-Person Linear Model)。
第二步,细化纸片人3D模型,技术人员开始细化纸片人的3D模型了。若纸片人运动,身体各部分间难免产生轮廓的重合。完美的模型能够匹配到纸片人的身体轮廓,还能识别这种自我遮蔽(self-occlusion)现象的出现。怎样在自我遮蔽出现时保证模型的准确性术人员想了个主意:先将SMPL模型映射到2D世界对准轮廓,调好再次转换成3D模型确保精确度。在映射到2D世界时,技术人员将SMPL模型转换成了两种不同的映射形式:
一种是肌肉隐约可见的普通图(Normal Map);
一种是五颜六色区分了身体不同部位的皮肤图(Skinning Map)。
二者合一,转换成3D模型后,姿态可动的3D人来了!
最后,技术人员用CMU的Mo-cap人体动作数据集喂给模型,数据集中的人物动作,现在可以迁移到你的纸片人身上了;但还是要AR眼镜才能看到这样的效果。届时,技术人员对103名志愿者进行了调查,86%的被调查志愿者认为Photo Wake-Up的效果超越了前人所做。

2,语音对话:运用程序建立数据库,用程序使ta可以和我们对话互动;现在的对话机器人层出不穷,百度的小度,苹果的Siri,微软的小冰,qq的聊天机器人,各种手机厂商也有他们对话机器人如语音助手;但都不尽人意,她们只是回答某些问题提供某些帮助而已,太片面单调,没法像人一样对话聊天。 聊天机器人涉及到的知识主要是自然语言处理,当然这包括了:语言分析和理解、语言生成、机器学习、人机对话、信息检索、信息传输与信息存储、文本分类、自动文摘、数学方法、语言资源、系统评测等内容,同时少不了的是支撑这一切的编程技术,要制作一个简单的对话机器人 络上有很多方法教程。
3,音像嵌合:动起来的ai还需要给ta可以说话,和我们聊天的能力;我们看看虚拟ai,日本出名的初音家族,youtuber的一堆虚拟偶像 ,她们能发出声音都是用音源或真人配音, 她们基本都是按已经设定好的程序才像人一样活动,结果还是要人控制……
运用程序将“动”起来的ta配上你选择的音源,音源可以到 络上找也可以用软件自己制作,利用深度学习“教”ta言行举止,把ta“训练”到让你觉得ta终于会“说话”了为止。

文章知识点与官方知识档案匹配,可进一步学习相关知识OpenCV技能树OpenCV中的深度学习图像分类11255 人正在系统学习中

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年3月8日
下一篇 2021年3月8日

相关推荐