分享嘉宾|甘启 Soul 交互技术负责人
出品平台|DataFunSummit
01
背景介绍
首先介绍一下 Soul 的 交元宇宙概念,以及自研的 N?W? 渲染引擎在端侧的使用情况。
1. Soul 的 交元宇宙概念
Soul的 交元宇宙是与现实时间平行、实时在线的一个虚拟世界,人们在这里可以凭借自己的虚拟化身,基于自己的信息图谱或推荐,体验多样的沉浸式 交场景,在接近真实的体验中去交流娱乐,最终找到与自己志同道合的朋友建立 交关系。所以我们认为 交元宇宙具备虚拟化、 交资产、沉浸式、包容性等关键特征,Soul 致力于通过对AR/VR等虚拟现实技术的投入,持续提升用户在 APP 的沉浸式体验,用户可以在Soul上面借用数字人新的身份去进行轻松的、无顾忌、更放开的沟通表达。
2. Soul 的场景要求
Soul 的用户是以 Z 时代、95 后和 00 后为主的年轻人,我们的 APP 更鼓励用户去分享自己有趣的灵魂,也就是兴趣爱好、创造力等。我们是基于手机端的一个 APP,需要考虑部署在手机端的算力和内存风险,基于此 Soul 的场景有以下要求:
3. N?W? 介绍
N?W? 引擎不仅仅是用于端内数字人使用,同时还支持一些特效、图像处理的场景,底层还支持框/角检测、宠物关键点检测、3D 人脸重建、表情手势识别、Gan 的风格化,还有 2D 的人像美化、贴纸相关的渲染技术,以及 3D avatar和 3D body、3D 贴纸和场景渲染的一些能力。
—
02
关键技术
1. 技术路线
Soul 数字人技术是按照头部、半身、全身这样的技术路线发展,后续继续结合语音、NLP 能力去做文字和语音的实时驱动。
当前主要还是手持摄像头前置的场景,主要是头部和上半身实时捕捉驱动,会去捕捉头部的位姿和表情识别。在渲染的部分做了捏脸技术和高维度的动画信息。头部的驱动还是以 BS 的驱动为主。对于半身,采用了比较精细的手部姿态估计,再加上 IK 系统,同时做头部和身体的绑定,形成驱动。对于全身,是在前面的基础上再加上身体姿态的估计。全身的情况下还会引入衣服、饰品、鞋子等,所以会有特殊材质的渲染。
2. 识别&驱动
(1)头部
头部识别主要是常见的脸部检测、人脸重建,以及比较精细化的表情识别。头部的光照信息是可选的,对于高端机会引入一些光照信息帮助渲染,低端机则放一些预置好的信息。精细化表情识别部分,引入了眼眉瞳以及嘴舌的识别,可以更好地去捕捉一些有趣的动作。
驱动主要是一个基础头,加上 74 个捏脸系数形成捏脸头,再添加 56 个表情系数形成一个表情头,在这个基础上加上一些配饰、动画、骨骼动画等,形成个性化的人脸,最终实现一个表情驱动的 Avatar 动画的场景。
上图是一个解决具体技术问题的 Case。我们在建模时,眉毛部分和脸部Mesh 是分开的,对于正规的眉形没有问题。但有些用户会捏出一个很奇怪的形状,此时如果直接驱动,就会形成左图的效果。因此我们在变形迁移的基础上,加上了眉毛和面部的一些蒙皮效果。采用了这样的解决方案后,可以看到右图的效果有了明显提升。
上图展示了线上的一些效果。通过上述技术,可以捏出各种各样的人脸,也可以做出各种不同的表情。左图的人物的头发可以随着动作而灵动地飘起来,这样会带来显著的生动性的提升。
(2)半身
通过上述的头部相关信息,加上手部的识别动作,手部会先获得一个手框,然后转为 3D 的关键点,得到一个拓扑关系。
前文中提到过,由于端侧性能的限制,我们在半身驱动时采用的是双手加上头的驱动方式,如何通过双手和头的位置去实现整个上本身骨骼的驱动,主要是靠 IK 技术的应用。根据骨骼的终节点计算其他副节点的位置,比如通过手的位置推断手腕、手肘和肩部的位置。
整体方案为,通过脸部的大小和位置,以及手部的大小和位置,获得一条经验曲线,根据经验曲线去推断肩关节和腕关节的相对位置,肩关节和腕关节形成了两个骨骼的基本结构,再以腕关节为终端反向求解肘关节的位置。
(3)全身
2D 姿态的估算当前采用的是基于 Heatmap 热力图的方案,先基于人体框的检测,然后做数据预处理和关键点的检测,再做一些关键点的矫正。首先应用于实时 2D 的简单纸片人驱动,基于 2D 算法跑出来的一些 xy 的结果,可以用于 3D 驱动的前置数据。
3D 姿态的估算会先拿 2D 计算得到的 xy 的结果坐标,输入到一个 络中获得 z 方向的坐标,得到 3D 的关键点和拓扑关系,从而就得到了人驱动的 3D 骨骼信息,再去驱动数字人。
在 3D 驱动中,有两个需要注意的点。首先,我们是卡通人形象,与真人的骨骼结构差异比较大,这样真人骨骼比例无法直接应用,需要先去做一个 Mapping。另外,很多骨骼是不能 360 度旋转的,因此在驱动中会去做一些限制。我们还会通过关键帧去驱动,实现精细化的效果。
3. 渲染
衣料的效果比较重要,自研的引擎可以支持镭射、半透明、皮革等效果,同时也可以实时的去展示一些阴影效果,提升真实性和生动性,也可以在边缘加上轮廓光增加立体感。
4. 设计资源
整体的数字人的视觉效果还是比较依赖于设计和美术资源,Soul 提供了丰富的符合年轻人审美的各种服饰和装饰,供大家自由选择。
—
03
应用场景
Soul 是属于 交型的 APP,这个元宇宙更注重用户便捷式的沉浸式体验,用户在 Soul 的元宇宙广场中,可以获得游戏化的 交体验,但它又不是游戏,可以避免繁琐的操作流程,可以快速的在不同的场景中穿梭,找到有趣的地方。
1. 捏脸&聊天
Soul 可以支持预制形象、捏脸形象,也可以支持用户通过拍照生成自己的形象,降低用户操作门槛,同时也支持视频聊天一对一或多人派对的特效场景。
2. 沉浸场景
同时 Soul 也会拥有一个多人和广场的场景,用户可以看到别人的状态,可以大家一起去共建一个有趣的虚拟世界。
—
04
总结与展望
1. 总结
Soul 的数字人技术路线是以从头部、半身到全身的一个渐进化的技术路线,比较实用的平民化路线,同时它也是一个图形图像+设计协同开发的方式,整套方案高度自研,内部可以做很多互补和协作。
2. 展望
后续会关注以下几方面:
今天的分享就到这里,谢谢大家。
|分享嘉宾|
甘启
Soul 交互技术负责人
上海任意门科技有限公司(Soul)交互技术部门负责人。2020年加入Soul视觉算法团队,2021年负责组建交互技术团队,现负责交互相关视觉和渲染算法等能力的规划和研发。
2016年毕业中国科学技术大学,获得硕士学位。曾就职于华为,从事图像算法开发工作。
|DataFun新媒体矩阵|
|关于DataFun|
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!