可视化数字人技术在 Soul 的应用

  • 背景介绍
  • 关键技术
  • 场景应用
  • 总结与展望

  • 分享嘉宾|甘启 Soul 交互技术负责人

    出品平台|DataFunSummit


    01

    背景介绍

    首先介绍一下 Soul 的 交元宇宙概念,以及自研的 N?W? 渲染引擎在端侧的使用情况。

    1. Soul 的 交元宇宙概念

    Soul的 交元宇宙是与现实时间平行、实时在线的一个虚拟世界,人们在这里可以凭借自己的虚拟化身,基于自己的信息图谱或推荐,体验多样的沉浸式 交场景,在接近真实的体验中去交流娱乐,最终找到与自己志同道合的朋友建立 交关系。所以我们认为 交元宇宙具备虚拟化、 交资产、沉浸式、包容性等关键特征,Soul 致力于通过对AR/VR等虚拟现实技术的投入,持续提升用户在 APP 的沉浸式体验,用户可以在Soul上面借用数字人新的身份去进行轻松的、无顾忌、更放开的沟通表达。

    2. Soul 的场景要求

    Soul 的用户是以 Z 时代、95 后和 00 后为主的年轻人,我们的 APP 更鼓励用户去分享自己有趣的灵魂,也就是兴趣爱好、创造力等。我们是基于手机端的一个 APP,需要考虑部署在手机端的算力和内存风险,基于此 Soul 的场景有以下要求:

    3. N?W? 介绍

    N?W? 引擎不仅仅是用于端内数字人使用,同时还支持一些特效、图像处理的场景,底层还支持框/角检测、宠物关键点检测、3D 人脸重建、表情手势识别、Gan 的风格化,还有 2D 的人像美化、贴纸相关的渲染技术,以及 3D avatar和 3D body、3D 贴纸和场景渲染的一些能力。

    02

    关键技术

    1. 技术路线

    Soul 数字人技术是按照头部、半身、全身这样的技术路线发展,后续继续结合语音、NLP 能力去做文字和语音的实时驱动。

    当前主要还是手持摄像头前置的场景,主要是头部和上半身实时捕捉驱动,会去捕捉头部的位姿和表情识别。在渲染的部分做了捏脸技术和高维度的动画信息。头部的驱动还是以 BS 的驱动为主。对于半身,采用了比较精细的手部姿态估计,再加上 IK 系统,同时做头部和身体的绑定,形成驱动。对于全身,是在前面的基础上再加上身体姿态的估计。全身的情况下还会引入衣服、饰品、鞋子等,所以会有特殊材质的渲染。

    2. 识别&驱动

    (1)头部

    头部识别主要是常见的脸部检测、人脸重建,以及比较精细化的表情识别。头部的光照信息是可选的,对于高端机会引入一些光照信息帮助渲染,低端机则放一些预置好的信息。精细化表情识别部分,引入了眼眉瞳以及嘴舌的识别,可以更好地去捕捉一些有趣的动作。

    驱动主要是一个基础头,加上 74 个捏脸系数形成捏脸头,再添加 56 个表情系数形成一个表情头,在这个基础上加上一些配饰、动画、骨骼动画等,形成个性化的人脸,最终实现一个表情驱动的 Avatar 动画的场景。

    上图是一个解决具体技术问题的 Case。我们在建模时,眉毛部分和脸部Mesh 是分开的,对于正规的眉形没有问题。但有些用户会捏出一个很奇怪的形状,此时如果直接驱动,就会形成左图的效果。因此我们在变形迁移的基础上,加上了眉毛和面部的一些蒙皮效果。采用了这样的解决方案后,可以看到右图的效果有了明显提升。

    上图展示了线上的一些效果。通过上述技术,可以捏出各种各样的人脸,也可以做出各种不同的表情。左图的人物的头发可以随着动作而灵动地飘起来,这样会带来显著的生动性的提升。

    (2)半身

    通过上述的头部相关信息,加上手部的识别动作,手部会先获得一个手框,然后转为 3D 的关键点,得到一个拓扑关系。

    前文中提到过,由于端侧性能的限制,我们在半身驱动时采用的是双手加上头的驱动方式,如何通过双手和头的位置去实现整个上本身骨骼的驱动,主要是靠 IK 技术的应用。根据骨骼的终节点计算其他副节点的位置,比如通过手的位置推断手腕、手肘和肩部的位置。

    整体方案为,通过脸部的大小和位置,以及手部的大小和位置,获得一条经验曲线,根据经验曲线去推断肩关节和腕关节的相对位置,肩关节和腕关节形成了两个骨骼的基本结构,再以腕关节为终端反向求解肘关节的位置。

    (3)全身

    2D 姿态的估算当前采用的是基于 Heatmap 热力图的方案,先基于人体框的检测,然后做数据预处理和关键点的检测,再做一些关键点的矫正。首先应用于实时 2D 的简单纸片人驱动,基于 2D 算法跑出来的一些 xy 的结果,可以用于 3D 驱动的前置数据。

    3D 姿态的估算会先拿 2D 计算得到的 xy 的结果坐标,输入到一个 络中获得 z 方向的坐标,得到 3D 的关键点和拓扑关系,从而就得到了人驱动的 3D 骨骼信息,再去驱动数字人。

    在 3D 驱动中,有两个需要注意的点。首先,我们是卡通人形象,与真人的骨骼结构差异比较大,这样真人骨骼比例无法直接应用,需要先去做一个 Mapping。另外,很多骨骼是不能 360 度旋转的,因此在驱动中会去做一些限制。我们还会通过关键帧去驱动,实现精细化的效果。

    3. 渲染

    衣料的效果比较重要,自研的引擎可以支持镭射、半透明、皮革等效果,同时也可以实时的去展示一些阴影效果,提升真实性和生动性,也可以在边缘加上轮廓光增加立体感。

    4. 设计资源

    整体的数字人的视觉效果还是比较依赖于设计和美术资源,Soul 提供了丰富的符合年轻人审美的各种服饰和装饰,供大家自由选择。

    03

    应用场景

    Soul 是属于 交型的 APP,这个元宇宙更注重用户便捷式的沉浸式体验,用户在 Soul 的元宇宙广场中,可以获得游戏化的 交体验,但它又不是游戏,可以避免繁琐的操作流程,可以快速的在不同的场景中穿梭,找到有趣的地方。

    1. 捏脸&聊天

    Soul 可以支持预制形象、捏脸形象,也可以支持用户通过拍照生成自己的形象,降低用户操作门槛,同时也支持视频聊天一对一或多人派对的特效场景。

    2. 沉浸场景

    同时 Soul 也会拥有一个多人和广场的场景,用户可以看到别人的状态,可以大家一起去共建一个有趣的虚拟世界。

    04

    总结与展望

    1. 总结

    Soul 的数字人技术路线是以从头部、半身到全身的一个渐进化的技术路线,比较实用的平民化路线,同时它也是一个图形图像+设计协同开发的方式,整套方案高度自研,内部可以做很多互补和协作。

    2. 展望

    后续会关注以下几方面:

  • 用图像、语音和文字综合去驱动数字人,在更多的场景中扩展应用
  • 在元宇宙大同概念中,实现虚拟形象和资产格式的互通
  • 在手机或AR/VR硬件中,进行虚实结合的场景中落地
  • 今天的分享就到这里,谢谢大家。


    |分享嘉宾|

    甘启

    Soul 交互技术负责人

    上海任意门科技有限公司(Soul)交互技术部门负责人。2020年加入Soul视觉算法团队,2021年负责组建交互技术团队,现负责交互相关视觉和渲染算法等能力的规划和研发。

    2016年毕业中国科学技术大学,获得硕士学位。曾就职于华为,从事图像算法开发工作。


    |DataFun新媒体矩阵|


    |关于DataFun|

    声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

    上一篇 2022年9月26日
    下一篇 2022年9月26日

    相关推荐