可视化数字人技术在 Soul 的应用

背景介绍

关键技术

场景应用

总结与展望

分享嘉宾｜甘启 Soul 交互技术负责人

出品平台｜DataFunSummit

背景介绍

首先介绍一下 Soul 的交元宇宙概念，以及自研的 N?W? 渲染引擎在端侧的使用情况。

1. Soul 的交元宇宙概念

Soul的交元宇宙是与现实时间平行、实时在线的一个虚拟世界，人们在这里可以凭借自己的虚拟化身，基于自己的信息图谱或推荐，体验多样的沉浸式交场景，在接近真实的体验中去交流娱乐，最终找到与自己志同道合的朋友建立交关系。所以我们认为交元宇宙具备虚拟化、交资产、沉浸式、包容性等关键特征，Soul 致力于通过对AR/VR等虚拟现实技术的投入，持续提升用户在 APP 的沉浸式体验，用户可以在Soul上面借用数字人新的身份去进行轻松的、无顾忌、更放开的沟通表达。

2. Soul 的场景要求

Soul 的用户是以 Z 时代、95 后和 00 后为主的年轻人，我们的 APP 更鼓励用户去分享自己有趣的灵魂，也就是兴趣爱好、创造力等。我们是基于手机端的一个 APP，需要考虑部署在手机端的算力和内存风险，基于此 Soul 的场景有以下要求：

3. N?W? 介绍

N?W? 引擎不仅仅是用于端内数字人使用，同时还支持一些特效、图像处理的场景，底层还支持框/角检测、宠物关键点检测、3D 人脸重建、表情手势识别、Gan 的风格化，还有 2D 的人像美化、贴纸相关的渲染技术，以及 3D avatar和 3D body、3D 贴纸和场景渲染的一些能力。

—

关键技术

1. 技术路线

Soul 数字人技术是按照头部、半身、全身这样的技术路线发展，后续继续结合语音、NLP 能力去做文字和语音的实时驱动。

当前主要还是手持摄像头前置的场景，主要是头部和上半身实时捕捉驱动，会去捕捉头部的位姿和表情识别。在渲染的部分做了捏脸技术和高维度的动画信息。头部的驱动还是以 BS 的驱动为主。对于半身，采用了比较精细的手部姿态估计，再加上 IK 系统，同时做头部和身体的绑定，形成驱动。对于全身，是在前面的基础上再加上身体姿态的估计。全身的情况下还会引入衣服、饰品、鞋子等，所以会有特殊材质的渲染。

2. 识别&驱动

（1）头部

头部识别主要是常见的脸部检测、人脸重建，以及比较精细化的表情识别。头部的光照信息是可选的，对于高端机会引入一些光照信息帮助渲染，低端机则放一些预置好的信息。精细化表情识别部分，引入了眼眉瞳以及嘴舌的识别，可以更好地去捕捉一些有趣的动作。

驱动主要是一个基础头，加上 74 个捏脸系数形成捏脸头，再添加 56 个表情系数形成一个表情头，在这个基础上加上一些配饰、动画、骨骼动画等，形成个性化的人脸，最终实现一个表情驱动的 Avatar 动画的场景。

上图是一个解决具体技术问题的 Case。我们在建模时，眉毛部分和脸部Mesh 是分开的，对于正规的眉形没有问题。但有些用户会捏出一个很奇怪的形状，此时如果直接驱动，就会形成左图的效果。因此我们在变形迁移的基础上，加上了眉毛和面部的一些蒙皮效果。采用了这样的解决方案后，可以看到右图的效果有了明显提升。

上图展示了线上的一些效果。通过上述技术，可以捏出各种各样的人脸，也可以做出各种不同的表情。左图的人物的头发可以随着动作而灵动地飘起来，这样会带来显著的生动性的提升。

（2）半身

通过上述的头部相关信息，加上手部的识别动作，手部会先获得一个手框，然后转为 3D 的关键点，得到一个拓扑关系。

前文中提到过，由于端侧性能的限制，我们在半身驱动时采用的是双手加上头的驱动方式，如何通过双手和头的位置去实现整个上本身骨骼的驱动，主要是靠 IK 技术的应用。根据骨骼的终节点计算其他副节点的位置，比如通过手的位置推断手腕、手肘和肩部的位置。

整体方案为，通过脸部的大小和位置，以及手部的大小和位置，获得一条经验曲线，根据经验曲线去推断肩关节和腕关节的相对位置，肩关节和腕关节形成了两个骨骼的基本结构，再以腕关节为终端反向求解肘关节的位置。

（3）全身

2D 姿态的估算当前采用的是基于 Heatmap 热力图的方案，先基于人体框的检测，然后做数据预处理和关键点的检测，再做一些关键点的矫正。首先应用于实时 2D 的简单纸片人驱动，基于 2D 算法跑出来的一些 xy 的结果，可以用于 3D 驱动的前置数据。

3D 姿态的估算会先拿 2D 计算得到的 xy 的结果坐标，输入到一个络中获得 z 方向的坐标，得到 3D 的关键点和拓扑关系，从而就得到了人驱动的 3D 骨骼信息，再去驱动数字人。

在 3D 驱动中，有两个需要注意的点。首先，我们是卡通人形象，与真人的骨骼结构差异比较大，这样真人骨骼比例无法直接应用，需要先去做一个 Mapping。另外，很多骨骼是不能 360 度旋转的，因此在驱动中会去做一些限制。我们还会通过关键帧去驱动，实现精细化的效果。

3. 渲染

衣料的效果比较重要，自研的引擎可以支持镭射、半透明、皮革等效果，同时也可以实时的去展示一些阴影效果，提升真实性和生动性，也可以在边缘加上轮廓光增加立体感。

4. 设计资源

整体的数字人的视觉效果还是比较依赖于设计和美术资源，Soul 提供了丰富的符合年轻人审美的各种服饰和装饰，供大家自由选择。

—

应用场景

Soul 是属于交型的 APP，这个元宇宙更注重用户便捷式的沉浸式体验，用户在 Soul 的元宇宙广场中，可以获得游戏化的交体验，但它又不是游戏，可以避免繁琐的操作流程，可以快速的在不同的场景中穿梭，找到有趣的地方。

1. 捏脸&聊天

Soul 可以支持预制形象、捏脸形象，也可以支持用户通过拍照生成自己的形象，降低用户操作门槛，同时也支持视频聊天一对一或多人派对的特效场景。

2. 沉浸场景

同时 Soul 也会拥有一个多人和广场的场景，用户可以看到别人的状态，可以大家一起去共建一个有趣的虚拟世界。

—

总结与展望

1. 总结

Soul 的数字人技术路线是以从头部、半身到全身的一个渐进化的技术路线，比较实用的平民化路线，同时它也是一个图形图像+设计协同开发的方式，整套方案高度自研，内部可以做很多互补和协作。

2. 展望

后续会关注以下几方面：

用图像、语音和文字综合去驱动数字人，在更多的场景中扩展应用

在元宇宙大同概念中，实现虚拟形象和资产格式的互通

在手机或AR/VR硬件中，进行虚实结合的场景中落地

今天的分享就到这里，谢谢大家。

｜分享嘉宾｜

甘启

Soul 交互技术负责人

上海任意门科技有限公司（Soul）交互技术部门负责人。2020年加入Soul视觉算法团队，2021年负责组建交互技术团队，现负责交互相关视觉和渲染算法等能力的规划和研发。

2016年毕业中国科学技术大学，获得硕士学位。曾就职于华为，从事图像算法开发工作。

｜DataFun新媒体矩阵｜

｜关于DataFun｜

声明：本站部分文章及图片源自用户投稿，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

可视化数字人技术在 Soul 的应用

相关推荐