全球首位3d版ai合成主播(ai合成主播是什么意思)

全球首位3d版ai合成主播(ai合成主播是什么意思)

作者 | 陈利鑫

头图 | CSDN 下载自东方 IC

又是一年两回时间,平时关注新闻的朋友们可能会发现,新华社关于两回的报道,进行消息播送的主持人队伍加入了一位漂亮小姐姐,而这位小姐姐竟然不是真人,而是一个 3D 数字人!

眼前这个神奇的虚拟人,完全可以满足人们对于新闻消息的接收需求了。这不禁让人好奇,这个 3D 虚拟人是什么来头?

原来这位 3D 数字人名叫“新小微”,是搜狗联合新华社推出的全球首位 3D AI 合成主播。以新华社记者赵琬微为原型,由人工智能“克隆”而成。

看这细致入微的表情,丰富的动作,细致的肌肤纹理和瞬间变化的服装,堪比大制作电影中的特效人物。

3D AI 合成主播有哪些特性?

事实上,这已经不是搜狗推出的第一位合成主播了,早在 2018 年 11 月的互联网大会上,搜狗发布全球首个 2D AI 合成主播时就曾引起过巨大的轰动。不到两年,搜狗再次推出 3D AI 合成主播,使其AI合成主播品牌下形成2D和3D两条技术线来并行发展,各显所长。

那3D “新小微”究竟有哪些特点呢?

1)超写实的高度逼真:

高度还原真人发肤,在特写镜头下,连头发丝和皮肤毛孔都清晰可见;

2)更高可塑性,更强交互能力、可适用更多空间:

高立体感和层次感:支持多机位景深、支持多样化精微表情播报,播报形态可通过360°全方位呈现;

高灵活性:可走动、转身、可摆出各种复杂动作和姿态;

基于“微模块化”特性,其表情、发型、服饰均能根据不同新闻和场景变换。

3)基于 AI 算法实时驱动:只需输入文本内容,“新小微”就能根据语义实时播报新闻,其表情唇动、肢体动作和语音表达高度契合、自然逼真。

这也是搜狗 3D 合成 AI 区别于电影和游戏特效 CG 技术的主要区别,电影合成技术背后要耗费巨大的人力、财力和时间成本,而搜狗 3D AI合成主播根据输入的文本几乎做到了实时生成视频或视频流。

开创 3D AI 合成主播,背后实现技术有玄机

推出3D 版 AI 合成主播,靠的是搜狗分身技术的不断突破和创新。下面,我们来看一下 3D AI 合成主播的技术实现细节与步骤。

1)首先,是基于真人原型采集海量数据:

搜狗搜狗 AI 交互技术部总经理陈伟解释,要想实现对模型更加逼真的驱动,主要通过两部分来实现,第一部分在于在采集过程中使用的设备是否能捕捉到更精细的数据,第二部分是做到采集数据后的精准标注,这相当于在整个采集端把数据生产出来。

为了打造“新小微”,真人赵琬微戴着数据采集头盔,几百个摄像头对其身体各个部位进行 360 度全方位“打点”扫描,采集每一处细节,并对其多种形态的表情和动作进行细致入微地捕捉记录,这才有了逼真的既视感。

2)其次,采用了行业领先的扫描还原算法,以及面部肌肉驱动、表情肢体捕捉等技术,生成高逼真度的 3D 数字人模型。

实现逼真的 3D 效果,关键还在于搜狗在采集过程中设计的一套完整的人体和面部参数。之前的卡通模型多基于 Blend shape(融合变形)方式,但是“新小微”的模型创建更多地用到了肌肉模型,因为肌肉模型更加符合人的生理结构,不同参数之间可以更好地协同,因此,对建模参数进行优化之后,最后的运动效果会更加真实。

“新小微”的 3D 模型具体是如何构建的呢?搜狗技术专家解释到,原来这需要先把静态模型建起来,然后再绑定一下。“新小微”最逼真的部分就是她的脸,搜狗采用了业界最领先的笼式采集装置,里面分布 100 多个摄像头同时拍照,相当于全方位捕捉人脸信息,再通过经验丰富的动画师对结果进行细化,对着写实的图片,把成品模型建出来。这是建模人头的部分。

另外,搜狗对“新小微”的人头、身体采用了肌肉模型绑定,这种方法下需要先构建骨骼模型,然后在骨骼上附着肌肉,再在肌肉上附着表皮,是一个联动的过程。肌肉模型更符合动力学的特征,比如人在跑的时候,肌肉运动时,会带着皮肤做一些微小的动作,之前动画中常用的 Blend shape 方案可以实现整体的动作,但难以把细微的动作表现出来。这是骨骼绑定模型的优势。

对于“新小微”,不管是面部表情还是身体动作的采集,搜狗都采用了业界最领先的技术,并对数据进行专业质检及精修,耗费了很多人力,最终获得优质的的学习数据,直接驱动与真人相比差异变小。

3)然后,通过搜狗分身的多模态生成算法对 3D 数字人模型进行实时驱动、渲染,使其面部表情唇动、肢体动作和语言表达能力实现了高度契合。

当前,大部分“能动”的 3D 数字人主要是靠真人驱动,而”新小微”播报新闻,却是文本输入,实时“翻译”成语音,也就是说输入文本,经过搜狗的度学习多模态建模方法,可以实时将文本转化为语音,并且实时匹配面部表情和动作。

这背后的方法,是搜狗自研的联合建模方式,但实现这一点并不容易。陈伟介绍到,在这个过程中搜狗遇到过几个问题,第一是如何保证实时、快速地响应,因为“新小微”这个数字人是实时驱动的,需要保证模型本身运算复杂度和延迟要低;

第二是要考虑如何定量用单一模型替代多个模型,因为只有在单一模型下才能有效地确保语音和 3D 数据之间的一致性,如果完全区分开,对齐和匹配需要花费时间,因此,搜狗就做了端到端的多模态合成模型,在端到端的模型下,内部的语音和 3D 之间不是完全割裂的两个输出,把语音合的中间信息。

比如时长等信息同步到 3D 肌肉运动的预测中,共享一部分参数,使得最后生成的语音效果和最后 3D 肌肉运动的效果达成一致,实现高品质效果。接下来,就是如何保证数字人做到实时、低延时的驱动,渲染出来的效果还要超写实,这就涉及到实时渲染驱动的工作,只有把这些动作都做到了,最后才能实现一个逼真的数字人的效果。

相比于靠真人驱动,AI 算法实时驱动具有灵活可控、高效率低成本等优势,比如在 3D 游戏行业,制作一个一分钟的视频,需要花费一个专业的美术师一个月的时间,而基于 AI 驱动的 3D AI 合成主播,却只需要一分钟,几乎可以实时生产,而写实度并不出现下降。这意味着,它未来可能代替游戏产业中关于 3D 制作的工作,大幅降低 3D 人物制作成本。

分身技术突破升级,意义在于推动 AI 落地

搜狗分身”技术让我们切实地看到,机器可以以更逼真自然的形象呈现在用户面前,而不是冷冰冰的“机器人”。

毫无疑问,搜狗是分身技术和AI合成主播的开创者,在这一领域也一直保持着技术上的创新,引领着分身技术的发展方向。

自从搜狗 2018 年推出 2D AI 合成主播“邱小浩”以来,业界迅速掀起一股合成 AI 主播的风潮,比如日本 NHK 电视台 AI 主播“新闻报导子”等等。

随着图像生成引擎的优化,搜狗又带头让 AI 合成主播从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”,实现具备多语言能力的多语种播报、能同用户沟通交流的自然交互等能力,让 AI 合成的主播更智能、更自然。

“让 AI 赋能于人”是搜狗的理念,促进 AI落地,推动解放各个产业生产力,更是实现 AI 技术价值的最终落点。

当前,搜狗分身技术在新闻场景中的价值与意义越发凸显,但 传媒新闻播报仅是分身技术的应用场景之一。未来,分身技术“大施拳脚”的前景仍非常广阔,将涵盖众多内容表达场景,例如虚拟教师、虚拟医生、虚拟客服、虚拟导游,等等。在解放行业生产力的同时,“搜狗分身”技术还会给用户更好的个性化音视频效果,用 AI 提高生活体验指日可待。

【END】

更多精彩推荐

??雷军:4G 手机已清仓,全力转 5G;QQ音乐播放中途插语音广告引热议;Wine 5.9 发布 | 极客头条

??中国 AI 应用元年来了!

??新基建东风下,开发者这样抓住工业互联网风口!

??15 岁黑进系统,发挑衅邮件意外获 Offer,不惑之年捐出全部财产,Twitter CEO 太牛了!

??避坑!使用 Kubernetes 最易犯的 10 个错误

??必读!53个Python经典面试题详解

??赠书 | 1月以来 Tether 增发47亿 USDT,美元都去哪儿了?

你点的每个“在看”,我都认真当成了喜欢

发表评论

登录后才能评论