元宇宙网

您现在的位置是:首页 > 元宇宙项目 > 腾讯数字人

腾讯数字人

迈入小样本、低成本时代,数智人以“小”见“大”

2023-09-26腾讯数字人
作者|格林 出品 | 新芒X

21世纪经济报道记者白杨 北京报道
数字人

尽管越来越多的数字人走入各行各业,投入实际应用,但高昂的制作和运营成本仍然让不少企业望而却步。那么,打造一个数字人究竟要花多少时间、多少金钱?过去的答案可能是数周到数月,几十万到百万,而现在,只需要24小时和上千元。

4月25日,腾讯云智能对外发布了小样本数智人生产平台。基于该平台,只需要3分钟真人口播视频、100句语音素材,便能实时建模并生成高清人像,并在24小时内制作出与真人近似的“数智人”,而整个过程的成本仅在千元级别。

腾讯优图实验室研究总监汪铖杰向21世纪经济报道记者表示,各项成本的大幅下降,本质上是因为数智人通用模型的学习从边际成本走向了固定成本。“原来训练每一个数智人,都需要几十小时甚至更长时间的语料或视频素材,而现在,基于底层通用多模态模型,可以提高训练速度,也让个性化素材训练成本快速降低”。

小样本数智人,展现出的“小”,实则是以“大”作为基础,包括大数据、多模态模型等。而随着AI技术的不断演进,数智人需要的训练样本将越来越少,训练时间越来越短,训练成本也越来越低。

由量变到质变

当然,实现小样本数智人生产,并非由某项新技术的出现而引发的创新,它遵循的依然是慢慢积累,由量变引发质变的技术迭代规则。

腾讯云智能数智人产品总经理陈磊告诉21世纪经济报道记者,腾讯现在的数智人团队,最早是从对话AI起步,从2016年开始,主要研究家庭的语音助手、车机的对话助手等,

2018年,他们发现在对话式交互中,如果面前有一个数字人,那整体的表现力和沟通效率,包括服务更有温度,都会有极大提升。所以当时,陈磊他们将对话式AI做了完整升级,由此开始研究以数字人为核心的多模态人机交互系统。

陈磊说,腾讯数智人主要追求两个方向:一是通过AI技术,提升数字人的智能性,让其更智慧;二是让数字人更懂行,能够进入到各行各业的不同场景,提升行业的服务能效。

据其介绍,腾讯数智人产品矩阵目前已涵盖的形象类型包括3D写实、3D半写实、3D卡通、2D真人、2D卡通等五种,此次发布的小样本数智人生产平台,针对的则是2D真人。

“2D真人包括精品和小样本两种模式,前者是面向客服、虚拟IP等场景,比如传媒行业的数字主播,它需要专业主播到录影棚录制1-2天的素材,之后才能塑造出2D精品数智人形象,成本也要达到数十万甚至百万级别;而2D小样本数智人,虽然也是根据真人形象定制,但普通人只需录制3-5分钟的视频,就可以生成属于自己的数智分身”,陈磊表示。

对于这背后的技术原理,汪铖杰透露,2D小样本技术的背后是3D技术。“小样本数智人从直观上感受是2D视频,背后其实是3D人像在做支撑。通过从‘文本/音频’信息到‘3D人像驱动’,再到‘2D人像视频’的模式,使数智人口型、表情更到位,也让小样本数智人形象实现了皱纹级还原。”

另外,小样本数智人背后还要基于自监督机制的通用多模态模型,该模型经过大规模数据训练,可以将语音、文本与人像的表情、口型进行关联。这也是为什么只需要3分钟的训练视频就能学习每个人个性化的发音和口型特征的关键。

汪铖杰表示,虽然小样本数智人使用门槛、成本都大幅降低,但他们希望能“用跑车的性能,服务家用轿车的用户”,通过综合运用多项视觉AI技术,提升小样本数智人品质,其中就包括高精度人像分割、光照优化、人像美化、视线矫正等。他举例称,当录制视频出现较暗、较朦等情况,小样本数智人可以通过光照优化技术进行亮度提升,也能通过高精度的人像美化提升皮肤质感。

在声音复刻方面,基于腾讯自研的新一代小样本音色定制技术,依托深度学习的声学模型及神经网络声码器,小样本数智人改善了传统声学模型语音韵律单一,语调平淡的问题,让语音合成更加精细化。例如,一段文字中哪里该读重音、哪里情绪有变化等因素,都会经由AI训练识别,复现个人音色以及表达风格,最终实现接近本人的自然表达。

过去的数字人虽然成本很高,但效果却不一定好,通过这些技术迭代,现在千元级别成本打造的数字人,已经让人难辨真假。但汪铖杰也坦言,如果仔细看,小样本数智人在表情、动作上也还存在优化空间,而这些,也是腾讯云智能下半年会继续打磨的地方。

落地千行百业

随着成本降低,周期、效率的提升,数智人可服务的群体也变得更加广泛,过去可能只是大企业的专属,现在则成为人人都可享受的服务。腾讯云智能此次推出的小样本数智人生产平台,目的也是加速数智人的快速拓展和落地。

数据显示,从2018年到现在,腾讯数智人已落地数十个行业,上百个业务场景,覆盖金融、传媒、出行、文旅、政务等多个行业。而接下来,腾讯数智人服务的客户规模也将随着门槛的降低,得到快速增长。

陈磊表示,开箱即用的数智人生产服务,主要是依托腾讯云TI平台,通过内置超10项AI算法能力,使用户无需掌握任何算法、研发经验,只要在平台导入视频、语音训练素材,即可通过“自助式”服务,完成大批量数智人形象、音色定制。

在其看来,小样本数智人支持半身、全身形象展示,手势动作会根据内容灵活调整,也支持录制背景任意更换,适用于直播带货等更广泛的商用场景。以知识分享口播视频生产为例,小样本数智人可以代医生、律师等专业人士出镜,大大节省视频录制时间。

在沟通会现场,浙江树兰医院盛国平博士展示如何用“数字分身”输出医学知识科普视频。例如,按日更计算,如果以“妆发+调试+录制”平均两小时/期来算,一周就可以省下14个小时,一年可节省近800-900小时,相当于省下30-40天的制作时间。

不过,在推动数智人落地千行百业的过程中,腾讯云智能也有着明确的“边界”。陈磊告诉记者,对腾讯云智能来说,是希望通过PaaS化的能力,将数智人服务输入到各个场景中去,而针对数智人上层的SaaS化场景,需求是多样的,也存在很多行业know-how,这就需要由合作伙伴一起来探索。

“腾讯云智能会将PaaS能力开放给各个合伙伙伴,并把看到的垂直行业商机也分享给合作伙伴。然后,由腾讯云智能做技术支持,合作伙伴基于PaaS能力打造上层应用,从而形成自己的数智人SaaS方案”,陈磊说。

目前,腾讯云智能已经有数十家合作伙伴依托其平台,向行业提供数智人直播SaaS、知识口播SaaS应用,覆盖医疗、传媒、金融多个行业。陈磊表示,未来面向数智人应用,腾讯云智能将不断通过CV、TTS、NLP、ASR等多项自研AI技术,推动数智人服务更广泛落地,以“普惠化”服务走入千行百业。

文章评论