腾讯数字人

迈入小样本、低成本时代，数智人以“小”见“大”

2023-09-26腾讯数字人

作者｜格林出品 | 新芒X

21世纪经济报道记者白杨北京报道

尽管越来越多的数字人走入各行各业，投入实际应用，但高昂的制作和运营成本仍然让不少企业望而却步。那么，打造一个数字人究竟要花多少时间、多少金钱？过去的答案可能是数周到数月，几十万到百万，而现在，只需要24小时和上千元。

4月25日，腾讯云智能对外发布了小样本数智人生产平台。基于该平台，只需要3分钟真人口播视频、100句语音素材，便能实时建模并生成高清人像，并在24小时内制作出与真人近似的“数智人”，而整个过程的成本仅在千元级别。

腾讯优图实验室研究总监汪铖杰向21世纪经济报道记者表示，各项成本的大幅下降，本质上是因为数智人通用模型的学习从边际成本走向了固定成本。“原来训练每一个数智人，都需要几十小时甚至更长时间的语料或视频素材，而现在，基于底层通用多模态模型，可以提高训练速度，也让个性化素材训练成本快速降低”。

小样本数智人，展现出的“小”，实则是以“大”作为基础，包括大数据、多模态模型等。而随着AI技术的不断演进，数智人需要的训练样本将越来越少，训练时间越来越短，训练成本也越来越低。

由量变到质变

当然，实现小样本数智人生产，并非由某项新技术的出现而引发的创新，它遵循的依然是慢慢积累，由量变引发质变的技术迭代规则。

腾讯云智能数智人产品总经理陈磊告诉21世纪经济报道记者，腾讯现在的数智人团队，最早是从对话AI起步，从2016年开始，主要研究家庭的语音助手、车机的对话助手等，

2018年，他们发现在对话式交互中，如果面前有一个数字人，那整体的表现力和沟通效率，包括服务更有温度，都会有极大提升。所以当时，陈磊他们将对话式AI做了完整升级，由此开始研究以数字人为核心的多模态人机交互系统。

陈磊说，腾讯数智人主要追求两个方向：一是通过AI技术，提升数字人的智能性，让其更智慧；二是让数字人更懂行，能够进入到各行各业的不同场景，提升行业的服务能效。

据其介绍，腾讯数智人产品矩阵目前已涵盖的形象类型包括3D写实、3D半写实、3D卡通、2D真人、2D卡通等五种，此次发布的小样本数智人生产平台，针对的则是2D真人。

“2D真人包括精品和小样本两种模式，前者是面向客服、虚拟IP等场景，比如传媒行业的数字主播，它需要专业主播到录影棚录制1-2天的素材，之后才能塑造出2D精品数智人形象，成本也要达到数十万甚至百万级别；而2D小样本数智人，虽然也是根据真人形象定制，但普通人只需录制3-5分钟的视频，就可以生成属于自己的数智分身”，陈磊表示。

对于这背后的技术原理，汪铖杰透露，2D小样本技术的背后是3D技术。“小样本数智人从直观上感受是2D视频，背后其实是3D人像在做支撑。通过从‘文本/音频’信息到‘3D人像驱动’，再到‘2D人像视频’的模式，使数智人口型、表情更到位，也让小样本数智人形象实现了皱纹级还原。”

另外，小样本数智人背后还要基于自监督机制的通用多模态模型，该模型经过大规模数据训练，可以将语音、文本与人像的表情、口型进行关联。这也是为什么只需要3分钟的训练视频就能学习每个人个性化的发音和口型特征的关键。

汪铖杰表示，虽然小样本数智人使用门槛、成本都大幅降低，但他们希望能“用跑车的性能，服务家用轿车的用户”，通过综合运用多项视觉AI技术，提升小样本数智人品质，其中就包括高精度人像分割、光照优化、人像美化、视线矫正等。他举例称，当录制视频出现较暗、较朦等情况，小样本数智人可以通过光照优化技术进行亮度提升，也能通过高精度的人像美化提升皮肤质感。

在声音复刻方面，基于腾讯自研的新一代小样本音色定制技术，依托深度学习的声学模型及神经网络声码器，小样本数智人改善了传统声学模型语音韵律单一，语调平淡的问题，让语音合成更加精细化。例如，一段文字中哪里该读重音、哪里情绪有变化等因素，都会经由AI训练识别，复现个人音色以及表达风格，最终实现接近本人的自然表达。

过去的数字人虽然成本很高，但效果却不一定好，通过这些技术迭代，现在千元级别成本打造的数字人，已经让人难辨真假。但汪铖杰也坦言，如果仔细看，小样本数智人在表情、动作上也还存在优化空间，而这些，也是腾讯云智能下半年会继续打磨的地方。

落地千行百业

随着成本降低，周期、效率的提升，数智人可服务的群体也变得更加广泛，过去可能只是大企业的专属，现在则成为人人都可享受的服务。腾讯云智能此次推出的小样本数智人生产平台，目的也是加速数智人的快速拓展和落地。

数据显示，从2018年到现在，腾讯数智人已落地数十个行业，上百个业务场景，覆盖金融、传媒、出行、文旅、政务等多个行业。而接下来，腾讯数智人服务的客户规模也将随着门槛的降低，得到快速增长。

陈磊表示，开箱即用的数智人生产服务，主要是依托腾讯云TI平台，通过内置超10项AI算法能力，使用户无需掌握任何算法、研发经验，只要在平台导入视频、语音训练素材，即可通过“自助式”服务，完成大批量数智人形象、音色定制。

在其看来，小样本数智人支持半身、全身形象展示，手势动作会根据内容灵活调整，也支持录制背景任意更换，适用于直播带货等更广泛的商用场景。以知识分享口播视频生产为例，小样本数智人可以代医生、律师等专业人士出镜，大大节省视频录制时间。

在沟通会现场，浙江树兰医院盛国平博士展示如何用“数字分身”输出医学知识科普视频。例如，按日更计算，如果以“妆发+调试+录制”平均两小时/期来算，一周就可以省下14个小时，一年可节省近800-900小时，相当于省下30-40天的制作时间。

不过，在推动数智人落地千行百业的过程中，腾讯云智能也有着明确的“边界”。陈磊告诉记者，对腾讯云智能来说，是希望通过PaaS化的能力，将数智人服务输入到各个场景中去，而针对数智人上层的SaaS化场景，需求是多样的，也存在很多行业know-how，这就需要由合作伙伴一起来探索。

“腾讯云智能会将PaaS能力开放给各个合伙伙伴，并把看到的垂直行业商机也分享给合作伙伴。然后，由腾讯云智能做技术支持，合作伙伴基于PaaS能力打造上层应用，从而形成自己的数智人SaaS方案”，陈磊说。

目前，腾讯云智能已经有数十家合作伙伴依托其平台，向行业提供数智人直播SaaS、知识口播SaaS应用，覆盖医疗、传媒、金融多个行业。陈磊表示，未来面向数智人应用，腾讯云智能将不断通过CV、TTS、NLP、ASR等多项自研AI技术，推动数智人服务更广泛落地，以“普惠化”服务走入千行百业。

很赞哦！ ()

上一篇
数字人在直播应用，数字人技术的强大之处

数字人在直播应用，数字人技术的强大之处

元宇宙

元宇宙网

腾讯数字人

迈入小样本、低成本时代，数智人以“小”见“大”

数字人在直播应用，数字人技术的强大之处

相关文章

文章评论