元宇宙网

您现在的位置是:首页 > 元宇宙项目 > 虚拟数字人

虚拟数字人

数字员工,饭碗的终结者还是饭碗的创造者?

2023-08-15虚拟数字人
数字员工,饭碗的终结者还是饭碗的创造者?

今年开始," 数字游民 " 这一新鲜的职位引起了很多人的好奇。大家都期望过着在三四线城市或者乡村,线上工作的自由生活,前几年,这个词汇还叫作 " 自媒体 "、" 斜杠青年 "。而随着数字人的兴起,另一个新的 " 数字员工 ",我们是不是可以畅想一下?

很多同学可能并未察觉,我们接的电话来电中相当的比例已经变成了数字人。

它们惟妙惟肖,如果不是经常听的人在相对简单的对话情境中根本听不出来语音合成(TTS)的声音和真人声音的差异。这种数字员工的前奏自从 2010 年一来其实一直在响起,只不过不够激烈和密集,始终局限在几个有限的领域,比如外呼促销、客服等。此前核心瓶颈是 " 智能不够 ",所以只能处理相对狭小领域里的单一任务。chatGPT 等大模型则改变了这种底层约束。虽然成功的数字员工产品还没出来,但这是注定发生的事实,就像互联网只要开始普及,搜索就必然会出现一样。

从这个角度看 2023,是数字员工的元年。

一、数字员工汹涌而来

人工智能发展这些年商业上不成功,但各个技术点上实在有了很大进步,包括各类识别算法、语音合成算法等。而这些技术的组合正好为数字员工的诞生准备了充足的条件。

我们拿一个招聘的数字员工做例子,看下到底需要那些技术:

在最简单的场景,她需要能够围绕着自己的招聘主题进行宣讲,并能够回答候选人关切的问题。说到这个大家会马上想到现在的大模型。是的,基于现在的通用大模型能够比较好的完成这一基础工作。这打破了过去不同方向要分别定制,并且应对变化成本过高的约束。当前是招聘场景越简单,比如工厂的工人,那这种数字员工越胜任,招聘对象越复杂,它越不灵。

再递进一步,招聘的时候如果不是文字沟通,那还需要什么?

这就和过去做的智能音箱有点像,数字员工需要听的清,说的出来。听得清这事,在智能音箱等产品的推动下,即使是远场也能达到 95% 以上的精度,而 TTS 更是已经进展到只要录几句就能模拟出你得声音。完全没有技术障碍,并且成本可控。

再逼真一些,还需要什么?

还需要你的数字员工在表情、手势、体态上和真人一样。这个在这几年的努力下成本已经从几十万降到几万或者一万。

在这个时间点,这种数字员工能力还是有限度的,不管是智能还是表达方式。

如果硬要分个级别,估计在工厂这类岗位表现会超过人类,在软件工程师这类岗位上有可能打平,在招高管的时候就还不行。(大家可以回到招聘场景自己思考下这几类岗位的智能边界)

可这没关系,丝毫不会影响数字员工汹涌而来的趋势。

这就像一旦 286 出现,PC 浪潮就会很快席卷而来,一旦窄带出现互联网就会蓬勃发展一样。数据的连通性会增强,比如更知道招聘对象是谁;智能会增强,大模型肯定还会进阶;技术会变的更便宜,比如一个数字员工的成本会进一步下降。所有关联的技术,所有对应的产品在几个迭代周期后,就会变得像微信一样好用。(越到后面我们越会发现数字员工的落地根本不是技术问题,而是思想问题,大家可以考虑下企业做数字化九死一生的局面是因为技术么?)

二、商业闭环

如果要下个定义,数字员工和过去说的数字人的核心差别是什么?

数字人是一种简单的人形表示,对应局部功能;数字员工要在指定区域完整解决场景问题。

过去的人工智能产品核心的问题就是只承担局部功能,解决局部问题。

比如闸机、智慧电梯等,从人和场景的角度看,它们是一个个半拉子产品,只能干一个小点的功能。所以在各种场景下它们解决的是 " 更好 ",但其实增加成本。这就好比带了人脸的闸机和保安,智能助理和 APP 等都是这种情况。那怕在最简单的场景下,它们价值创造也不完整。

经常会提到的价值创造,这个词要和场景关联,然后再对应到具体产品,不应该对应具体某个具体技术。价值创造是个整体性问题,从整体性视角很容易看到过往十年 AI 产品的各种问题,从技术角度则看不到。

过去就客服等寥寥几个场景能实现一点全场景的价值创造,外呼都还不太行。

核心瓶颈就是上面说的智能供给不足。

为什么全场景创造价值很关键?

因为价值创造在场景上完整了,商业模式会非常简单直接。否则对客户和用户就很鸡肋,有了更好没有也行,当然购买意愿就不强。

假如雇佣一个人 15 万,雇佣一个数字员工 1.5 万,如果从场景上看这两者百分百等价,那从人效的角度看,所有的企业都会雇佣数字员工。

现在不雇佣只是因为产品不够好,不够完整。

如果能搞定,这个产业空间,比 IDC 等估计的要大的多。

并且一旦搞定,这注定会成为一种和互联网一样的巨大浪潮。人效有 2 倍差异的时候,没人能忽略它。

从这个角度看,数字员工确实会打碎许多现有的饭碗。

现有的饭碗底层越是依赖于简单的逻辑和概念组合,越是很快会被打碎。这点在之前 OpenAI 论文中有提,此处不展开。

需要补充的是我们过去因为人的智能不够而分工,把干一个产品分解成产品经理,设计、架构师,程序员,测试等。那现在因为智能供给的充沛而回卷,其实合情合理。如果回到程序员的上古时代,这个行当早期很多产品还真是一个人干的。所以上面的所谓的消灭其实也是一种回滚。

三、人的位置在那儿?

在给出答案前,我们来看几个例子。

一个是 Linus。Linux 早期是个什么运作模式呢?最开始就这哥们一个人干,结果干来干去,干不动了,他就开源。参与开源的人,每个人把自己的变更通过邮件发给他,他负责合并到正式版本的 Linux。Linus 对应这个产品的核心,但把工作量大的部分分出去了。后来这模式被 Git 等工具放大了,但本质上还是这逻辑。

假如 AI 大模型变厉害了,会发生什么?

这个社区会围绕这个 Linus 这个核心回卷。比如两千人的社区,最外围的会先被大模型取代掉。然后一圈一圈往中心折叠。但即使到最后 Linus 这角色是不能取代的,因为 Linus 解决的不单是编程问题,大模型的工具属性回答不了到底要成什么样,应该为现在考虑多少,为将来考虑多少这类问题。

(这么个涨法,Linux 内核社区也未必扛得住)

我们再看个例子,这个是罗永浩老师。论利润所有创业的 AI 公司十年的时间赚的钱可能还不如罗老师创业失败带货这几年一个人赚的多。那为什么可以这样?

我们可以讲没有抖音等平台就没有罗老师的甄嬛传。

抖音就像一块肥沃的地,罗老师在他上面发挥了自己的才华,种出了自己的粮食。

那抖音是什么呢?

抖音是一组算法的集合。虽然我们不管哪个算法叫人工智能,但推荐算法这些和 AI 底层是有很多共通之处的。所以罗老师的甄嬛传是一个把人的才华嫁接到硅基智能之上,并取得巨大成功的案例。

据此回溯我们可以发现过去互联网崛起的过程中,不单有罗老师的带货,还有各种其它主播,起点上还有网文作家,网红店等的成功。

这是什么概念和人工智能又有什么关系呢?

AI 算法会让过去的平台具有更强大的力量,借助于 AI 平台,小团队可以实现指定场景下的直接的价值创造。比如个性化的生产在过去是不太可能的,但当大量数字人崛起之后,理论上讲不管是纯虚的服务还是真正的生产,都可以做到每个人一个设计师,一条生产线。

我们的就业形式在因此而发生变化。

在互联网兴起前,很多时候我们想到就业就会想到工人、农民、干部等。

现在播主、网文作家、滴滴司机、外卖小哥、网红店主每一个都是单独的经济单位。他们对某一个平台形成单向依赖但横向的分工配合被弱化很多。

在这种模式下没有平台就没有就业。

有趣的是这也是一个循环。

在上古我们还和猩猩差不多的时候其实每个个体都是一个独立的经济单位,在农业文明的时候,被弱化了一点,但基本农民还是自给自足,就是对地球有依赖。

大工业时代就不是了,人和生产资料发生了巨大分离(马克思思想的一个起点)。但现在在往回走,核心是平台扮演了地球的角色。

差异是地球是不收钱的,但平台和个体之前牵涉利益分割。" 平台 " 的模式是未来,但必须处理好这种利益分配。

从这个角度看,数字员工就不是饭碗的破坏者,而是创造者。他们站在了每个人脚下,让每个人都可以形成自己的经济闭环,让每个人有机会发挥你自己属于人的那部分特色。

如果没有抖音,很多知名的主播现在会在干什么呢?

四、硅基和碳基的边界

那些会由数字员工在平台里面做,那些会由人在作为一个个分散个体,在平台外面做呢?

回答这个问题要看清硅基智能和碳基智能的能力边界。

在过去分工体系下创建的各种岗位核心依赖的正是记忆、对逻辑和概念的处置。

这部分实在不灵,人根本没可能和数字员工进行比较。数字员工越发展,这种分工体系越会回卷。场景和产品应该还在,但它背后对应的人员会削减。

但数字员工站到每个人的脚下后,每个人都迎来一个独立创造价值的机会,这部分会依赖于碳基智能的优势,比如创造力、活性、共情价值等。碳的活性和硅的稳定性在这里要做结合。

最终结果可以用一个形象的指标来形容(汪丁丁老师朋友圈看到的):

苏联老大帝国的 SKU 一共不过 2 万种,京东一个平台已经超过 4000 万。如果是上面这种情形那 SKU 可能再翻 100 倍。之前总是 SKU 是数目小于人的数目,在未来则可能彻底反过来。一个 SKU 只服务于极少的人,甚至一个人,但还有利润空间。因为基础成本被缩减了。

这是一种新式的多点多维的经济循环。

这种循环下,需求和供给是对等的,且是多样化的。每个人即是生产者也是消费者,人们的全面物质文化需求可以更好的被满足。

我们有时候可能会困惑?为什么生产力高度发展,我们每个人的物质文化需求也没被满足,但经济却出问题。核心可能就是循环的通路和循环的形式问题。这是我为什么在前一篇文章里说市场和凯恩斯主义的统一可能在于一个新的概念:科技道权的一个原因。

五、总结

假如一群蚂蚁在一只大象的耳朵上生活,这蚂蚁有智慧根据大象的习性基于大数据统计分析出了非常严密的公式,可以根据各种变动信号预测耳朵大象会怎么摆。现在地球气候变了,大象就一路往北。这样一来固然可以修正模型,让预测模型看着能解释过去,但骨子里是不可能准了。因为原点出了根本变化。我们总是面对两类问题,一类问题是连续性的,一类则是基础要素变了。基础要素变的情形就导致原点类问题,而原点类问题需要褪去细节,回到原点。

文章评论