人机交互的第三次革命:数字人多模态融合与空间计算
2026-05-11 15:04:10

十年前,数字人还是个很贵但不太实用的东西。那时候,有些公司花上百万做一个数字人,放在展厅里当讲解员。它的皮肤纹理很细,眨眼很自然,口型也对得上——看起来确实像个人。但如果你问它一个不在脚本里的话,它就愣住了,什么也说不出来。



去看展厅的客户经常会问:“这东西花了多少钱?除了眨眼和说话,还能干啥?”


答案是,干不了啥。


那时候做数字人的团队,大部分精力都花在“像不像人”上。没人认真想过,用户真正需要的是“能帮我做什么”。结果就是,数字人成了展厅里一件很贵的装饰品,好看,但不好用。


有个做展厅的人说过一句话,后来在圈子里传开了:“数字人不是用来看的,是用来用的。再像真人,解决不了问题,就是个贵一点的花瓶。”


这话说得直接,但道理没错。


二、现在,它成了整个展厅的“大脑”


三年后再看,数字人已经完全不一样了。


变化最明显的,是用户在一个展厅里待的时间。以前平均就是八九分钟,走马观花看一看就走了。现在有了数字人的展厅,这个时间能到四十多分钟。翻了五倍。


这个数字背后,是数字人真的变“有用”了。


现在的数字人能干什么?说几个实在的能力。


第一,它能真正听懂人说话。你不是照着屏幕点按钮,而是直接跟它说话。普通话没问题,带口音的也行,甚至你说得不太清楚,它也能猜出你的意思。它会根据你的话给出回答,不是背稿子。


第二,它能控制整个展厅。跟它说一句“给我看看这个设备是怎么工作的”,它不光嘴上讲,大屏幕上马上就开始播放这个设备的3D拆解动画,灯光会自动调暗,音量会自动调整。它就像一个遥控器,能把展厅里所有东西都调动起来。


第三,它能记住你是谁。如果你之前来过,它认得你。“王经理,您上次看的那个方案,我们做了新的升级,要不要了解一下?”这不是提前录好的,是它真的调了你的来访记录。


第四,它不休息。晚上十点、周末、节假日,它都在。有企业统计过,部署数字人之后,非工作时间的咨询量占了三分之一还多。


所以现在再说数字人,它不是站在角落里的讲解员了。它是整个展厅的中枢。所有设备、所有内容、所有交互,都围着它转。


三、一个真实的例子


去年有个能源企业的展厅做了升级。他们之前用的是传统方式——真人讲解员带着参观,走到哪儿讲到哪儿。


问题很明显。讲解员培训三个月才能上岗,但客户问的专业问题,十个里总有那么两三个答不上来。客户觉得不专业,讲解员自己也难受。


升级之后,数字人成了展厅的核心。


访客一进门,人脸识别就认出是谁。如果是老客户,数字人会直接说:“上次您看了光伏的方案,这次有新功能,要不要重点看看?”


如果访客问:“我们济南那个工厂,上个月的能耗怎么样?”数字人马上调出数据,在大屏上显示出来,还能对比、分析。“上个月峰值降了12%,主要是因为智能调度系统起了作用。”


问到一个具体设备,数字人不仅说出数据,大屏上还会把设备拆开,一个个部件标出来,告诉你哪里容易出问题,维护要花多少钱。


参观完了,数字人会主动问:“刚才这些数据和案例,我发到您邮箱行吗?”点一下就发了。


这个项目做完之后,有三个数据挺说明问题。


客户待的时间,从12分钟变成了58分钟。满意度评分从3.2涨到了4.8(满分5)。销售线索多了42%。原来需要三个讲解员轮班,现在一个就够了,人力成本降了六成。


这个项目的负责人后来说了一句话:“以前讲解员要培训三个月才能上岗,还经常被问住。数字人第一天上班,就能回答95%的专业问题,而且不会累,不会忘。”


四、它怎么做到的?说简单也简单,说复杂也复杂


很多人问,这么聪明的数字人,技术是不是特别难搞?


答案是:底层技术确实复杂,但用起来不复杂。


复杂的部分在于,这东西要同时做好几件事。


首先是它要有一个“大脑”,我们叫大语言模型。这个大脑要能理解你说的话,还要能根据企业的产品资料、技术文档,给出专业的回答。这就要求这个大脑是在企业自己的知识库上“学过”的。



其次它要有“神经系统”,能控制展厅里所有的设备——大屏、灯光、音响、投影,都要能通过它来操作。


还要有“感官系统”,能听懂语音、认出人脸、看懂手势。


最后还要能跟企业的客户管理系统、生产系统打通,这样才能调出真实的业务数据,提供个性化的服务。


听起来挺复杂。但为什么又说用起来不复杂?因为这些东西已经被打包好了。


现在部署一个数字人,企业不需要自己研究这些技术。只需要把自己的产品资料、技术文档、案例库给出来,大概两周左右,一套完整的数字人系统就能上线。


五、最关键的改变:价格降下来了


十年前,一套基础的数字人系统,起步价50万。要是做定制开发,上百万很正常。


这个价格意味着什么?意味着只有大企业用得起。中小企业就算想要,也被价格挡在了门外。


有一家调研机构的数据显示,超过七成的中小企业对数字人感兴趣,但一听价格就放弃了。有个客户说得直白:“我整个展厅预算才30万,光一个数字人就50万,我做不起。”


这个情况不改变,数字人就永远只是少数人的玩具。


所以后来有一家公司做了一个改变——他们把数字人系统里那些通用的、标准化的东西抽出来,做成一个“中间件”。你可以理解成一个插头。企业不需要从头开始建,把这个插头插到自己的系统里,数字人就能用了。


这个中间件有几个好处。


第一,兼容性好。市面上大部分的大屏、投影、互动设备,都能接上。


第二,模块化。你要基础讲解就选基础版,要控制设备就加设备模块,要对接企业系统就再加对接模块。按需来,不浪费。


第三,便宜。以前开发周期要三个月,现在最快两周上线。总的成本降了六成以上。


有个中小企业的案例挺说明问题的。这家公司展厅预算只有25万,按以前的方案根本做不了数字人。用了中间件方案之后,花了8万就部署了一套,基础讲解、设备联动、资料推送,该有的功能都有了。


这家公司的老板说:“以前数字人是大公司的专属,现在我们小公司也用得起了。技术平权,这才是真正的进步。”


六、标准化的同时,也可以定制


有人会担心:标准化了,是不是所有企业的数字人都长一个样?


不是的。标准化的是底层的技术能力,但外面的“样子”和“性格”是可以定制的。


形象可以定制。科技公司可以做一个未来感强的形象,传统企业可以做一个稳重干练的形象,文旅项目可以做一个有地方特色的形象。


知识库可以定制。数字人说的话,是根据你提供的产品资料、技术文档、案例库训练出来的。它代表的是你的企业,不会说错话。


交互流程可以定制。你的展厅是先看产品再看案例,还是先讲技术再讲应用,可以让数字人按照你的节奏来引导。


简单说就是:标准化的技术保底,定制化的服务增值。大企业可以做得很有个性,小企业也花得起钱。


七、接下来还会变成什么样


2026年的数字人已经挺厉害了,但这肯定不是终点。技术这个东西,永远在往前走。


接下来几年,可能会看到这几件事。


第一,更懂你个人。现在的数字人能从系统里调你的信息,知道你是谁、来过几次、对什么感兴趣。未来的数字人,能从你的表情、动作里判断你的状态。你皱眉了,它就放慢语速,讲得更细一点。你走神了,它就换个话题,讲个案例吸引你。面对技术专家,它讲参数和原理;面对管理层,它讲投入产出比;面对普通访客,它讲故事。一个人一个讲法。


第二,交互更自然。以后可能不需要说话,指一下屏幕上的设备,它就知道你要问什么。摆摆手,它就知道这个话题过了。你看它一眼,它就知道你要提问。这种像真人一样的“察言观色”,会让体验完全不一样。


第三,走出屏幕。未来的数字人不会只待在屏幕里。你戴着增强现实的眼镜,它可以在你面前的全息影像,指着真实的设备给你讲解。它能感知你站在哪里、在看什么,然后引导你:“请往左边走,下个区域是我们最新的产品演示。”你走过去,那边的设备自动就启动了。


第四,无处不在。同一个数字人,在展厅里是讲解员,在企业官网上是在线客服,在微信公众号里是内容推荐官。形象一样,知识一样,你在展厅跟它聊过的内容,到了官网上它还记得。它会成为企业真正的“数字员工”,一天24小时,一年365天,到处都在。


这些不是科幻片。大部分在未来两三年就会落地。


八、说到底,技术是为了体验


最后想说一个观点。


很多人问,数字人最核心的价值是什么?是降成本?是提效率?是显得高科技?


都不是。


数字人最核心的价值,是让每个走进展厅的人,感觉到自己被理解、被尊重。


你想,以前去一个展厅,讲解员只有一个人,你只能跟着大部队走,节奏是别人的,内容也是别人的。你有特别想问的问题,可能没时间问,可能讲解员也答不上来。


现在有了数字人,它知道你是谁,知道你关心什么,知道怎么跟你讲你能懂。你不用等人,不用迁就,不用听那些你已经知道的东西。你跟它说话,它认真听,认真回答。


这种感受,跟以前完全不一样。


技术的进步,不是为了让人觉得技术很厉害。恰恰相反,最好的技术,是让人忘了技术的存在。你感觉不到自己在用一个高科技的东西,你只觉得这次体验很舒服,这个人很懂我。


从2016年到2026年,数字人从“花瓶”变成了“大脑”。这三年变化的,不只是技术,更是一个基本的认识——技术要为人的体验服务。


未来,每一座展厅大概都会有一个数字人。它聪明,但不冷冰冰;它专业,但有温度。


这大概就是这件事最有意思的地方。

核心产品
    联系方式
      Public QR Code
      官方公众号
      Affairs QR Code
      商务合作