人与信息系统打交道的方式,过去几十年里发生了几次大的改变。每一次改变的实质,都是让机器向人的自然习惯靠近,降低普通人使用算力的难度。

在早期的命令行时代,用户必须死记各种指令,严格按照语法输入,才能得到计算结果。这个阶段的计算机完全是少数专业技术人员的工具,普通人接触不到,也根本用不了。图形用户界面出现后,用桌面、文件夹、按钮这些物理世界的视觉符号来代表抽象的文件和操作流程。人们可以通过鼠标点击图形来完成大部分任务,学习门槛一下子降了下来。但系统依然只会被动响应精确的操作指令,没有理解用户意图的能力。
移动互联网时代,交互模式被拆分进了无数个独立的应用程序。社交、购物、出行、新闻,每一种需求都被封装在一个个单独的APP里。用户在程序之间来回跳转,事实上成了不同系统和数据流之间的人工中转站。信息被切分得很碎,操作链条也变得很长。
大语言模型和生成式人工智能的出现,正在重新改写这种格局。人不再需要到特定APP里寻找某个深层菜单,而是可以直接用自然语言对一个拟人化的接口说出需求。这个接口后面,连接着各种大模型、企业数据库、外部服务和自动化工作流程。这个接口就是当下数字人演进的核心方向。数字人不是简单的虚拟形象,而是把庞大且抽象的AI能力打包成一个可以对话、可以信任的人格化入口。
为什么必须进行人格化的包装?原因在于,当前AI的内部原理极度抽象。预训练大模型、检索增强生成、多模态融合、智能体工作流这些概念,对多数用户和企业决策者来说难以直观理解。人的大脑天然擅长处理人脸、表情、语气和情绪,而对一个包含千亿参数的黑箱模型很难产生信任。但如果把这个黑箱包装成一位老师、一位医生、一位客服或一位律师,人们就知道怎么跟它打交道了,顾虑也会小很多。数字人在这里充当了一个认知缓冲层和信任代理,让使用者可以用接近人际交流的方式去调度背后复杂的智能。
当前市场上的数字人,根据驱动能力和自主程度,可以大致分为三个层级。
第一个层级是基础的“皮套”型数字人。它们通常是预先建模的2D或3D形象,搭配语音合成和简单的口型驱动算法。这类产品只能照着事先写好的脚本进行单向的音视频输出,没有感知环境、理解情绪和实时交互的能力。大量低端无人直播带货账号用的就是这种。随着开源技术普及,这一层的商业门槛已经极低,在电商平台甚至可以花几块钱买到一整套工具包。它们的核心价值仅限于把文字转化为可看的视频,竞争基本停留在价格战层面。
第二个层级是作为内容生产工具的数字人。这一层已经加入了基于大语言模型的语义理解能力,以及与私有知识库结合的检索增强生成系统。这意味着数字人初步具备了阅读理解、知识储备和逻辑对话能力,可以承担企业内训、产品介绍、客户咨询、合规培训等任务。它的本质,是把一个可以无成本复制多次的专业人士形象投放到业务流当中。硅基智能等企业的业绩可以反映这种需求的真实程度。根据公开数据,2025年其营收接近1亿元,净利润同比增长近三倍。一个企业级知识服务型数字人的年授权费用一般在两万多元,如需专属形象定制,需要额外支付几千元的形象建模费用。这一层是目前落地最为广泛、商业模式也最清晰的形态,但它的根本局限在于,仍然是以内容输出为核心,而不是真正地代替人去做事。
第三个层级是作为智能体入口的数字员工。这是当前竞争的深水区。这类数字人不再仅仅输出视频或语音回答,而是集成了Agent架构、长期记忆模块和跨系统工具调用能力。它可以在数字世界里真实地“动手”操作:理解用户的一个模糊需求后,自主拆解任务、规划步骤,登录企业内部系统,处理不同格式的文件,预定机酒,生成商业报告,甚至修改ERP系统中的底层数据,以及跟踪跨部门项目的全流程。这时候数字人已经不再是流媒体播放器,而是成为了一个具身的、可以产生增量产值的数字员工。
这一层的破坏性还体现在对传统API经济的突破上。很多老旧软件或封闭的SaaS系统没有提供接口,过去的自动化手段无法介入。而现在研究人员尝试让AI智能体直接“看”屏幕,识别按钮和输入框,像人一样移动光标进行点击、输入和拖拽。这种面向GUI的自动化使得数字人可以在理论上调用任何软件界面,从现代网络应用到几十年前开发的内部工单系统,都可以被纳入自动化的范围。甚至可以通过录屏让数字人观察人类操作步骤来进行模仿学习,而无须重新编写自动化脚本。这种能力的副作用同样明显:一旦智能体获得过高的操作权限,就可能成为安全隐患。
当技术平权使得视觉听觉层面的表现力越来越容易获取时,数字人产业的商业壁垒正在发生转移。过去很多人认为,核心卖点在于高精度的面部模型、毛孔级别的细节和低延迟的光线追踪渲染。但现在,纯粹形似的部分正在迅速商品化。真正稀缺的变成了数字人背后的认知资产:思维逻辑、专业知识储备和长期互动中形成的人格特质。一个名医、名律师或行业创始人的数字分身,其价值在于把这个人常年积累的专业判断、表达风格和知识体系进行高保真复制和规模化分发。克隆一个形象只需要十几秒的视频和语音素材,但克隆一个人的专业能力和判断力,需要系统性地处理他的知识库和决策模式。

要让这种交互自然到可以建立信任,多模态大模型在底层发挥了关键作用。以往系统各部分往往是松耦合的:文本理解、语音合成、面部动画分别由独立模型处理再拼接到一起,很容易出现表情与语义脱节、音画不同步的问题,导致恐怖谷效应。新一代的做法是让文本、语音、动作和表情由同一个端到端的模型统一调度。系统根据用户语音中的情感和语言含义,直接生成匹配的微表情和肢体动作,使情感表现具有一贯性,不再是生硬的拼凑。
在企业端,这种具备行动能力的数字员工正在与组织知识管理深度结合。一个典型领域是人力资源。过去企业HR人员每月要处理大量重复咨询,如假期余额、公积金比例等,很多答案直接写在制度文档里,但检索耗时。2024年时,大模型在处理复杂HR规则时的准确率只有72%左右,到了2026年这一指标已经提升到94%以上。例如,有关“司龄满两年转正后年假由5天增至10天,但试用期延长需特殊折算”这样的复合条件判断,旧模型错误率一度超过三分之一,而新模型通过深度检索增强,把错误率压到了6%以下。这种提升使得企业可以直接用数字员工承担大批量标准化问询。数据显示,引入人事智能体的企业,HR事务性工作时间平均下降了67%,员工满意度还提升了23个百分点。同时,HR服务比也从2023年的1:80提升到2026年的1:150。
为了确保数字员工输出准确,必须为它建立一个干净、可用的组织知识库。腾讯乐享在2026年发布的Agentic知识库升级方案,把知识治理分为五级:从L1的主动发现和多源接入,到L2的自动切片和去重,再到L3的基于干净知识库进行智能决策,L4的持续优化和反馈闭环,以及L5的知识到行动(K2A)的完全落地。在这套系统里,员工可以把企业微信、会议记录、外部文档等导入工作台,数字员工自动进行理解、结合知识库生成报告或方案,生成物又自动回流成为可复用资产。某项目团队实测,使用这种系统后,平均每人每天节省了2.3小时的文书工作时间,内容生产效率提升最高达80%,知识的可用率保持在98%以上。
面对复杂任务,单一智能体仍然会出现推理瓶颈和幻觉问题。多智能体协同是解决这个问题的方向之一。通过让多个角色数字人进行辩论、信息互验和分工执行,可以明显降低错误率。比如在双智能体辩论模式中,正反方针对一个商业决策进行多轮交锋,自动修补逻辑漏洞;三智能体裁判模式还会引入一个评估角色进行打分。这种群体协同机制在需要高精确度的推演场景中效果尤为突出。
在公共治理和文化领域,数字人也开始发挥实际作用。政务数字人能够理解复杂的政策条文,辅助审批和决策,而不只是提供查询入口。在敦煌研究院与腾讯合作的数字藏经洞项目中,9900多卷文书被数字化扫描和激活。内置的数字人向导可以应对繁体无标点的古文,进行文白互译、多语言翻译和核心思想的智能归纳,还能将经文内容与对应壁画场景进行知识图谱关联。这种应用让文化资产从静默的文物变成了可交互可传播的活态资源。
数字人产业的宏观挑战同样明显。算力资源分散、高质量垂直训练数据集不足、尚未出现真正的杀手级应用,是目前中国大模型领域被反复提及的问题。越来越多公司转向下游寻找具体落地场景,试图通过手机等端侧设备将人格化AI能力带给普通消费者。
在安全和伦理方面,数字人越是逼真,能够接管的系统权限越大,其被恶意利用的风险就越高。让智能体直接控制屏幕和键鼠,一旦遭到提示注入攻击或在执行复杂任务时产生幻觉,就可能造成信息泄露或越权操作。这也是为什么部分操作系统中的AI代理功能会引发用户对控制权的忧虑。对此,中国已经在国家层面推进敏捷治理框架,要求将伦理规范嵌入AI全生命周期。相关规范明确要求提升数据的质量和代表性,防止算法偏见,严禁利用数字人技术进行身份欺诈、传播虚假信息或危害国家安全,并要求在发现安全漏洞时主动反馈和快速修补,同时始终保留人类在关键节点上的干预权限。
从长远看,数字人的本质不是一段能够说话的视频,而是一种将人的认知、记忆和执行能力延伸到数字世界的媒介。印刷术延伸了思想的传播,摄影延伸了视觉的记录,数字人则在延伸“人本身”。它是第一次可以用低成本无限复制并永久在线的人类表达载体。最终方向不是大量的虚拟主播或客服,而是为每个物理个体在数字空间里配置一个或多个数字分身。这些分身可以承担不同角色:市场分析、健康管理、工作代理,甚至是继承个人思维方式和价值观的另一个数字化自己。在主体休息时,分身可以继续与人协作、创造价值。
因此,数字人的真正定位,是通用人工智能时代的人类分身。它不是一个简单的工具或内容产品,而是人与那个庞大、抽象且持续运行的智能数字世界之间,最直接、最自然的接触面。未来的人机交互界面,可能不再是满屏的APP和按钮,而是一个了解你、陪伴你且能够独立行动的人格化智能体。这种人类与其数字分身共同工作的模式,已经开始进入实质推进阶段。