数字人三层技术架构：从动效皮套到具身智能体的能力迭代

2026-06-09 13:50:41

人与信息系统打交道的方式，过去几十年里发生了几次大的改变。每一次改变的实质，都是让机器向人的自然习惯靠近，降低普通人使用算力的难度。

在早期的命令行时代，用户必须死记各种指令，严格按照语法输入，才能得到计算结果。这个阶段的计算机完全是少数专业技术人员的工具，普通人接触不到，也根本用不了。图形用户界面出现后，用桌面、文件夹、按钮这些物理世界的视觉符号来代表抽象的文件和操作流程。人们可以通过鼠标点击图形来完成大部分任务，学习门槛一下子降了下来。但系统依然只会被动响应精确的操作指令，没有理解用户意图的能力。

移动互联网时代，交互模式被拆分进了无数个独立的应用程序。社交、购物、出行、新闻，每一种需求都被封装在一个个单独的APP里。用户在程序之间来回跳转，事实上成了不同系统和数据流之间的人工中转站。信息被切分得很碎，操作链条也变得很长。

大语言模型和生成式人工智能的出现，正在重新改写这种格局。人不再需要到特定APP里寻找某个深层菜单，而是可以直接用自然语言对一个拟人化的接口说出需求。这个接口后面，连接着各种大模型、企业数据库、外部服务和自动化工作流程。这个接口就是当下数字人演进的核心方向。数字人不是简单的虚拟形象，而是把庞大且抽象的AI能力打包成一个可以对话、可以信任的人格化入口。

为什么必须进行人格化的包装？原因在于，当前AI的内部原理极度抽象。预训练大模型、检索增强生成、多模态融合、智能体工作流这些概念，对多数用户和企业决策者来说难以直观理解。人的大脑天然擅长处理人脸、表情、语气和情绪，而对一个包含千亿参数的黑箱模型很难产生信任。但如果把这个黑箱包装成一位老师、一位医生、一位客服或一位律师，人们就知道怎么跟它打交道了，顾虑也会小很多。数字人在这里充当了一个认知缓冲层和信任代理，让使用者可以用接近人际交流的方式去调度背后复杂的智能。

当前市场上的数字人，根据驱动能力和自主程度，可以大致分为三个层级。

第一个层级是基础的“皮套”型数字人。它们通常是预先建模的2D或3D形象，搭配语音合成和简单的口型驱动算法。这类产品只能照着事先写好的脚本进行单向的音视频输出，没有感知环境、理解情绪和实时交互的能力。大量低端无人直播带货账号用的就是这种。随着开源技术普及，这一层的商业门槛已经极低，在电商平台甚至可以花几块钱买到一整套工具包。它们的核心价值仅限于把文字转化为可看的视频，竞争基本停留在价格战层面。

第二个层级是作为内容生产工具的数字人。这一层已经加入了基于大语言模型的语义理解能力，以及与私有知识库结合的检索增强生成系统。这意味着数字人初步具备了阅读理解、知识储备和逻辑对话能力，可以承担企业内训、产品介绍、客户咨询、合规培训等任务。它的本质，是把一个可以无成本复制多次的专业人士形象投放到业务流当中。硅基智能等企业的业绩可以反映这种需求的真实程度。根据公开数据，2025年其营收接近1亿元，净利润同比增长近三倍。一个企业级知识服务型数字人的年授权费用一般在两万多元，如需专属形象定制，需要额外支付几千元的形象建模费用。这一层是目前落地最为广泛、商业模式也最清晰的形态，但它的根本局限在于，仍然是以内容输出为核心，而不是真正地代替人去做事。

第三个层级是作为智能体入口的数字员工。这是当前竞争的深水区。这类数字人不再仅仅输出视频或语音回答，而是集成了Agent架构、长期记忆模块和跨系统工具调用能力。它可以在数字世界里真实地“动手”操作：理解用户的一个模糊需求后，自主拆解任务、规划步骤，登录企业内部系统，处理不同格式的文件，预定机酒，生成商业报告，甚至修改ERP系统中的底层数据，以及跟踪跨部门项目的全流程。这时候数字人已经不再是流媒体播放器，而是成为了一个具身的、可以产生增量产值的数字员工。

这一层的破坏性还体现在对传统API经济的突破上。很多老旧软件或封闭的SaaS系统没有提供接口，过去的自动化手段无法介入。而现在研究人员尝试让AI智能体直接“看”屏幕，识别按钮和输入框，像人一样移动光标进行点击、输入和拖拽。这种面向GUI的自动化使得数字人可以在理论上调用任何软件界面，从现代网络应用到几十年前开发的内部工单系统，都可以被纳入自动化的范围。甚至可以通过录屏让数字人观察人类操作步骤来进行模仿学习，而无须重新编写自动化脚本。这种能力的副作用同样明显：一旦智能体获得过高的操作权限，就可能成为安全隐患。

当技术平权使得视觉听觉层面的表现力越来越容易获取时，数字人产业的商业壁垒正在发生转移。过去很多人认为，核心卖点在于高精度的面部模型、毛孔级别的细节和低延迟的光线追踪渲染。但现在，纯粹形似的部分正在迅速商品化。真正稀缺的变成了数字人背后的认知资产：思维逻辑、专业知识储备和长期互动中形成的人格特质。一个名医、名律师或行业创始人的数字分身，其价值在于把这个人常年积累的专业判断、表达风格和知识体系进行高保真复制和规模化分发。克隆一个形象只需要十几秒的视频和语音素材，但克隆一个人的专业能力和判断力，需要系统性地处理他的知识库和决策模式。

要让这种交互自然到可以建立信任，多模态大模型在底层发挥了关键作用。以往系统各部分往往是松耦合的：文本理解、语音合成、面部动画分别由独立模型处理再拼接到一起，很容易出现表情与语义脱节、音画不同步的问题，导致恐怖谷效应。新一代的做法是让文本、语音、动作和表情由同一个端到端的模型统一调度。系统根据用户语音中的情感和语言含义，直接生成匹配的微表情和肢体动作，使情感表现具有一贯性，不再是生硬的拼凑。

在企业端，这种具备行动能力的数字员工正在与组织知识管理深度结合。一个典型领域是人力资源。过去企业HR人员每月要处理大量重复咨询，如假期余额、公积金比例等，很多答案直接写在制度文档里，但检索耗时。2024年时，大模型在处理复杂HR规则时的准确率只有72%左右，到了2026年这一指标已经提升到94%以上。例如，有关“司龄满两年转正后年假由5天增至10天，但试用期延长需特殊折算”这样的复合条件判断，旧模型错误率一度超过三分之一，而新模型通过深度检索增强，把错误率压到了6%以下。这种提升使得企业可以直接用数字员工承担大批量标准化问询。数据显示，引入人事智能体的企业，HR事务性工作时间平均下降了67%，员工满意度还提升了23个百分点。同时，HR服务比也从2023年的1：80提升到2026年的1：150。

为了确保数字员工输出准确，必须为它建立一个干净、可用的组织知识库。腾讯乐享在2026年发布的Agentic知识库升级方案，把知识治理分为五级：从L1的主动发现和多源接入，到L2的自动切片和去重，再到L3的基于干净知识库进行智能决策，L4的持续优化和反馈闭环，以及L5的知识到行动（K2A）的完全落地。在这套系统里，员工可以把企业微信、会议记录、外部文档等导入工作台，数字员工自动进行理解、结合知识库生成报告或方案，生成物又自动回流成为可复用资产。某项目团队实测，使用这种系统后，平均每人每天节省了2.3小时的文书工作时间，内容生产效率提升最高达80%，知识的可用率保持在98%以上。

面对复杂任务，单一智能体仍然会出现推理瓶颈和幻觉问题。多智能体协同是解决这个问题的方向之一。通过让多个角色数字人进行辩论、信息互验和分工执行，可以明显降低错误率。比如在双智能体辩论模式中，正反方针对一个商业决策进行多轮交锋，自动修补逻辑漏洞；三智能体裁判模式还会引入一个评估角色进行打分。这种群体协同机制在需要高精确度的推演场景中效果尤为突出。

在公共治理和文化领域，数字人也开始发挥实际作用。政务数字人能够理解复杂的政策条文，辅助审批和决策，而不只是提供查询入口。在敦煌研究院与腾讯合作的数字藏经洞项目中，9900多卷文书被数字化扫描和激活。内置的数字人向导可以应对繁体无标点的古文，进行文白互译、多语言翻译和核心思想的智能归纳，还能将经文内容与对应壁画场景进行知识图谱关联。这种应用让文化资产从静默的文物变成了可交互可传播的活态资源。

数字人产业的宏观挑战同样明显。算力资源分散、高质量垂直训练数据集不足、尚未出现真正的杀手级应用，是目前中国大模型领域被反复提及的问题。越来越多公司转向下游寻找具体落地场景，试图通过手机等端侧设备将人格化AI能力带给普通消费者。

在安全和伦理方面，数字人越是逼真，能够接管的系统权限越大，其被恶意利用的风险就越高。让智能体直接控制屏幕和键鼠，一旦遭到提示注入攻击或在执行复杂任务时产生幻觉，就可能造成信息泄露或越权操作。这也是为什么部分操作系统中的AI代理功能会引发用户对控制权的忧虑。对此，中国已经在国家层面推进敏捷治理框架，要求将伦理规范嵌入AI全生命周期。相关规范明确要求提升数据的质量和代表性，防止算法偏见，严禁利用数字人技术进行身份欺诈、传播虚假信息或危害国家安全，并要求在发现安全漏洞时主动反馈和快速修补，同时始终保留人类在关键节点上的干预权限。

从长远看，数字人的本质不是一段能够说话的视频，而是一种将人的认知、记忆和执行能力延伸到数字世界的媒介。印刷术延伸了思想的传播，摄影延伸了视觉的记录，数字人则在延伸“人本身”。它是第一次可以用低成本无限复制并永久在线的人类表达载体。最终方向不是大量的虚拟主播或客服，而是为每个物理个体在数字空间里配置一个或多个数字分身。这些分身可以承担不同角色：市场分析、健康管理、工作代理，甚至是继承个人思维方式和价值观的另一个数字化自己。在主体休息时，分身可以继续与人协作、创造价值。

因此，数字人的真正定位，是通用人工智能时代的人类分身。它不是一个简单的工具或内容产品，而是人与那个庞大、抽象且持续运行的智能数字世界之间，最直接、最自然的接触面。未来的人机交互界面，可能不再是满屏的APP和按钮，而是一个了解你、陪伴你且能够独立行动的人格化智能体。这种人类与其数字分身共同工作的模式，已经开始进入实质推进阶段。

热门标签

秋果大事件

区块链

AI人工智能

数字空间

XR眼镜

数字人

中医智慧手表

核心产品

联系方式

官方公众号

商务合作