一个数字人的成本，从几万到几百万差在哪？

2026-04-24 11:36:20

你在手机上刷到过一个带货主播吗？她讲得很流畅，表情也自然，笑起来嘴角的弧度刚好。但你不知道的是，那个主播可能不存在于任何一间直播间里，她是被一行行代码和数据拼出来的。

同样的情况发生在银行App里。你问客服“这个月的账单怎么还没出”，对面那个穿制服的人像很快回复了你。它没有工号，不领工资，也从来不下班。

还有电视剧。你最近追的那部剧里，某个配角的脸上，可能有百分之三十的像素不是演员本人的，是后期用算法补上去的。

这些被造出来的人，有一个共同的名字：数字人。

数字人不是一种东西。按照它能做什么，大致可以分成三类。

第一类是播报型数字人。它只会照着稿子念，新闻播报、天气预告、产品介绍就是它干的活。你给它一段文字，它把文字转成语音，同时把嘴型对上。它不会跟你对话，你说什么它也听不懂。抖音上很多带货的虚拟主播就属于这一类，它们一遍一遍地讲同一个产品，嘴型基本能对得上，但如果你在评论区问一句“这个多少钱”，它不会理你。

第二类是交互型数字人。银行里的虚拟柜员、商场导购大屏上的助手、手机里的语音助手有了形象的那种，都属于这一类。它能听懂你说的话，然后做出回应。它有一个“大脑”，能理解你的意图是什么，还能根据你问的问题调整表情和语气。你问“今天有什么理财产品”，它会微笑着给你介绍。你问“我这张卡丢了怎么办”，它会换上一副严肃的表情。

第三类是认知型数字人。这是目前最前沿的方向。它不仅能听懂你在说什么，还能理解你为什么要这么说。你说“今天心情不太好”，它不会机械地回答“那去看场电影吧”，而是会根据你的语气、表情、还有之前聊过的内容，给出一个有温度的反应。比如它可能会说“听起来你今天确实不太顺，要不要聊聊发生了什么事？”这种数字人现在还不多，成本也很高，但已经有人在做了。

这三类数字人，看起来差别很大，但造出来的步骤是差不多的。总共分四步。

第一步：造皮囊

让数字人看起来像个人，是第一步。

最早的办法是手工建模。艺术家打开三维建模软件，一点一点地画出人脸、身体、衣服。一个高精度的数字人模型，脸上有几万个网格点，皮肤要有毛孔和细纹，头发要一根一根地画。这种活儿几十个艺术家干好几个月，才能造出一个能用的模型。

后来有了三维扫描仪。人站在扫描仪中间，周围一圈相机同时拍照，几分钟就能拍完。这些照片被送到软件里拼接计算，生成一个带皮肤纹理和毛发细节的高精度模型。扫描出来的模型精度很高，连脸上细小的痣都能看清楚。整个过程从几个月缩短到几分钟。

还有一种更新的技术叫神经辐射场。你只需要给一段视频，AI就能从这段视频里推理出这个人的三维形状，甚至能生成视频里没有拍到的角度。比如你给了正面和侧面的视频，它能算出后脑勺长什么样。这种技术的厉害之处在于，它不需要专门的扫描设备，用普通手机拍的视频就能做。

模型做好了，但它是不会动的。要让这张脸能眨眼、能微笑、能皱眉，还需要做一件事：绑定。

艺术家会在模型里植入一套虚拟的骨骼和肌肉系统。每做一个表情，对应一组肌肉的收缩。比如微笑的时候，嘴角往上拉，苹果肌鼓起来，眼角微微下压。这些动作不是手动调出来的，而是通过一套参数控制的。艺术家定义好参数的范围，以后只要给参数赋值，模型就会自动做出对应的表情。这个过程叫骨骼绑定和表情绑定。

第二步：让它动起来

有了皮囊，下一步是让它活过来。活过来的意思，就是它能自己动，不需要人每时每刻去操控。

传统的方式是动作捕捉。真人穿上黑色的紧身衣，脸上贴满反光点，全身也有几十个标记点。周围一圈摄像头对着他拍，记录下每个标记点的运动轨迹。这些轨迹被导进电脑里，映射到数字人的骨骼上。真人抬一下手，数字人也抬一下手。真人笑一下，数字人也笑一下。电影里那些动作复杂的虚拟角色，基本都这么拍的。

但这种方式太贵了。动作捕捉设备一套几十万到上百万，还需要专门的空间和操作人员。拍一段几分钟的素材，可能要准备一整天。

现在的主流方式是AI驱动，便宜很多，也快很多。

你给AI一段文字，说“大家好，今天给大家介绍一款新产品”，AI会自动分析这段话的韵律、情感和重音。哪个字应该重读，哪几个词之间应该有停顿，这句话是高兴还是平淡，AI都能算出来。然后它根据这些分析结果，生成对应的口型、表情和肢体动作。

口型是怎么对的呢？AI会把文字拆成最小的发音单位，叫音素。中文有几十个音素，每个音素对应一种口型。比如发“啊”的时候嘴巴张大，发“呜”的时候嘴唇收圆，发“吃”的时候舌尖抵上颚。AI把音素排列好，再把对应的口型排列好，连起来播放，口型就差不多对上了。

表情就更复杂一些。同样一句话，“太好了”，用高兴的语气说和用讽刺的语气说，脸上的表情完全不一样。AI会分析这句话的情感倾向，如果是正向的，就让嘴角上扬、眉毛舒展；如果是负向的，就让嘴角下垂、眉心收紧。现在的AI模型已经能做到根据语音的几百个声学特征，实时生成对应的表情变化。

第三步：装上大脑

前面两步做出来的东西，能念稿、能动，但它听不懂你在说什么。要让数字人能跟你对话，需要给它装一个大脑。

这个大脑由三个环节组成。

第一环叫语音识别。你说一句话，它要把这句话转成文字。现在的语音识别技术已经比较成熟了，在安静环境下准确率能做到百分之九十八以上。你说“我想查一下余额”，它转成文字，基本不会出错。

第二环叫自然语言理解。文字转出来了，但系统得知道你想干什么。你是想问余额？还是想转账？还是只是想抱怨一下手续费太高？这一步靠大语言模型来完成。大语言模型看过海量的对话数据，知道什么样的文字对应什么样的意图。它会分析你的话，提取出关键信息，比如“余额”、“查询”、“我的账户”，然后判断你应该想做的事情是余额查询。

第三环叫语音合成。系统想好了怎么回答你，也把回答的文字写好了，但不能只回文字，得用声音说出来。现在的语音合成已经能做到情感化。你说“我很难过”，它会用低沉、缓慢的语气回复你，而不是用那种播音腔。你说“太棒了”，它会把音调提高，语速加快。这种情感化的语音合成，是靠给每个句子标注情感标签实现的。AI在生成声音的时候，会根据标签调整音高、音长和音强。

这三个环节串在一起，就是一个能听能答的数字人。你问它什么，它先听、再理解、再回答，整个过程一般在一两秒内完成。

第四步：让大脑和皮囊同步

最难的一步来了。

数字人的大脑想好了要说什么，皮囊也要同时配合。说话的时候，嘴型要对上，表情要匹配，如果有身体的话，手势和头部的动作也要自然。

以前的办法是预先录制。你设计好一段固定的对话，然后把这对话对应的口型动画、表情动画、手势动画全部做好，放进去。等到用户说出那句话的时候，系统直接把做好的动画播出来就行了。但这个办法只能应付那种固定的、不会变的对话。你让数字人即兴回答用户的问题，它不可能提前把动画做好。

现在的办法是实时生成。当语音合成系统在生成声音的时候，它同时会输出一组数据，叫视位参数。每一个音素对应一组视位参数，比如嘴巴张开多少毫米、嘴唇突出多少、下颌下降多少度。这组参数实时传给渲染引擎，渲染引擎根据这些参数驱动数字人的嘴巴做出对应的形状。

整个过程必须很快。从语音合成输出参数，到渲染引擎更新画面，中间的时间差不能超过零点几秒。如果超过了，你就会看到嘴巴动了半天才听到声音，或者声音出来了好一会儿嘴巴才开始动，这种违和感很让人出戏。

更高级的系统还会同步生成表情。语音合成系统在生成声音的时候，也知道这句话的情感是什么。如果它检测到这句话里含有“高兴”的情感，它会在发出声音的同时，给表情系统发一个指令，指令内容是“把嘴角上扬十五度，眉毛抬高五度，眼睛稍微眯起来”。表情系统接到指令后，在几百毫秒内把数字人的面部模型变形到目标状态。

这样，数字人说话的时候，你听到的声音是高兴的，看到的表情也是高兴的，两者完全同步。

四层堆起来才是一个完整的数字人

把一个数字人造出来，需要四层技术的叠加。

第一层是形象层，负责造出皮囊。用的是三维扫描、神经辐射场、骨骼绑定这些技术。没有这一层，数字人就没有样子。

第二层是驱动层，负责让它动起来。用的是动作捕捉或者AI驱动的口型和表情生成。没有这一层，数字人就是一个雕塑。

第三层是智能层，负责装上大脑。用的是语音识别、自然语言理解、语音合成和大语言模型。没有这一层，数字人不会跟你对话。

第四层是渲染层，负责让所有东西同步。用的是实时渲染引擎、音画同步算法、低延迟推流。没有这一层，数字人说话的时候嘴对不上，看起来像配音电影。

这四层，每一层单拿出来都是一个复杂的技术领域。把它们叠在一起，互相配合，才是一个能看、能听、能说、能互动的数字人。

数字人技术在进步，问题也在增加

从几年前只能照着稿子念的木头人，到现在能跟你自然对话、甚至能感觉到你情绪的智能体，数字人技术确实进步很快。背后的主要动力是大语言模型的爆发。没有大语言模型，数字人的大脑就是一个简单的问答机，只能回答已经写在数据库里的问题，超出范围就崩了。有了大语言模型，数字人可以理解开放式的提问，可以联系上下文，可以做出更像人的回应。

但这几年的进步也带来了不少问题。

第一个问题是成本。做一个高精度的、能实时对话的数字人，从扫描建模到训练大脑到部署上线，花掉几十万到几百万都很正常。设备要钱、算力要钱、数据要钱、人也要钱。便宜的方案也有，几千块钱就能做一个能念稿的数字人，但那种数字人一看就很假，嘴型勉强对上，表情几乎没有，你不想跟它多聊几句。

第二个问题是算力。实时生成口型和表情需要大量的计算。如果数字人是用手机或者网页访问的，对设备的要求很高。很多用户用的还是几年前的老手机，跑不动高精度的数字人渲染。解决方案是把渲染放在云上，推流到用户设备上，但这又需要好的网络条件。

第三个问题是伦理风险。数字人技术如果被滥用，后果很严重。有人可以用几张照片和一段语音，造出一个看起来和你一模一样的数字人，然后用这个数字人去骗你的家人、朋友。也可以造出一个虚构的人，让它说一些根本没有说过的话，然后配上看起来自然的画面，用来造谣或者抹黑。这类事情已经发生过一些了，随着技术越来越便宜、越来越好用，以后可能会更多。

技术本身没有善恶。数字人可以拿来做好事，比如帮助语言障碍者用数字人表达自己，比如让历史人物“复活”给学生讲课，比如在危险的岗位上用数字人代替真人。也可以拿来作恶，比如诈骗、造谣、冒充。

关键还是看用的人。

造一个数字人需要那么多技术，但让它做好事还是坏事，只需要一个决定。

热门标签

秋果大事件

区块链

AI人工智能

数字空间

XR眼镜

数字人

中医智慧手表

核心产品

联系方式

官方公众号

商务合作