一个数字人的成本,从几万到几百万差在哪?
2026-04-24 11:36:20

你在手机上刷到过一个带货主播吗?她讲得很流畅,表情也自然,笑起来嘴角的弧度刚好。但你不知道的是,那个主播可能不存在于任何一间直播间里,她是被一行行代码和数据拼出来的。



同样的情况发生在银行App里。你问客服“这个月的账单怎么还没出”,对面那个穿制服的人像很快回复了你。它没有工号,不领工资,也从来不下班。


还有电视剧。你最近追的那部剧里,某个配角的脸上,可能有百分之三十的像素不是演员本人的,是后期用算法补上去的。


这些被造出来的人,有一个共同的名字:数字人。


数字人不是一种东西。按照它能做什么,大致可以分成三类。


第一类是播报型数字人。它只会照着稿子念,新闻播报、天气预告、产品介绍就是它干的活。你给它一段文字,它把文字转成语音,同时把嘴型对上。它不会跟你对话,你说什么它也听不懂。抖音上很多带货的虚拟主播就属于这一类,它们一遍一遍地讲同一个产品,嘴型基本能对得上,但如果你在评论区问一句“这个多少钱”,它不会理你。


第二类是交互型数字人。银行里的虚拟柜员、商场导购大屏上的助手、手机里的语音助手有了形象的那种,都属于这一类。它能听懂你说的话,然后做出回应。它有一个“大脑”,能理解你的意图是什么,还能根据你问的问题调整表情和语气。你问“今天有什么理财产品”,它会微笑着给你介绍。你问“我这张卡丢了怎么办”,它会换上一副严肃的表情。


第三类是认知型数字人。这是目前最前沿的方向。它不仅能听懂你在说什么,还能理解你为什么要这么说。你说“今天心情不太好”,它不会机械地回答“那去看场电影吧”,而是会根据你的语气、表情、还有之前聊过的内容,给出一个有温度的反应。比如它可能会说“听起来你今天确实不太顺,要不要聊聊发生了什么事?”这种数字人现在还不多,成本也很高,但已经有人在做了。


这三类数字人,看起来差别很大,但造出来的步骤是差不多的。总共分四步。


第一步:造皮囊


让数字人看起来像个人,是第一步。


最早的办法是手工建模。艺术家打开三维建模软件,一点一点地画出人脸、身体、衣服。一个高精度的数字人模型,脸上有几万个网格点,皮肤要有毛孔和细纹,头发要一根一根地画。这种活儿几十个艺术家干好几个月,才能造出一个能用的模型。


后来有了三维扫描仪。人站在扫描仪中间,周围一圈相机同时拍照,几分钟就能拍完。这些照片被送到软件里拼接计算,生成一个带皮肤纹理和毛发细节的高精度模型。扫描出来的模型精度很高,连脸上细小的痣都能看清楚。整个过程从几个月缩短到几分钟。


还有一种更新的技术叫神经辐射场。你只需要给一段视频,AI就能从这段视频里推理出这个人的三维形状,甚至能生成视频里没有拍到的角度。比如你给了正面和侧面的视频,它能算出后脑勺长什么样。这种技术的厉害之处在于,它不需要专门的扫描设备,用普通手机拍的视频就能做。


模型做好了,但它是不会动的。要让这张脸能眨眼、能微笑、能皱眉,还需要做一件事:绑定。


艺术家会在模型里植入一套虚拟的骨骼和肌肉系统。每做一个表情,对应一组肌肉的收缩。比如微笑的时候,嘴角往上拉,苹果肌鼓起来,眼角微微下压。这些动作不是手动调出来的,而是通过一套参数控制的。艺术家定义好参数的范围,以后只要给参数赋值,模型就会自动做出对应的表情。这个过程叫骨骼绑定和表情绑定。


第二步:让它动起来


有了皮囊,下一步是让它活过来。活过来的意思,就是它能自己动,不需要人每时每刻去操控。


传统的方式是动作捕捉。真人穿上黑色的紧身衣,脸上贴满反光点,全身也有几十个标记点。周围一圈摄像头对着他拍,记录下每个标记点的运动轨迹。这些轨迹被导进电脑里,映射到数字人的骨骼上。真人抬一下手,数字人也抬一下手。真人笑一下,数字人也笑一下。电影里那些动作复杂的虚拟角色,基本都这么拍的。


但这种方式太贵了。动作捕捉设备一套几十万到上百万,还需要专门的空间和操作人员。拍一段几分钟的素材,可能要准备一整天。


现在的主流方式是AI驱动,便宜很多,也快很多。


你给AI一段文字,说“大家好,今天给大家介绍一款新产品”,AI会自动分析这段话的韵律、情感和重音。哪个字应该重读,哪几个词之间应该有停顿,这句话是高兴还是平淡,AI都能算出来。然后它根据这些分析结果,生成对应的口型、表情和肢体动作。


口型是怎么对的呢?AI会把文字拆成最小的发音单位,叫音素。中文有几十个音素,每个音素对应一种口型。比如发“啊”的时候嘴巴张大,发“呜”的时候嘴唇收圆,发“吃”的时候舌尖抵上颚。AI把音素排列好,再把对应的口型排列好,连起来播放,口型就差不多对上了。


表情就更复杂一些。同样一句话,“太好了”,用高兴的语气说和用讽刺的语气说,脸上的表情完全不一样。AI会分析这句话的情感倾向,如果是正向的,就让嘴角上扬、眉毛舒展;如果是负向的,就让嘴角下垂、眉心收紧。现在的AI模型已经能做到根据语音的几百个声学特征,实时生成对应的表情变化。



第三步:装上大脑


前面两步做出来的东西,能念稿、能动,但它听不懂你在说什么。要让数字人能跟你对话,需要给它装一个大脑。


这个大脑由三个环节组成。


第一环叫语音识别。你说一句话,它要把这句话转成文字。现在的语音识别技术已经比较成熟了,在安静环境下准确率能做到百分之九十八以上。你说“我想查一下余额”,它转成文字,基本不会出错。


第二环叫自然语言理解。文字转出来了,但系统得知道你想干什么。你是想问余额?还是想转账?还是只是想抱怨一下手续费太高?这一步靠大语言模型来完成。大语言模型看过海量的对话数据,知道什么样的文字对应什么样的意图。它会分析你的话,提取出关键信息,比如“余额”、“查询”、“我的账户”,然后判断你应该想做的事情是余额查询。


第三环叫语音合成。系统想好了怎么回答你,也把回答的文字写好了,但不能只回文字,得用声音说出来。现在的语音合成已经能做到情感化。你说“我很难过”,它会用低沉、缓慢的语气回复你,而不是用那种播音腔。你说“太棒了”,它会把音调提高,语速加快。这种情感化的语音合成,是靠给每个句子标注情感标签实现的。AI在生成声音的时候,会根据标签调整音高、音长和音强。


这三个环节串在一起,就是一个能听能答的数字人。你问它什么,它先听、再理解、再回答,整个过程一般在一两秒内完成。


第四步:让大脑和皮囊同步


最难的一步来了。


数字人的大脑想好了要说什么,皮囊也要同时配合。说话的时候,嘴型要对上,表情要匹配,如果有身体的话,手势和头部的动作也要自然。


以前的办法是预先录制。你设计好一段固定的对话,然后把这对话对应的口型动画、表情动画、手势动画全部做好,放进去。等到用户说出那句话的时候,系统直接把做好的动画播出来就行了。但这个办法只能应付那种固定的、不会变的对话。你让数字人即兴回答用户的问题,它不可能提前把动画做好。


现在的办法是实时生成。当语音合成系统在生成声音的时候,它同时会输出一组数据,叫视位参数。每一个音素对应一组视位参数,比如嘴巴张开多少毫米、嘴唇突出多少、下颌下降多少度。这组参数实时传给渲染引擎,渲染引擎根据这些参数驱动数字人的嘴巴做出对应的形状。


整个过程必须很快。从语音合成输出参数,到渲染引擎更新画面,中间的时间差不能超过零点几秒。如果超过了,你就会看到嘴巴动了半天才听到声音,或者声音出来了好一会儿嘴巴才开始动,这种违和感很让人出戏。


更高级的系统还会同步生成表情。语音合成系统在生成声音的时候,也知道这句话的情感是什么。如果它检测到这句话里含有“高兴”的情感,它会在发出声音的同时,给表情系统发一个指令,指令内容是“把嘴角上扬十五度,眉毛抬高五度,眼睛稍微眯起来”。表情系统接到指令后,在几百毫秒内把数字人的面部模型变形到目标状态。


这样,数字人说话的时候,你听到的声音是高兴的,看到的表情也是高兴的,两者完全同步。


四层堆起来才是一个完整的数字人


把一个数字人造出来,需要四层技术的叠加。


第一层是形象层,负责造出皮囊。用的是三维扫描、神经辐射场、骨骼绑定这些技术。没有这一层,数字人就没有样子。


第二层是驱动层,负责让它动起来。用的是动作捕捉或者AI驱动的口型和表情生成。没有这一层,数字人就是一个雕塑。


第三层是智能层,负责装上大脑。用的是语音识别、自然语言理解、语音合成和大语言模型。没有这一层,数字人不会跟你对话。


第四层是渲染层,负责让所有东西同步。用的是实时渲染引擎、音画同步算法、低延迟推流。没有这一层,数字人说话的时候嘴对不上,看起来像配音电影。


这四层,每一层单拿出来都是一个复杂的技术领域。把它们叠在一起,互相配合,才是一个能看、能听、能说、能互动的数字人。


数字人技术在进步,问题也在增加


从几年前只能照着稿子念的木头人,到现在能跟你自然对话、甚至能感觉到你情绪的智能体,数字人技术确实进步很快。背后的主要动力是大语言模型的爆发。没有大语言模型,数字人的大脑就是一个简单的问答机,只能回答已经写在数据库里的问题,超出范围就崩了。有了大语言模型,数字人可以理解开放式的提问,可以联系上下文,可以做出更像人的回应。


但这几年的进步也带来了不少问题。


第一个问题是成本。做一个高精度的、能实时对话的数字人,从扫描建模到训练大脑到部署上线,花掉几十万到几百万都很正常。设备要钱、算力要钱、数据要钱、人也要钱。便宜的方案也有,几千块钱就能做一个能念稿的数字人,但那种数字人一看就很假,嘴型勉强对上,表情几乎没有,你不想跟它多聊几句。


第二个问题是算力。实时生成口型和表情需要大量的计算。如果数字人是用手机或者网页访问的,对设备的要求很高。很多用户用的还是几年前的老手机,跑不动高精度的数字人渲染。解决方案是把渲染放在云上,推流到用户设备上,但这又需要好的网络条件。


第三个问题是伦理风险。数字人技术如果被滥用,后果很严重。有人可以用几张照片和一段语音,造出一个看起来和你一模一样的数字人,然后用这个数字人去骗你的家人、朋友。也可以造出一个虚构的人,让它说一些根本没有说过的话,然后配上看起来自然的画面,用来造谣或者抹黑。这类事情已经发生过一些了,随着技术越来越便宜、越来越好用,以后可能会更多。


技术本身没有善恶。数字人可以拿来做好事,比如帮助语言障碍者用数字人表达自己,比如让历史人物“复活”给学生讲课,比如在危险的岗位上用数字人代替真人。也可以拿来作恶,比如诈骗、造谣、冒充。


关键还是看用的人。


造一个数字人需要那么多技术,但让它做好事还是坏事,只需要一个决定。

核心产品
    联系方式
      Public QR Code
      官方公众号
      Affairs QR Code
      商务合作