2026年,人工智能正在发生一个变化。过去几年,人们熟悉的AI产品是大语言模型,比如ChatGPT。你跟它说话,它给你回复文字。你问它问题,它给出答案。这些AI活在屏幕后面,活在对话框里。

但现在,AI开始拥有身体了。这个趋势有一个专门的名字:具身智能。简单的说,就是给AI一个物理的载体,让它能感知物理世界,也能在物理世界里行动。
具身智能的表现形式不止一种。人形机器人是一种。自动驾驶汽车是一种。工厂里的机械臂也是一种。它们的共同点是:AI不再只是分析信息,而是直接和物理世界互动。
这件事的意义不小。过去几十年,信息技术主要做的是把线下的东西搬到线上。电商把商品搬到网上,社交软件把人际关系搬到网上,视频平台把娱乐内容搬到网上。但具身智能走的是相反的方向——它不是把物理世界数字化,而是让AI从虚拟空间走出来,进入真实的车间、公路、仓库。
一、AI为什么需要身体
有人可能会问:AI已经有了语言能力,为什么还需要身体?
这个问题可以反过来想。一个从来没有碰过杯子的人,能不能真正理解“杯子”是什么?一个从来没有走过路的人,能不能真正理解“距离”和“障碍”?在认知科学里,有一个观点:智能不是纯粹的计算,智能和身体有关,和身体与环境的互动有关。
举个例子。一个大语言模型可以告诉你,杯子掉在地上会碎,可以详细描述这个过程。但它从来没有感受过杯子从手里滑落的那种触感,没有听过玻璃碎裂的声音,没有经历过“掉了东西”这个事件的时间顺序。它只是在处理文字符号。
具身智能的价值就在这里。当AI有了身体,它就能通过传感器获得真实的数据。摄像头捕捉图像,麦克风接收声音,压力传感器感受力度,陀螺仪感知姿态。这些数据是真实的,不是模拟的,不是人工标注的。基于这些数据训练出来的模型,对物理世界的理解会更准确,更贴近现实。
这一点在实际应用中很关键。一辆自动驾驶汽车如果只是在模拟环境里训练,它永远无法完全理解真实道路上的复杂情况。比如一个施工路段,临时改了车道线,地上的标线和导航地图不一致。这时候车辆需要根据实际看到的视觉信息做出判断。这就是具身智能要解决的问题。
二、汽车行业的进展
2025年5月,多家车企在发布会上展示了搭载VLA大模型的智能汽车。VLA的全称是视觉-语言-动作模型。
这个模型和以前的辅助驾驶系统不一样。以前的系统基本是按照预设规则运行的。比如检测到前车距离小于多少米就刹车,检测到车道线就往中间靠。这些规则是人写的,是固定的。
VLA模型不同。它能够理解复杂的交通场景。比如一个路口有交警在指挥,信号灯坏了,交警的手势和红绿灯不一致。传统系统可能会被矛盾的信息搞乱。但VLA模型可以理解“交警指挥优先于红绿灯”这个逻辑,并且做出对应的驾驶动作。
再比如一个常见的场景:路边有辆车打着双闪,半个车身占用了行车道。人类驾驶员会判断这辆车是在临时停车,可能会突然开门或者起步,所以会适当减速并留出更多空间。VLA模型通过大量真实驾驶数据的学习,也能做出类似的判断和决策。
这些能力让汽车从一个被动执行指令的工具,变成了一个能够自主感知、理解、决策的智能体。汽车就是具身智能的一种物理形态。
三、制造业的应用
制造业是具身智能落地的另一个重要领域。2025年,多家制造业巨头宣布在产线上规模化部署具身智能机器人。
这些机器人做的事情并不新奇。物料搬运、质量检测、精密组装,这些工序以前也有机器在做。但区别在于,以前的机器是固定的程序,换一个产品型号就需要重新编程。具身智能机器人不同,它可以通过视觉理解工件的位置和姿态,可以通过学习适应新的任务。
举个质量检测的例子。传统的光学检测设备能够检测表面的瑕疵,但需要人工设定检测标准和参数。如果要检测的产品种类很多,就需要大量的参数配置工作。具身智能质检系统则可以通过少量样本学习新的缺陷类型,并且在实际检测过程中不断优化自己的判断标准。
精密组装也是一个典型的应用场景。电子产品里的微小零部件,需要以极高的精度组装在一起。传统的组装设备对来料的位置精度要求很高,如果工件摆放稍有偏差,就可能组装失败。具身智能机器人能够通过视觉和力觉反馈实时调整动作,对来料姿态的变化有一定的适应能力。
制造业正在发生的事情是:AI从电脑房走进了车间。以前工程师在办公室里写代码、训练模型,然后把模型部署到产线上。现在AI系统直接在产线上收集数据、学习、调整、执行。这是一个根本性的变化。
四、物流行业的天然优势
在所有行业中,物流被普遍认为是具身智能规模化落地最快的领域。原因很简单:物流场景高度标准化,数据容易获取,并且有明确的效率提升空间。
仓储内部的工作包括分拣、搬运、码垛。这些工作重复性高,但又不是完全固定的。货物的位置可能变化,货物的尺寸和重量不同,订单的组合方式千变万化。具身智能机器人可以通过学习适应这些变化,而不需要为每个仓库、每个订单重新写程序。

末端配送也是一个重要场景。无人配送车在小区、园区、校园里运行,将包裹从集散点送到用户手中。这些车辆需要在半封闭的道路上行驶,避开行人、车辆和其他障碍物,找到正确的楼栋和单元门。这本质上是一个低速自动驾驶问题,但场景比开放道路更结构化,落地难度相对较低。
物流行业还有一个优势:数据闭环比较完整。从入库到出库,每个环节都有扫描记录,每个包裹的路径都可以追溯。这意味着可以用来训练模型的真实数据量很大,而且质量较高。
五、市场规模与趋势
根据IDC的预测,到2030年,中国具身智能相关市场规模将突破5000亿元。这个数字包含了硬件、软件和服务。
需要注意的一点是,这个市场不是从零开始的。工业机器人、AGV、自动驾驶汽车这些领域已经发展了很多年。具身智能是在这些既有基础上,引入大模型和端到端学习的技术,让设备变得更加智能和灵活。
所以市场的增长逻辑不是创造新品类,而是替代和升级。具身智能机器人替代传统的固定程序机器人,自动驾驶替代人类驾驶,智能质检替代人工目检。这些替代的背后是效率的提升和成本的降低。
六、企业现在应该做什么
对传统企业来说,具身智能不是一个遥远的科幻概念。2025年的实际情况是,技术已经进入商用阶段,成本也在逐年下降。企业现在就可以着手准备。
但第一步不是买机器人。
很多企业容易犯的错误是:看到新技术出来,就着急采购设备。设备买回来,发现没有配套的数据,没有合适的场景,没有人会使用,最后搁置在仓库里落灰。
正确的做法是先从数据入手。
具体来说,生产线上每个工位的动作数据、质量数据、效率数据,都是未来训练具身智能模型的原料。这些数据现在就要开始采集和整理。
举个例子。一个组装工位上,工人每天做同样的动作。他拿取零件的方式、安装的顺序、检查的步骤、处理异常的方法,这些信息都可以被记录下来。用摄像头拍,用传感器测,用系统记录时间和频率。当数据积累到一定程度,就可以用来训练一个模型,让机器人模仿工人的操作。
质量检测也是一样。好的产品和有缺陷的产品,都需要有对应的图像数据。有缺陷的产品还要标注出缺陷的类型和位置。这些都是训练检测模型必需的资料。
效率数据同样重要。哪个工序耗时最长,哪个工序的瓶颈在哪里,哪个工人的效率最高,这些数据可以帮助企业明确哪些环节最应该先用机器人替代。
简单说,数据是燃料。没有燃料,再好的引擎也转不起来。
七、数据积累的门槛和优势
数据积累这件事,看起来简单,做起来不容易。
首先需要数据采集的设备。摄像头、传感器、数据采集卡,这些需要采购和安装。对一条产线来说,可能需要几十个甚至上百个采集点。
其次需要数据的存储和管理。视频数据很大,一条产线一天可能产生几个TB的数据。长期存储需要大容量的服务器和合理的压缩策略。
第三需要数据的清洗和标注。原始数据不能直接用来训练模型。需要有人把有用的片段挑出来,把无用的噪音去掉,把关键信息标注清楚。标注工作往往很枯燥,但非常重要。
这些工作都需要投入。也正因为有投入,早期行动的企业会建立优势。
具身智能模型训练需要大量的真实数据。这些数据来自真实的产线、真实的工况、真实的故障和异常。一家企业在自己的产线上跑了三年,积累了数万小时的作业数据,这些数据是竞争对手很难复制的。竞争对手可以买同样的设备,可以雇同样的人,但产线运行的历史数据买不到。
数据积累形成的先发优势,比技术专利或者品牌溢价更加稳固。因为数据是事实的纪录,不是观念或者设计。事实发生了就是发生了,后来者无法回到过去重新采集。
这就是为什么说,率先完成数据积累的企业将拥有不可复制的竞争优势。
八、机遇与挑战并存
具身智能的崛起给各行业带来了机遇,也带来了挑战。
机遇在于效率可以进一步提升。制造业的自动化水平在过去二十年里已经提高了很多,但在处理柔性、多变、非标准化的任务时,仍然依赖人力。具身智能有望填补这个空白,让机器能够处理更多类型的任务,减少对人力的依赖。
挑战在于转型的门槛。对于资金充足的大型企业来说,采购设备、搭建数据系统、引进人才,这些事情都可以按计划推进。但对于中小企业来说,成本和技术能力都是障碍。这可能导致行业内的差距进一步拉大。
另一个挑战是人才的短缺。具身智能涉及机械、电子、计算机、控制等多个领域。能够理解硬件又懂软件,能够做算法又懂产线工艺的人才,市场上非常稀缺。企业需要在内部培养这方面的人才,不能完全指望从外部招聘。
具身智能正在做的事情,本质上是让AI走出虚拟空间,进入物理世界。这个转变不会一蹴而就,但它已经开始了。
汽车正在变成能够自主驾驶的智能体。工厂里的机械臂正在从固定程序走向自适应学习。仓库里的分拣机器人正在替代人工处理越来越复杂的订单。
对传统企业来说,现在是一个准备期。不需要立刻花大价钱买机器人,但需要开始采集和整理数据。生产线上的每一个动作,每一件产品的质量信息,每一个工序的耗时记录,都是未来的资产。
当AI真正走进物理世界的那一天到来时,那些手里有数据的企业,将拥有真正的先发优势。这不是一个遥远的预测,而是未来五到十年内就会发生的事情。