空间即界面：具身智能视角下的AI眼镜形态

2026-06-26 15:18:17

近两年，AI眼镜成为智能硬件领域最受关注的方向之一。科技公司密集推出产品，资本和政策也不断加码，这些都表明这一终端形态正在加速走向大规模应用。与过去以屏幕为绝对中心的智能手机不同，AI眼镜以贴近身体的方式嵌入日常生活，它的潜在影响早已超出硬件创新本身。如果仅把它看作智能手机的功能延伸，用来拍照、录音、语音对话，就很难解释它在技术路线、应用场景和产业愿景中被寄予的厚望。

回顾媒介发展历史，每一次关键媒介形态的变化，都伴随着社会连接方式和资源分配规则的重组。印刷术拓展了公共讨论的范围，大众传媒建立了中心化的信息秩序，互联网和移动媒介通过平台和算法重塑了传播结构。AI眼镜的特别之处在于，它有可能让媒介从被动等待调用的工具，变成持续在场、环绕用户的智能环境。从这个角度看，AI眼镜不仅是智能硬件演进的阶段性成果，也是理解未来高度媒介化社会的一个重要切口。

本文将从媒介技术演进的视角出发，重新审视AI眼镜。先梳理它从概念探索走向现实应用的发展脉络和产业格局，接着引入具身智能的视角，分析AI眼镜作为可穿戴媒介如何嵌入身体实践和环境互动，最后从媒介环境的角度，讨论它可能带来的传播形态、社会连接方式以及传媒业角色的结构性变化。

一、从概念探索到百镜大战

AI眼镜的早期形态可以追溯到20世纪80年代，史蒂夫·曼恩开始尝试制造可以长期佩戴并能实时计算与连接的设备。这让智能眼镜从概念走向了实体，但当时的探索基本停留在实验室阶段。进入21世纪后，智能眼镜进入了商业化探索期。2012年，谷歌发布了一款智能眼镜产品，把信息显示、拍摄和语音交互功能整合进眼镜中。然而受限于成本、佩戴体验和隐私争议，这款产品在消费级市场没能持续下去。随后微软等公司转向工业制造、远程协作等企业场景，虽然强化了专业工具的价值，但市场规模仍然有限。

真正的转折发生在2020年以后。大模型等人工智能技术走向成熟，AI能力成为驱动智能眼镜的核心力量。2021年，Meta和雷朋合作推出Ray-BanStories智能眼镜，成为行业发展的一个重要节点。这之后，产品快速迭代，应用也从单一功能拓展到内容创作、户外运动等多个领域。市场数据清楚地反映了这一趋势：2023年全球AI眼镜销量为24万副，2024年跃升到152万副。到了2025年，全球出货量达到870万副，同比增长232%。其中中国大陆成为增长最快的市场，年度总出货量接近100万副，占全球的10.9%。

市场升温吸引了各类企业进入，竞争格局逐渐分成三类。第一类是谷歌等互联网巨头，它们把大语言模型、多模态理解和智能代理能力作为核心，将AI眼镜视为承载新一代AI服务的关键终端，重点放在算法、数据和服务生态的整合上，目标是让AI从屏幕里的交互对象变成随身协同者。第二类是小米等消费电子终端厂商，它们凭借成熟的硬件体系和供应链能力，更看重产品形态的优化、佩戴体验的提升和规模化普及，把AI眼镜当作手机等现有终端生态的延伸节点。第三类是以Rokid为代表的AR厂商，在近眼显示和空间交互等技术积累上，强调虚实融合和沉浸体验，把AI眼镜定位为连接现实和数字内容的空间交互接口。总体来看，AI眼镜正从概念原型演进为功能多元的应用终端，并且有走向大众消费市场、成为新一轮人机交互变革重要载体的势头。

二、具身智能视角下的AI眼镜

要进一步理解AI眼镜，有必要引入具身智能的视角。传统的工具论把技术看作外在于人的功能性存在，而具身智能则强调技术嵌入身体，深度参与人的感知、认知和行动过程。这样一来，媒介就不再只是信息传递的中介，而是成为个体经验生成和能力建构的一部分。在这个框架下，AI眼镜作为可穿戴媒介的意义，需要从身体、环境和技术三者的互动关系中去把握。

具身这个概念最初来自认知和神经科学，强调人的认知、经验和意义生产都是基于身体的感知和行动形成的，并且与身体所处的环境深度耦合。在人工智能研究领域，具身智能通常指依托物理载体进行感知、学习和行动的智能形态。把智能系统装进实体装置里，智能体就能在真实环境中获取信息并互动，从而接近人类的自主学习能力和环境适应能力。其最终目标是让智能体在现实物理环境中独立完成各种任务，逐步形成能够适应不同生活情境的通用能力体系。

从人与技术在身体层面的融合程度来看，具身智能的发展可以理解为三个阶段。第一个阶段是分离型具身智能，人与智能系统相对独立，技术主要起模仿和辅助作用，典型形态是在结构化环境中执行程序化任务的工业机器人。第二个阶段是贯通型具身智能，随着具备感知和数据处理能力的可穿戴设备普及，人与技术开始形成初步的耦合关系，AI眼镜就是这一阶段的重要代表。第三个阶段是缔合型具身智能，人体将深度融入智能系统的运行中，成为其组成部分，人机关系高度协同，智能体具备更强的通用交互能力。麦克卢汉曾经指出，媒介作为人与环境接触的中介，扩展了人的能力和活动范围。具身智能的发展可以看作是媒介对人类能力的进一步延伸，它参与重塑了个体的感知方式、认知路径和行动结构，让人的能力在具体情境中被放大和重组。

在贯通型具身智能阶段，AI眼镜将计算能力、环境感知和信息反馈直接嵌入人的日常经验活动中，像“外置智能器官”一样，在感知、认知和行动三个层面拓展人的能力边界。

在感知层面，人的感官有物理极限。技术哲学家伊德指出，技术通过中介作用深度介入人的感知过程，重塑了人与世界的关系。AI眼镜通过视觉识别和多模态感知，对环境信息进行扩展和整合，让个体在不改变生理结构的情况下突破原有的感知限制。它不但补充了感官难以覆盖的信息，还提升了信息的整体性和结构性。同时，它的记录和回溯功能延展了感知的时间维度，让转瞬即逝的经验得以存储和调用。这样，感知在人机协同系统中就获得了更高密度和更长时间的信息支撑。

感知是认知的前提。当世界以新的方式向人显现时，理解、判断和决策的路径也会跟着调整。扩展心智假说认为，如果外部装置能够稳定地参与认知活动，就可以视为认知系统的一部分。AI眼镜在一定程度上重构了认知活动的分工和运行路径。一方面，原本依赖记忆和推理的某些任务被转移到技术系统上，降低了个体处理信息的认知负担；另一方面，经过筛选和预处理的信息改变了认知的起点，让个体能够把精力集中在更高层级的决策上。

感知能力延展和认知结构重组之后，人的行动方式也随之变化。个体能采取什么行动，并不完全取决于主观意图，也受制于环境提供了哪些行动可能性。当技术嵌入身体和环境之间时，它就成了行动可供性的组成部分。AI眼镜通过对环境的实时识别和信息叠加，重构了行动所依托的情境结构，让行动不再只受物理条件限制，而是在技术生成的提示和路径引导下展开。技术不直接规定人应该做什么，而是通过改变情境，让特定行动更容易发生，从而在无形中扩展了个体的行动范围和效率。

三、AI眼镜与媒介环境的转向

媒介环境学把媒介本身作为研究对象，关注媒介的产生发展、技术特征及其与人类社会变迁和文明演进的关系。人工智能被称作下一个新媒体，它在一定程度上正在重塑社会的组织形态。而具备实体形态的AI眼镜，有可能演化为重塑传播环境和社会结构的基础性媒介形态。

一个重要的想象方向是镜像世界。在传统媒介环境中，虚拟和现实往往有比较清晰的区隔：现实是行动的场域，媒介是信息和符号的容器。AI眼镜的出现，可能从根本上改变这种长期的媒介经验结构。凯文·凯利曾预测，到2049年，大多数智能手机会被智能眼镜取代。当数十亿人戴上智能眼镜时，看到的将是现实世界和虚拟世界的叠加，也就是镜像世界，它既是现实，同时也叠加着现实的数字孪生。现有主流媒介中的文字、图像和影像所构建的世界，因为外在于人的身体和感知，很难与人的主体深度融合。人机融合为虚实相生提供了基础，AI眼镜把人的身体转化为感觉节点，生成一种既在虚拟中又在现实中、既在机器中又在肉身中的体验，通过打造可计算的数字通路，将虚拟世界与人的身体感受连接到一起。

AI眼镜把数字信息直接叠加到现实世界之中。虚拟不再是一个独立存在的空间，而是以嵌入的方式融入现实环境，推动媒介环境从虚实两分走向虚实相生。这个镜像世界的形成，首先依赖对现实世界的持续数据化和可计算化改造。借助计算机视觉、多模态感知和空间定位技术，AI眼镜能够对环境中的物体、空间关系、行为过程进行实时识别、建模和语义标注，把现实世界变成可被算法解析、索引和调用的动态数据集合。当AI眼镜完成对现实环境的识别和计算后，用户需要的信息就以情境化的方式呈现出来：导航信息附着在道路和建筑上，说明性内容指向具体物体，操作提示和行动反馈与用户当前的行为进程紧密绑定。在这一过程中，AI眼镜并不试图把人带离现实生活场景，而是通过持续感知和计算，使现实环境本身成为信息生成和交互的基础。透过AI眼镜，用户面对的不是一个被持续注入数字层的现实世界，虚拟和现实在同一个时空框架下相互嵌套、彼此生成，构成统一的镜像世界。

另一个重要方向是AI眼镜可能演化为新操作系统。在媒介从工具形态向环境形态转变的过程中，其运行逻辑正从界面驱动走向情境驱动。AI眼镜通过对空间、行为和信息的整合，不仅改变了交互方式，也在一定程度上重构了媒介系统的组织基础。它已经不只是单一终端设备，而展现出统摄多种功能、连接多元资源的平台化能力，具备了成为新操作系统的潜力。

这种变化首先体现在操作逻辑的转变上，即从屏幕中心转向空间中心。在现有的数字媒介环境中，操作总是围绕屏幕展开。屏幕既是信息呈现的界面，也是交互的核心场所。即便在移动互联网时代，媒介的随身性和即时性大大增强，交互方式仍然没有摆脱对屏幕边界的依赖，现实空间始终只是媒介使用的背景。然而，随着虚拟媒介与空间形态的结合日益加深，实体空间被赋予越来越多的含义，本身变成了一种重要的媒体。与以屏幕为中心的媒介形态不同，AI眼镜依托空间计算和具身交互能力，不局限于对物理世界的模拟和重建，而是通过空间感知、表征、记忆、推理和行动等能力，与环境形成持续互动。在这个过程中，世界从被动感知的对象，转变成可以被操作、验证并实现对齐的行动空间。信息也不再依赖界面呈现，而是随个体移动和任务进程被动态调取。媒介从被凝视、被操作的对象，转变为伴随行动展开的环境性存在。操作的中心因此可能从屏幕转向空间：空间不再只是行动的背景，而是媒介运行的核心框架，人的行为也可能被识别为输入信号，交互嵌入身体和情境之中。

其次是个体行动能力的提升。媒介技术的演进，从总体趋势上看，是不断拓展个体发起行动、表达意见和创造内容的可能性。AI眼镜所指向的新型媒介形态，会进一步放大这种个体赋权效应。它通过对空间、情境和个体状态的持续感知与分析，在不显著增加认知负担的前提下，为个体提供即时的信息支持、决策辅助和行动反馈，使人在具体情境中能够更高效地发起互动和行动，逐渐转变为具备即时感知、判断和影响能力的社会行动节点。在这个意义上，个人对组织的依附程度进一步减弱，社会的基本单位继续由组织向个人降解，数字媒介推动社会进入以个体为基本运作主体的微粒化社会。

最后是传媒业的角色转型。在深度媒介化的背景下，媒介已经从社会运行的外在工具，变成嵌入日常实践和社会结构的基础性机制，日益成为组织社会关系、协调社会行动的重要力量。这使传媒业传统上以内容生产和发布为核心的专业信息提供者角色面临挑战。当前社会传播结构越来越去中心化和原子化，传播权力的转移并没有削弱媒介的重要性，而是改变了它发挥作用的方式。媒介不再主要通过占据信息高地来影响社会，而是更多地通过组织连接、整合资源、塑造场景来嵌入社会生活本身。

AI眼镜所代表的新一代智能媒介形态，为传媒业的功能转型提供了一个实践入口。它凭借对空间环境、个体行为和即时需求的持续感知，使信息以辅助决策、引导行动和协调互动的方式嵌入具体情境。媒介从被观看和阅读的对象，转变为在行动过程中持续发挥作用的支持系统，其功能从解释世界延伸到组织现实。依托智能代理和情境计算能力，传媒机构不再只是向大众提供标准化内容，而是能够围绕具体场景组织连接、整合资源并协调多方行动。在公共服务、城市治理和文化消费等领域，媒介通过构建连续性的行动支持框架，把个体、服务和制度要素纳入协同运行的网络，形成以智能媒介为枢纽的新型社会协同机制。这样一来，传媒业开始呈现出基础设施化的趋势，意味着媒介将在智能条件下更深度、更主动地嵌入社会运行的全过程。

AI眼镜不只是一件新的科技产品，它极有可能成为媒介形态从工具转向环境的关键一步。在这一转变中，人的感知、认知和行动方式被重新组织，虚拟与现实的关系被重新界定，社会连接方式和行业运行逻辑也将随之调整。媒介生态的图景，正在因这副小小的眼镜而变得与过去完全不同。

热门标签

秋果大事件