从代码到认知：机器人大脑进化的万字指南

Felix

2026-06-07

热度：15693

文章系统梳理机器人智能演进路径：从手工编码控制，到深度学习提升感知与控制，再到LLM赋能任务规划，进而发展为视觉-语言-动作模型（VLA）实现推理与行动融合，最终迈向世界模型驱动的‘想象式’决策。重点解析双脑架构、本地化计算部署、开源模型生态及当前技术瓶颈。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

作者：Matt White, Linux Foundation 全球 AI 首席技术官

编译：Felix, PANews

王兴兴（宇树科技 CEO）与 Matt White

几周前在上海的时候，一位一起旅行的朋友（一位聪明、平时会看新闻和观察事物，但不怎么了解机器人技术），在晚餐时问了整个旅程中一直期待的问题。

“我们看到的到处跑的机器狗，在宇树办公室演示舞台上表演功夫的人形机器人，还有我们看到的叠衣服的机械臂。它们是怎么做到的？它们是由大型语言模型（LLM）驱动的吗？这到底是怎么运作的？是不是有某种语言模型在控制它们的动作？”

这是一个很好的问题，坦白说：某种程度上是这样，但真实的故事远比这有趣。你在社交媒体上看到的机器人并非穿着金属外壳的 ChatGPT。它们运行着一套技术栈（多层 AI 协同工作）。这套技术栈在过去三年里的变化比过去三十年还要大。语言模型是其中的一部分。视觉模型、动作模型、行为树、经典控制回路，以及一种名为“世界模型”的新兴系统家族，也都是其中的重要组成部分。而“世界模型”或许是所有发展中最重要的一项。

这是一篇长文，会从头说起，然后逐步讲述每一次重大变革，最终到达现在所处的阶段：机器人不仅能够对世界做出反应，还能想象世界。

一：前 LLM 时代：当机器人还只是软件的时候

几十年来，制造机器人意味着编写大量代码，而且几乎所有这些代码都不需要学习。

经典的工业机器人是由精心设计的模块堆叠而成的塔状结构。比如上世纪 90 年代焊接丰田底盘的橙色机械臂，或者 2000 年代初波士顿动力公司的 BigDog。

感知：过滤摄像机画面，进行边缘检测，利用几何匹配识别工件位置。
状态估计：结合轮式编码器、陀螺仪和加速度计（传感器融合）来确定机器人的位置和移动速度。
规划：给定目标姿态，使用 A* 或 RRT 等算法在已知地图中计算出一条无碰撞的路径。
控制：在最底层，PID控制器每秒成百上千次地调整电机扭矩以遵循该路径。

这些层级通常由不同实验室的不同人员编写，并经过极其细致的拼接而成。行为（例如“如果杯子是红色的就拿起来，否则等待”）被编码为状态机或行为树：即机器人逐步执行的流程图。

这种方法的优势显而易见。它具有可预测性，符合安全标准。这就是为什么你的汽车配备了有效的 ABS 防抱死制动系统。

缺点同样显而易见。这样的机器人只能在工程师预想的场景下才能发挥其智能水平。一旦把它放到新的工厂、新的光照条件或新的杯子颜色中，它就会崩溃。它的泛化能力几乎为零。

二：机器学习悄然介入

在 2010 年代，深度学习开始着手解决感知层的问题。那些在 ImageNet 图像分类任务中击败人类的卷积神经网络（CNN），可以被重新训练，用于检测物体上的抓握点、分割房间内的家具，或者识别人的姿态。突然之间，位于技术栈顶端的“感知”层不再需要人工设计，你可以直接对其进行训练。

随后，学习机制蔓延到了“控制”层。伯克利大学、DeepMind 和 OpenAI 的研究人员表明，强化学习（让机器人智能体在模拟环境中尝试数百万次并强化有效行为）可以产生令人惊讶的娴熟步态、手部物体操作（OpenAI 在 2019 年单手解魔方是一个里程碑），以及适应不同地形的运动策略。

另一个并行的研究方向是模仿学习，通常被称为行为克隆：记录人类遥控机器人完成某项任务的几百次尝试，然后训练神经网络来预测人类根据机器人所观察到的情况会采取什么行动。

这一切的关键在于：每个学习到的策略都过于狭窄。训练一个网络去捡起一个红色积木，它就不知道该如何处理一个黄色杯子。训练它在草地上行走，它却会摔倒在瓷砖地上。泛化能力仍是亟待解决的难题。

值得一提的是，这一时期出现了一个基础架构，它至今仍支撑着几乎所有的东西：ROS，机器人操作系统（首次发布于 2007 年 11 月）。ROS 并不是 Windows 或 Linux 意义上的操作系统，而是一个中间件框架，一种通用的机器人管道系统。它允许“摄像头节点”、“导航节点”、“机械臂控制器节点”以及其他数十个节点通过共享总线发布和订阅消息。

当前版本 ROS2 运行于全球绝大多数科研和商用机器人的底层，从斯坦福大学的实验室到中国的人形机器人初创公司，无一例外。人们谈论机器人的“操作系统”时，几乎总是指 ROS2 加上其上运行的各种感知、规划和控制软件包。

ROS2：它不是操作系统，而是让独立的机器人软件相互通信的通用管道

三：LLM 在机器人领域的应用

接着，ChatGPT 诞生了。

突然间有了这样一个东西：LLM。它能够阅读简单的英语指令，进行多步骤推理，编写代码并调用函数。机器人专家几乎立刻意识到，这正是他们多年来一直在努力解决的缺失环节。让机器人在家庭或办公室里完成一些有用的任务，最难的部分通常不是电机控制，而是人机交互：人如何告诉机器人做什么，以及机器人如何将这个目标分解成它已经知道如何执行的原子动作？

第一波将 LLM 应用于机器人的工作，是将语言模型视为位于 ROS 之上的一种自然语言编译器。模式如下：

用户用英语说：“把厨房台面上的咖啡杯拿来，放到我的桌子上。”
LLM 根据机器人可用原子技能列表生成计划：可以是函数调用序列、状态机，也可以是用 XML 编写的行为树。
ROS2 节点会逐步执行该计划。如果某个步骤失败，则会将失败信息报告给 LLM，以便 LLM 重新规划。

谷歌 2022 年的 SayCan 项目是这一理念的一个非常简洁的版本：LLM 提出技能，一个独立的“可供性”模型评估每个技能当前成功的可能性，机器人选择联合得分最高的技能组合。华为研究实验室主导的 ROS-LLM、ROSGPT 和 ROSA 等开放框架推广了这种模式。

这的确是一项意义重大的飞跃。突然间，你可以告诉机器人“清理桌子，把可回收物放进蓝色垃圾桶”，它就会尝试执行一些合理的操作。但请注意，这里仍然存在一些问题：语言模型仍处于规划层。实际的动作指令仍由底层那些经过精心设计或专门训练的控制器生成。语言模型只是一个智能调度器，它并不负责驱动。

四：视觉-语言-动作模型（VLA），当大脑开始驱动机器人

Keenon XMAN-R1 机器人正在北京 Galbot 公司的自动化药房中从货架上取药。只需 10 万美元

下一次飞跃更艰难，也更重要。研究人员提出了一个更具雄心的问题：如果模型不仅能进行规划，还能直接生成动作指令呢？如果将摄像头图像和语言指令直接输入到一个神经网络中，然后就能得到下一毫秒的关节运动呢？

这就是视觉-语言-动作模型（VLA）。它现在是人形机器人和四足机器人领域的主流范式。

首个广为人知的视觉语言机器人是谷歌 DeepMind 于 2023 年推出的 RT-2。其巧妙之处在于：使用一个大型视觉语言模型（该模型已训练用于图像描述和问题解答），并继续使用机器人演示数据对其进行训练，但将机器人动作视为另一种需要预测的标记。同一个神经网络原本可以输出“猫坐在垫子上”，现在却可以输出一系列标记，编码“将右爪向前移动3厘米，合拢爪子，抬起5厘米”。推理和行动都在同一个模型中完成。

随后，在 2024 年中期，一个由斯坦福大学领导的团队发布了 OpenVLA ，这是一个拥有 70 亿参数的开源 VLA 模型，它基于 Open X-Embodiment 数据集进行训练。该数据集汇集了来自 21 个不同研究实验室、涵盖 22 种不同机器人身体的超过一百万个训练片段。这是谷歌以外的人首次可以下载通用机器人模型并开始进行修改。它一夜之间改变了整个领域。

如今，领先的 VLA 虽然数量不多，但发展迅速：

来自 Physical Intelligence 的 π0 和 π0.5：出色的任务适应性。
NVIDIA Isaac GR00T N1.7：开放权重，商业授权，专为人形机器人设计，是大多数中国硬件公司目前正在使用其自身数据进行后训练的模型。
Figure AI 的 Helix 和更新的 Helix-02：专有技术，但在架构上非常重要。
AgiBot 的 Genie Envisioner：基于中国世界模型的平台。
SmolVLA、NORA、ACoT-VLA、CogACT：学术界涌现出越来越多的 VLA，它们探索着不同的设计方向。

VLA 的工作原理（不涉及数学公式）

可以将 VLA 想象成将三路输入信号融合为一路输出信号。

第一个数据流是视觉数据。RGB 摄像头（有时是深度传感器或激光雷达），有时是指尖上的触觉传感器，由视觉编码器（通常是像 DINOv2 或 SigLIP 这样的 Transformer 模型）进行处理，该编码器将每张图像压缩成几百个“视觉 token”，概括机器人所看到的内容。

第二个数据流是语言。你的指令（“把螺丝刀递给我”）就像在 ChatGPT 中一样被转换为 token。

这两个数据流被连接起来，并输入到一个 Transformer“主干”（通常是像 Qwen3 或 Llama 这样的小型开源语言模型）。这个主干负责推理，将它看到的信息与它被询问的信息结合起来。

第三个数据流：行动，从另一端流出。这里是各种架构设计产生分歧的地方：

离散动作 token：模型直接生成可解码为关节角度或末端执行器位置的token，就像 ChatGPT 生成单词一样。这种方式简单，但在高频运行时会产生卡顿。
扩散或流匹配（flow-matching）动作头：一个独立的微型网络接收主干的输出，并去噪生成一条平滑的关节位置轨迹，就像图像扩散模型一样，只不过生成的是运动。这就是 π0 的做法，产生的动作更平滑、更自然。
动作分块：不预测下一个单一指令，而是一次性预测接下来半秒钟的指令集，从而平滑掉抖动。

在 VLA 模型中：两个输入流输入，运动指令输出，推理和行动融合在一个网络中。

这就是至关重要的架构转变：推理和行动不再分离。教会神经网络识别杯子，也教会了它如何抓取杯子。正是这种耦合使得 VLA 能够进行泛化，而它们的前身却无法做到。

五：双脑策略，LLM 和 VLA 如何协同工作

这里有一个营销中很少明确解释的细节。如今性能最佳的人形机器人并非运行单一的 VLA 系统，而是运行两个速度不同的模型，彼此通信。这有时被称为双系统或系统 1 / 系统 2 架构，借鉴自 Daniel Kahneman 的心理学框架，该框架认为人类拥有一个快速的直觉大脑和一个缓慢的深思熟虑的思考大脑。

Figure AI 的 Helix 让这种设计成为经典，现在它（及其变体）几乎被到处效仿。尤其重要的是，NVIDIA 的 GR00T N1.7 采用了这种设计，大多数中国人形机器人也采用了这种设计。其结构如下：

系统 2（S2）：慢思考大脑。一个拥有 70 亿参数的视觉-语言模型，运行频率约为 7–9 Hz（即每秒 7 到 9 次）。它的工作是观察场景，解析指令，进行多步推理（如，“碗在麦片盒后面；我需要先移开盒子”），并发出高层次意图——通常是一组紧凑的内部向量，而不是文字本身。
系统1（S1）：快反应大脑。一个小得多（约 8000 万参数）的视觉运动策略模型，运行频率为 200 Hz。它接收 S2 的意图向量加上最新的传感器数据，输出连续的关节指令。它没有任何实际意义上的“思考”，只是做出反应。

最近，Figure 公司的 Helix-02 增加了一个系统 0 （System 0 ）。它位于双脑系统之下，是一个反射层，而非第三认知层。这是一个拥有 1000 万个参数、运行频率为 1 kHz 的网络，负责处理底层的平衡和全身协调，用神经控制器取代了超过十万行的手写运动控制 C++ 代码。你可以把 S0 想象成一条后天习得的脊髓：它不进行推理或计划，只是负责保持身体直立和协调，而思考则由上方的双脑系统完成。

现代人形机器人的双脑架构：系统 2 思考缓慢，系统 1 反应迅速——其下方还有一个系统 0 反射层，用于保持平衡、触觉接触和全身协调

这种划分源于物理学的限制。如果每 200 毫秒（这是一个大型 VLA 的运行速度）才发出一次运动指令，机器人的动作会像在水下移动一样迟缓。运动指令的更新速度必须快于它所控制关节的自然振荡，这意味着每秒需要成百上千次更新。没有任何一个 70 亿参数的 Transformer 模型能在电池驱动的机器人上跑得这么快。

因此，认知任务被分工：庞大而缓慢的模型负责思考；小巧而快速的模型负责行动。它们并非用英语交流，而是通过学习到的潜在向量进行沟通：缓慢的模型发出抽象的目标，而快速的模型则知道如何解读它。

六：云、边缘计算以及“大脑”的放置问题

所有这些计算究竟在哪里进行？

如今，机器人团队之间几乎形成了一种强烈的、近乎意识形态的共识，即攸关安全的核心控制回路必须在本地运行。原因有二：

延迟。WiFi 或蜂窝网络的往返传输时间，乐观估计也有 30-80 毫秒。而动作指令需要每 1-5 毫秒更新一次。这样的网络循环根本无法正常运行。

可靠性。机器人在工厂、仓库、厨房、医院等场所运作。网络随时可能掉线。如果一断 Wi-Fi 机器人就停摆，那它将成为一种安全隐患。

所以，现代的划分大致如下：

板载（本地），运行在类似 NVIDIA Jetson Thor 或 AGX Thor 模块（约 2,000 TFLOPS，128 GB 内存，40–130 W 功耗）的设备上：

S0/S1 的所有功能：平衡、运动、精细动作控制。
VLA 本身（系统 2），为了适应硬件限制，越来越多地被量化到 FP8 或 FP4 格式。如今 20 亿到 70 亿参数范围的模型可以在设备端运行。
感知、传感器融合，以及可以覆盖任何其他操作的安全监控程序。

云端或远程服务器（如果存在的话）：

对话式界面（“嘿，机器人，我晚饭该做什么？”）：这些界面可以容忍延迟。
集群学习：数千台机器人将远程操作数据发送回服务器，以便汇总到下一版本模型中。
需要进行大规模的长期规划，可能会采用前沿规模模型。
操作员仪表盘和监控。

此外，还有一个日益壮大的中间层：位于工厂或仓库中的本地边缘服务器，它们通过本地网络与机器人集群通信，延迟仅为个位数毫秒级。更大型的 LLM 可能就部署在这个层级，负责执行单个机器人无需自行管理的高级调度任务。

中国的人形机器人浪潮正是基于这一假设而构建的：宇树（Unitree）、智元（AgiBot）、小鹏 IRON、傅利叶（Fourier）、逐际动力（EngineAI）。它们的机器人配备了板载计算能力（通常是 Jetson，有时也使用华为 Ascend 等国产芯片），而云端则用于集群学习和对话界面，而非控制回路。

机器人大脑实际运行的位置：安全关键回路在本地运行，云端用于处理可以等待的事情

七：为什么开源模型悄然成为焦点

如果只看演示，你可能会认为这个领域是由少数几家资金雄厚的美国公司主导的。但事实远比这复杂。物理 AI 的发展速度在很大程度上是由任何人都可以下载和微调的开源权重模型决定的。

以下列举的模型虽不多，但意义重大：

OpenVLA（斯坦福大学）：首个开源的 7B 通用机器人模型。
NVIDIA Isaac GR00T（N1、N1.5、N1.7）：开源权重即将推出，商业授权也即将上线，该模型基于数万小时的人类自我中心视频进行训练。GR00T N1.7 于 2026 年 3 月发布，届时任何拥有人形机器人的用户都可以免费使用其双系统架构。
Physical Intelligence 的 π0：发布用于研究的权重。
NVIDIA Cosmos：开放世界基础模型。
AgiBot World：来自上海初创公司的庞大开源数据集，包含远程操控人形机器人的演示。
Hugging Face 的 LeRobot：一个开放的库，已成为上述所有平台的汇聚之地。
Mimic robotics 的 mimic-video：一种开源的视频-动作模型，其样本效率比传统 VLA 高出 10 倍。

之所以重要，有两个原因。首先，机器人初创公司不必再花费数千万美元来预训练一个基础模型：它们可以拿着 GR00T 或 π0，然后用自己机器人的数据对其进行后训练。宇树、逐际动力、Booster、Galbot 以及几十家规模较小的中国公司正是这样做的。这就是为什么一家只有几百名员工的公司，也能出产出能走路、能说话、能叠衣服的人形机器人的原因：他们是站在开源技术栈的肩膀上。

其次，开源模型是解决安全性问题的唯一现实途径。如果一个完全闭源的模型在某个工厂车间的机器人体内运行，而外界对它的推理逻辑毫无洞察能力，这无疑是一场监管噩梦。开放式模型让审计人员、研究人员和操作员能够真正检查机器人到底被训练了些什么。

八：还有哪些问题尚未解决

如果你看过足够多的机器人演示视频，你也一定看过很多机器人故障视频。当前这一代的 LLM+VLA 机器人确实令人印象深刻，但也确实存在明显的局限性。以下是它存在的问题：

任务中途恢复。VLA 处理意外变化的能力比以前的任何技术都强。但当事情真正出错时（比如抓取失误、物体滚动、有人闯入工作区），重新回到正轨依然是弱项。机器人会盲目重复失败动作。
样本效率。从零开始训练一个 VLA 需要上万小时的远程操作数据。而人类几分钟就能学会操作一个新工具。这个效率差距是巨大的。
跨实体泛化。在斯坦福实验室里用 Franka 机械臂训练出来的模型，并不能完美迁移到深圳仓库里的宇树人形机器人上。两者的物理形态不同。
长期任务。任何需要超过 30-60 秒的连贯行为，且包含多个子目标的任务，都容易偏离目标。“给我做早餐”这样的任务始终遥不可及。
物理常识。VLA 接受的是模仿训练，而非理解训练。它并不真正理解“碰倒一杯水”时水会倒出来的原理。它只是见过一些例子，并根据模式匹配来预测接下来会发生什么。
空间推理能力。尽管它们是多模态的，但在“绕过障碍物而不是穿过它”或“把这些东西叠起来不倒”之类的任务上却出奇地弱。

最后这一系列弱点，促使该领域开始押注于一种截然不同的模型。

九：世界模型

不妨设想一下：如果不训练机器人预测动作，而是训练它预测动作的后果，结果会如何？

世界模型（World Model）是一种神经网络，它根据当前世界状态（通常是一段视频或一连串帧图像）和预设动作，预测世界接下来的样子。简单来说，你可以把它想象成一个带有方向盘的学习型视频预测器。你给它看最后一秒的摄像头画面，并告诉它“机器人将手臂向前移动 10 厘米”，它就能生成一段逼真的视频，预测下一秒的画面。

这为什么重要？

因为一旦有了世界模型，机器人就能在行动前进行思考。它可以预先构思三到四种不同的候选行动，预测每种行动的结果，进行评分，并选择最佳方案。所有这些都在电机运动之前完成。这正是国际象棋引擎的运作方式：它不记忆棋步，而是模拟未来。以前在物理机器人领域从未拥有过这种能力，因为从未拥有过足够精确的模型，来模拟纷繁复杂的真实世界。

世界模型允许机器人模拟多种可能的未来场景，对其进行评分，并在任何电机启动之前选择最佳方案

2026 年的世界模型究竟是什么样子？

目前最先进的世界模型种类繁多，但发展迅速。以下是一些模型：

NVIDIA Cosmos：一系列的开放世界基础模型，包括 Cosmos Predict 2.5（生成模型）、Cosmos Transfer 2.5（可控仿真模型）、Cosmos Reason 2（用于机器人的视觉语言推理器）以及最新的 Cosmos Policy。Cosmos Policy 更进一步，通过对世界模型进行后训练，直接输出动作以进行控制。Cosmos 使用数万 GPU 小时的视频数据进行训练（Cosmos Predict 2.5 是该系列中的世界模型）。
DeepMind Genie 3：一款交互式世界模型，它能够根据文本提示生成完全可导航的环境，帧速率为每秒 24 帧，并能持续稳定运行数分钟。最初是为游戏环境而设计。
Meta V-JEPA 2：预训练时使用了超过一百万小时的网络视频，然后仅用 62 小时的机器人视频进行动作条件化训练。在不同实验室的真实机器人手臂上，无需任何特定任务训练，即可实现 80% 的零样本拾取放置成功率。“JEPA”方法在架构上与其他方法截然不同。
DeepMind Dreamer 4：仅使用离线数据，无需任何环境交互，就学会了在 Minecraft 中收集钻石（一项 2 万步的任务）。这证明了在虚拟世界中进行真正的强化学习是可行的。
AgiBot 的 Genie Envisioner：来自中国的统一世界模型平台，使用超过 3000 小时的真实世界人形机器人操作视频进行训练。它既可以生成预测的展开轨迹，也可以生成可执行的动作轨迹。 AgiBot 使用 NVIDIA Cosmos Predict 2 作为骨干网络，并使用自有数据进行后训练。这正是之前描述的“开源技术栈+自有数据”模式。
丰田研究院基于 Cosmos 的世界模型：用于远程操作数据增强和导航。

2025-2026 年最重要的六个世界模型，每个模型都对机器应该如何学习物理学提出了不同的设想。

十：替代架构，因为该领域尚未定论

构建世界模型并没有统一的标准。架构之争是目前 AI 领域最有趣的争论之一，它直接影响着机器人未来能够做什么。以下三个阵营值得关注：

像素级视频扩散（Cosmos/Sora 学派）：使用扩散模型预测未来帧的实际像素。优点是可作为合成数据生成器，可以渲染从未发生过的全新机器人演示。缺点是成本高昂，有时会违背物理规律，而且预测永远不会看到的像素是一种浪费。

联合嵌入预测架构，简称 JEPA（LeCun 学派）：不预测像素，而是预测下一帧的抽象表征。抛弃纹理细节，只保留场景中事物的语义本质。优点是高效，专注于对行动至关重要的因素。缺点是使用起来较为困难。V-JEPA、V-JEPA 2 和新型 JEPA-VLA 混合模型正在探索这一领域。

潜在动作世界模型（Genie/Dreamer 流派）：学习如何将整段视频压缩成一种潜在的“动作语言”，这种语言能够捕捉行为结构，然后训练世界模型，使其能够根据下一个潜在动作预测下一个潜在状态。优点是允许你使用无动作的网络视频进行训练，然后添加少量真实机器人数据。缺点是潜在动作无法被人类理解，安全分析变得复杂。

像素扩散、JEPA 和潜在动作：目标相同，构建世界模型的方式却截然不同

十一：基于世界模型的机器人实际应用

如果快进几年，前沿人形机器人的架构可能看起来像这样：

VLA 上搭载着一个世界模型。当机器人遇到新的情况时，它会执行类似以下的操作：

VLA提出了一些后续行动的候选方案（它仍是策略）。
世界模型会获取每个候选动作，并模拟 1-3 秒的假想视频。
价值判断者会根据设想的结果进行评分：杯子被拿起了吗？有东西掉下来了吗？人被撞到了吗？
机器人会选择得分最高的行动，并且只执行其第一部分。
真实传感器数据回流；循环重复。

这就是模型预测控制，这项技术多年来一直用于稳定火箭和四旋翼飞行器，但它用学习到的世界模型取代了人工推导的物理方程。它的可扩展性在于，世界模型是基于数百万小时的视频进行预训练的，而不是因为有人为厨房环境编写了纳维-斯托克斯方程（Navier-Stokes equations）。

其益处层层递进：

恢复情况有所改善。如果抓取动作发生失误，世界模型可以设想多种纠正路径，并选择最有希望的路径。
泛化能力得到提升。基于网络视频训练的世界模型所经历的“物理现象”比任何机器人远程操作数据集都要多几个数量级。
长远规划变得可控。在想象中规划，而不是在现实中规划。
模拟与现实之间的差距缩小了。以前需要用自己搭建的模拟器（例如 Isaac Sim、Newton 物理引擎）进行训练，然后寄希望于训练结果能够迁移到实际应用中，而现在则可以使用经过训练、能够与真实视频相匹配的模拟器进行训练。因此差距更小。
合成数据呈爆炸式增长。一个世界模型几乎可以免费生成数百万条不同的机器人轨迹，涵盖不同的光照、材质和物体配置。这解决了该领域最大的瓶颈之一。

此外，它还具有一项重要的安全优势。能够模拟动作后果的机器人可以拒绝执行危险操作：并非因为预设规则的限制，而是因为它预想到未来可能会有人受伤。

两种移动方式：VLA 根据所见做出反应；世界模型机器人则在移动前进行思考

十二：还应该知道的事

数据问题才是真正的核心问题：如果无法给模型喂数据，世界上所有的架构创新都无济于事。目前，远程操作（人类穿戴 VR 设备远程木偶式操纵机器人）是主要的技术瓶颈。一家机器人公司的竞争护城河越来越取决于其数据采集流水线，而不是模型本身。智元机器人已经建立了充满操作员的仓库。英伟达 GR00T N1.7 的灵巧度扩展定律表明，更多的人类第一人称视角视频可以直接、可预测地提升机器人的灵巧度。这也是中国具有结构性优势的部分原因：更低的数据采集劳动力成本、更宽容的部署环境，以及国家在积极协调供应链。

仿真是一个平行宇宙。 NVIDIA 的 Isaac Sim、全新的开源 Newton 物理引擎（1.0 版本将于 2026 年 4 月正式发布）以及 Omniverse 平台，让企业能够在数百万个并行模拟环境中训练机器人，而无需将其部署到现实世界。大多数看似“机器人智能”的功能，实际上是在模拟环境中培养，然后移植到硬件上的。

经济效益开始显现。宇树在 2025 年交付了约 5500 台人形机器人，并计划在 2026 年达到 1 万至 2 万台。平均价格在两年内从 8.5 万美元降至 2.5 万美元。宇树的 R1 售价为 5900 美元。Noetix Bumi 的上市价格为 1400 美元。人形机器人硬件的价格正在接近消费电子产品的价格水平，而其内部的 AI 技术仍然落后于演示产品。这种差距终将缩小，届时，市场规模的提升将对整个行业产生显著影响。

故障模式看起来很奇怪。当基于 LLM 的机器人出现故障时，它们的故障方式往往是传统机器人无法做到的。例如，自信地做错事、“幻觉般地”感知到某些功能、陷入与自身规划器的对话循环。传统机器人界对此抱有相当程度的怀疑，这种怀疑不无道理，他们坚持认为学习系统必须被安全监控和行为约束。目前最可靠的已部署机器人是混合型的：VLA 大脑被放置在手工设计的安全笼内。

“ChatGPT时刻”的叙事是一个有用但带误导性的比喻：黄仁勋一直在告诉所有人，机器人的 ChatGPT 时刻已经到来。他之所以这么说，是因为英伟达卖的是铲子和镐头。更诚实的版本是：目前大约处于物理 AI 的 GPT-2 时代。它很强大，能让你感到惊艳；但还不够强大，无法在无人看管的情况下进行部署。它正在快速迭代，但还没有迎来病毒式普及的爆发点，而是一个缓慢而坚定的上升轨迹。

结语

宇树四足机器人的演进历程（从右至左）

在宇树办公室看到的演示中，五个 G1 人形机器人表演武术，其动作经过精心编排，机载 VLA 式控制器进行微调，远程操作员则确保一切顺利进行。从根本上来说，它并非完全自主。但整个流程：感知、规划、运动控制，都在被神经网络所取代。两年后，同样的机器人无需编排就能完成同样的动作，因为它已经预先构思好了整个动作，并选择了最佳版本。

本文所描述的整个发展历程：从手工编写的控制器，到机器学习感知，再到 LLM 规划器，再到 VLA，再到双系统架构，最终到世界模型，实际上是机器人智能所在位置的缓慢转变。它始于工程师的头脑，然后演变为手工编写的代码，接着进入感知层，进入规划器，进入策略层。而现在，它最终正朝着学习世界本身的模型发展。

每一次转变都使机器人变得更加通用、更具适应性、更加有用。如果世界模型转变奏效，它将真正赋予机器人强大的能力：强大到足以让问题不再是“机器人能做什么？” ，而是“我们应该让它们做什么？”

相关阅读：盘点30多家人形机器人公司：谁能在2026年胜出？

本内容旨在传递行业动态，不构成投资建议或承诺。

为你推荐

商务合作：TG：@Lottie96

所有栏目