从VLA到世界模型：一次被行业倒逼的技术范式转移

admin666ss2026-05-25IT技术0

2026年4月，具身智能领域发生了一件值得认真对待的事。

GeneralistAI发布了GEN-1。成功率超过99%，速度提升2-3倍，数据量和微调成本只需上一代的十分之一。几乎同一周，其CEOPeteFlorence明确表示：他们不再把自己的模型归类为VLA。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

这本身不算大事。真正值得玩味的，是PeteFlorence本人就是VLA概念的共同开创者之一。他选择亲手撕掉自己贴的标签，理由很直接：世界模型正在迎来高光时刻，追逐热点本就是学术常态，但如果目标是物理AGI，目标远比工具的标签更重要。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

拐杖逻辑：VLM为何只是过渡期的权宜之计

Florence点破了一个行业长期回避的事实：把视觉-语言训练引入机器人，很大程度上是因为机器人自己的交互数据还不够多，所以VLM只是一根过渡期的拐杖。一旦物理交互数据规模起来，这根拐杖就该被拿掉。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

我们需要围绕一个更朴素的问题做系统级回答：当超越VLA之后，下一代具身模型应该长什么样，才能真正支撑机器人在真实世界中持续、稳定、可扩展地跑起来？从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

四类瓶颈：视频生成范式的天花板

今天不少被冠以世界模型之名的工作，本质上属于视频生成范式——在RGB像素或低层视觉隐空间里拟合未来帧。这种模型在视频benchmarks上的指标也许很好看，但一旦接入真实机器人任务，立刻暴露出四类系统性瓶颈。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

表示瓶颈方面，模型被迫把容量消耗在纹理、光照、背景这些与任务弱相关的信息上。记忆瓶颈方面，因果自回归加KVCache的组合，空间复杂度随轨迹长度线性增长，长时任务越跑越重。推理瓶颈方面，感知、推理、执行严格串行，部署端延迟高，闭环频率天然上不去。数据瓶颈方面，模型依赖固定离线数据集训练，缺少持续、新鲜、物理可信的信息流。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

这四件事如果不被一起解决，世界模型这个词在机器人的世界里很难真正落地。

评价错位：视觉质量不等于具身能力

范式切换之后，更关键的问题是：世界模型到底该怎么评价？今天被频繁引用的，大多是面向视频生成的那一类榜单——考察未来帧的画质、FVD、时序一致性、文本-视频对齐。但这些指标对生成式视频模型合理，放到具身语境下，评价对象开始和目标错位。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

2026年2月，清华等机构发布的WorldArena基准在14个代表性世界模型上的测试结论相当直接：高视觉质量并不一定能转化为强大的具身任务能力。论文构造的综合视觉质量指标EWMScore与人类主观打分的相关性高达Pearsonr=0.825，但与任务成功率之间的相关性只有r=0.360。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

更耐人寻味的是，视觉和美学分最高的Veo3.1，在具身任务指标上反而提升有限，并伴随明显的语义偏移。画得最像真的，恰恰最不懂交互。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

技术栈拆解：四层协同的真机闭环路径

跨维智能的DexWorldModel在系统上做的事情，可以简化成一条总线：因果潜空间世界模型CLWM加双状态测试时记忆Dual-StateTTTMemory加推测式异步推理SAI加具身数据链与在线数据流EmbodiChain与ODS。从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术从VLA到世界模型：一次被行业倒逼的技术范式转移 IT技术

表示层解决的核心问题是：像素重建会成为世界模型泛化的隐性敌人。CLWM把生成目标切换到语义特征，在两阶段FlowMatching框架下，把预测未来语义和生成动作显式拆开。这一步从根本上改变了世界模型回答的问题：不再是下一帧好不好看，而是世界是否进入了一个对下一步行动有意义的状态。

记忆层解决的核心问题是：长时任务不再被不断膨胀的历史缓存拖住。传统自回归世界模型依赖KVCache记录历史，空间复杂度O(T)，轨迹一长，显存占用就线性膨胀。CLWM用TTT-MLP把历史观测和历史动作压缩进记忆模块权重里，并进一步设计了双状态机制：Long-TermMemory只用真实观测和已执行动作更新，锚定真实因果历史；WorkingMemory从Long-TermMemoryfork出来，在当前预测步骤里作为临时上下文。这套机制最重要的不是换个缓存实现，而是把真实历史与推测历史严格隔离，同时把长时序的内存占用压到常数量级O(1)。

推理层解决的核心问题是：SAI提出预去噪概念，将一半推理时间藏在动作执行过程里。机械臂执行当前动作时，GPU不空转；用上一轮预测得到的作为surrogatecondition，后台先完成下一阶段未来语义与动作的前半段pre-denoising；真实观测到达后，快速更新Long-TermMemory，再完成后半段精细denoising。在RoboTwin仿真环境下，端到端阻塞延迟下降约50%。

结果验证：RoboTwin量化指标与零样本Sim2Real

在仿真环境RoboTwin上，DexWorldModel取得了94%的平均成功率。更值得关注的是零样本sim-to-real结果：模型仅在simulation中训练，就取得了优于π0、GR00TN1.5与Sim2Real-VLA的表现，而其中部分基线还使用了真实示范做微调。

这组结果有几处值得强调：第一，它不是单点刷榜，而是系统性结果，CLWM解决表示，TTT解决记忆，SAI解决推理节奏，EmbodiChain解决经验供给，四层收益叠在同一条曲线上。第二，EmbodiChain不是可选加持，而是直接参与了上限提升。第三，Sim2Real的零样本是最有说服力的一格。

当世界模型开始围绕语义状态、长时记忆、部署节奏、经验供给这几个关键问题被系统性地重做之后，从概念走向部署的距离，确实可以被一步一步拉近。

标签：世界模型具身智能机器人 VLA

从VLA到世界模型：一次被行业倒逼的技术范式转移

拐杖逻辑：VLM为何只是过渡期的权宜之计

四类瓶颈：视频生成范式的天花板

评价错位：视觉质量不等于具身能力

技术栈拆解：四层协同的真机闭环路径

结果验证：RoboTwin量化指标与零样本Sim2Real

相关文章

数据困局：人形机器人智能化跃迁的卡脖子难题

具身智能新突破：InstructNav如何重塑机器人导航范式