从VLA到世界模型:一次被行业倒逼的技术范式转移
2026年4月,具身智能领域发生了一件值得认真对待的事。
GeneralistAI发布了GEN-1。成功率超过99%,速度提升2-3倍,数据量和微调成本只需上一代的十分之一。几乎同一周,其CEOPeteFlorence明确表示:他们不再把自己的模型归类为VLA。
这本身不算大事。真正值得玩味的,是PeteFlorence本人就是VLA概念的共同开创者之一。他选择亲手撕掉自己贴的标签,理由很直接:世界模型正在迎来高光时刻,追逐热点本就是学术常态,但如果目标是物理AGI,目标远比工具的标签更重要。
拐杖逻辑:VLM为何只是过渡期的权宜之计
Florence点破了一个行业长期回避的事实:把视觉-语言训练引入机器人,很大程度上是因为机器人自己的交互数据还不够多,所以VLM只是一根过渡期的拐杖。一旦物理交互数据规模起来,这根拐杖就该被拿掉。
我们需要围绕一个更朴素的问题做系统级回答:当超越VLA之后,下一代具身模型应该长什么样,才能真正支撑机器人在真实世界中持续、稳定、可扩展地跑起来?
四类瓶颈:视频生成范式的天花板
今天不少被冠以世界模型之名的工作,本质上属于视频生成范式——在RGB像素或低层视觉隐空间里拟合未来帧。这种模型在视频benchmarks上的指标也许很好看,但一旦接入真实机器人任务,立刻暴露出四类系统性瓶颈。
表示瓶颈方面,模型被迫把容量消耗在纹理、光照、背景这些与任务弱相关的信息上。记忆瓶颈方面,因果自回归加KVCache的组合,空间复杂度随轨迹长度线性增长,长时任务越跑越重。推理瓶颈方面,感知、推理、执行严格串行,部署端延迟高,闭环频率天然上不去。数据瓶颈方面,模型依赖固定离线数据集训练,缺少持续、新鲜、物理可信的信息流。
这四件事如果不被一起解决,世界模型这个词在机器人的世界里很难真正落地。
评价错位:视觉质量不等于具身能力
范式切换之后,更关键的问题是:世界模型到底该怎么评价?今天被频繁引用的,大多是面向视频生成的那一类榜单——考察未来帧的画质、FVD、时序一致性、文本-视频对齐。但这些指标对生成式视频模型合理,放到具身语境下,评价对象开始和目标错位。
2026年2月,清华等机构发布的WorldArena基准在14个代表性世界模型上的测试结论相当直接:高视觉质量并不一定能转化为强大的具身任务能力。论文构造的综合视觉质量指标EWMScore与人类主观打分的相关性高达Pearsonr=0.825,但与任务成功率之间的相关性只有r=0.360。
更耐人寻味的是,视觉和美学分最高的Veo3.1,在具身任务指标上反而提升有限,并伴随明显的语义偏移。画得最像真的,恰恰最不懂交互。
技术栈拆解:四层协同的真机闭环路径
跨维智能的DexWorldModel在系统上做的事情,可以简化成一条总线:因果潜空间世界模型CLWM加双状态测试时记忆Dual-StateTTTMemory加推测式异步推理SAI加具身数据链与在线数据流EmbodiChain与ODS。
表示层解决的核心问题是:像素重建会成为世界模型泛化的隐性敌人。CLWM把生成目标切换到语义特征,在两阶段FlowMatching框架下,把预测未来语义和生成动作显式拆开。这一步从根本上改变了世界模型回答的问题:不再是下一帧好不好看,而是世界是否进入了一个对下一步行动有意义的状态。
记忆层解决的核心问题是:长时任务不再被不断膨胀的历史缓存拖住。传统自回归世界模型依赖KVCache记录历史,空间复杂度O(T),轨迹一长,显存占用就线性膨胀。CLWM用TTT-MLP把历史观测和历史动作压缩进记忆模块权重里,并进一步设计了双状态机制:Long-TermMemory只用真实观测和已执行动作更新,锚定真实因果历史;WorkingMemory从Long-TermMemoryfork出来,在当前预测步骤里作为临时上下文。这套机制最重要的不是换个缓存实现,而是把真实历史与推测历史严格隔离,同时把长时序的内存占用压到常数量级O(1)。
推理层解决的核心问题是:SAI提出预去噪概念,将一半推理时间藏在动作执行过程里。机械臂执行当前动作时,GPU不空转;用上一轮预测得到的作为surrogatecondition,后台先完成下一阶段未来语义与动作的前半段pre-denoising;真实观测到达后,快速更新Long-TermMemory,再完成后半段精细denoising。在RoboTwin仿真环境下,端到端阻塞延迟下降约50%。
结果验证:RoboTwin量化指标与零样本Sim2Real
在仿真环境RoboTwin上,DexWorldModel取得了94%的平均成功率。更值得关注的是零样本sim-to-real结果:模型仅在simulation中训练,就取得了优于π0、GR00TN1.5与Sim2Real-VLA的表现,而其中部分基线还使用了真实示范做微调。
这组结果有几处值得强调:第一,它不是单点刷榜,而是系统性结果,CLWM解决表示,TTT解决记忆,SAI解决推理节奏,EmbodiChain解决经验供给,四层收益叠在同一条曲线上。第二,EmbodiChain不是可选加持,而是直接参与了上限提升。第三,Sim2Real的零样本是最有说服力的一格。
当世界模型开始围绕语义状态、长时记忆、部署节奏、经验供给这几个关键问题被系统性地重做之后,从概念走向部署的距离,确实可以被一步一步拉近。

