具身智能新突破:InstructNav如何重塑机器人导航范式

两年前与董豪教授的一次深夜讨论,让我深刻意识到具身导航领域的核心瓶颈——彼时业界已能在特定任务上实现不错的导航成功率,但模型泛化能力几乎为零。每切换一种指令类型,就需要重新训练一个专属模型,这种「一个萝卜一个坑」的范式严重制约着机器人走向真实场景。 具身智能新突破:InstructNav如何重塑机器人导航范式 IT技术

任务碎片化:具身导航的十年困局

回顾具身导航研究的发展脉络,会发现一个清晰的演进轨迹。早期的目标导航(ObjectNav)要求机器人理解房间布局与物体间的空间关联;随后出现的视觉语言导航(VLN)强调指令遵循的精确性;近年来兴起的需求驱动导航则要求模型具备语义推理能力,能够根据抽象人类意图规划行动路径。三类任务看似同属「导航」范畴,实则对智能体提出了截然不同的能力要求。 具身智能新突破:InstructNav如何重塑机器人导航范式 IT技术

先前的学术工作普遍采用「任务专属」的解决思路:为每类任务设计专门的导航方法。这种做法在benchmark上能够刷出漂亮的数据,却与真实应用场景存在巨大鸿沟。现实中的用户不会区分什么「物体目标导航」或「视觉语言导航」,他们只会随口说「帮我把茶几上的遥控器拿过来」或者「去书房把台灯打开」。指令形式的混合与模糊,才是机器人必须面对的真实世界。 具身智能新突破:InstructNav如何重塑机器人导航范式 IT技术

动态导航链路:统一规划的起点

董豪团队的核心创新在于提出「动态导航链路」(DynamicChain-of-Navigation)这一规划范式。这套方法将纷繁复杂的导航指令统一为标准形式:「导航动作1–标志物1->导航动作2–标志物2->…」。表面上看只是格式的规范化,深层意义在于为大语言模型介入导航规划提供了统一的接口。 具身智能新突破:InstructNav如何重塑机器人导航范式 IT技术

InstructNav充分利用大语言模型在任务分解和常识推理方面的优势。当用户下达「去沙发那边」的指令时,系统会将其解析为一系列子目标,并根据当前环境观测动态调整规划路径。例如,检测到电视所在位置后,系统会优先探索电视周边区域——因为在大多数家庭环境中,沙发与电视呈现强空间关联。 具身智能新突破:InstructNav如何重塑机器人导航范式 IT技术

多源价值地图:从语言到行动的桥梁

大模型输出的导航链路本质上仍是抽象的语义规划,与控制机器人底层运动的精确动作之间存在显著差距。团队解决这一问题的方案是「多源价值地图」(Multi-sourcedValueMaps),包含四个关键组件:动作价值地图赋予待执行动作对应区域更高的可导航权重;语义价值地图为标志物所在区域加分;直觉价值地图借助多模态大模型判断全景图中最适合移动的区域;轨迹价值地图则鼓励探索远离现有轨迹的区域,避免重复遍历。 具身智能新突破:InstructNav如何重塑机器人导航范式 IT技术

将这四层价值地图加权融合后,决策价值地图上的峰值点即为机器人的下一个目标位置,最后通过经典路径规划算法实现精确移动控制。这套「语言规划->价值评估->动作执行」的三级架构,巧妙弥合了高层语义与底层控制之间的语义鸿沟。

实验验证:零样本能力的关键意义

论文在三类主流导航任务上进行了系统评测。实验结果最引人注目的一点在于:InstructNav首次在连续环境下实现了零样本视觉语言导航。这意味着模型无需在任何视觉语言导航数据上进行训练,即可在该任务上达到可观的成功率。对于物体目标导航和需求驱动导航任务,InstructNav同样刷新了零样本设置下的SOTA指标。

零样本泛化能力的突破,本质上验证了「大模型作为通用规划器」这一技术路线的可行性。当模型能够理解「电视旁边有沙发」这类常识性空间关系时,无需针对每个具体任务收集训练数据,即可实现跨任务、跨场景的有效导航。