数据困局：人形机器人智能化跃迁的卡脖子难题

2026年4月19日，北京亦庄人形机器人马拉松鸣枪起跑。300余台机器人同场竞技，运动能力较去年显著提升。然而喧嚣背后，一个冷酷的事实浮出水面：机器人依然不够聪明，困在数据荒漠里难以自拔。数据困局：人形机器人智能化跃迁的卡脖子难题 IT技术

马拉松背后的技术真相

机器人能跑完半马，能登春晚舞台，能进工厂流水线，唯独无法真正理解自己在做什么。大语言模型早已见证智能涌现，ChatGPT、DeepSeek证明数据驱动可以实现质的飞跃。而人形机器人的智能涌现，却始终停留在理论预期阶段。

觅蜂科技董事长姚卯青明确指出，具身智能的涌现时刻必然与数据量、数据组成直接挂钩。这不是猜测，而是基于技术演进规律的判断。高质量、标准化、规模化的数据，是驱动机器人智能化升级的核心燃料，目前却严重供给不足。

大语言模型数据获取成本极低，互联网上的文本、动画、诗词都能成为训练语料。据透露，GPT-5使用了100万亿token的训练数据，普通人以每分钟150词的语速需要100亿小时才能读完。

人形机器人所需数据则完全不同。它们需要的是三维开放世界的知识——机器人亲手搬运行李、清洁房间，才能获取动作反馈。这类数据的数量级、复杂度、获取成本，与一维文本资料不可同日而语。

从供给侧看，各地数据采集企业有场景、有能力，却缺乏标准化运营体系和后处理能力。从需求侧看，AI大厂、科技公司、初创企业都需要海量高质量数据，却找不到稳定快速的供应渠道。供需之间，存在巨大鸿沟。

极佳视界是一家具身智能独角兽，4月完成新一轮15亿融资。该公司透露，训练模型使用了约几十万小时数据，主要来自网上公开数据和自主采集。但外部采购的数据质量普遍不达标——在实验室人工设置场景下采集的数据，与真实物理世界存在显著差异。

标注质量同样堪忧。图像标注可以给出几千句话的详细描述，视频数据的标注却极度简略，环境描述、任务描述远远不够。更严重的是，标注不规范、传感器空间标定混乱、时间同步出错等问题充斥市场。

姚卯青直言："garbagein、garbageout，垃圾数据必然导致垃圾模型。"更棘手的是，如果算法训练后效果不佳，企业很难判断是数据问题还是模型问题，可能因此否定优秀算法。

姚卯青估计，当前全行业高质量数据总量凑凑可能只有50万小时规模。要达到智能涌现，1亿小时训练数据可能都不够，供需差距达千百倍。

数据孤岛是另一大障碍。各企业数据格式、标注标准自成体系，难以互通复用，产业协作成本极高。仿真数据虽不如真机数据有效，却是退而求其次的必备选择。

光轮智能CEO谢晨提出数据金字塔模型：真机数据居顶，质量最高；仿真数据居中；视频及互联网数据居底。谢晨强调，当前核心问题不在数据本身，而在模型评价体系——缺乏足够开放、真实、可规模化的具身模型评价方法，这才是制约行业发展的根本症结。