数据困局:人形机器人智能化跃迁的卡脖子难题

2026年4月19日,北京亦庄人形机器人马拉松鸣枪起跑。300余台机器人同场竞技,运动能力较去年显著提升。然而喧嚣背后,一个冷酷的事实浮出水面:机器人依然不够聪明,困在数据荒漠里难以自拔。数据困局:人形机器人智能化跃迁的卡脖子难题 IT技术

马拉松背后的技术真相

机器人能跑完半马,能登春晚舞台,能进工厂流水线,唯独无法真正理解自己在做什么。大语言模型早已见证智能涌现,ChatGPT、DeepSeek证明数据驱动可以实现质的飞跃。而人形机器人的智能涌现,却始终停留在理论预期阶段。

觅蜂科技董事长姚卯青明确指出,具身智能的涌现时刻必然与数据量、数据组成直接挂钩。这不是猜测,而是基于技术演进规律的判断。高质量、标准化、规模化的数据,是驱动机器人智能化升级的核心燃料,目前却严重供给不足。

数据供需的鸿沟

大语言模型数据获取成本极低,互联网上的文本、动画、诗词都能成为训练语料。据透露,GPT-5使用了100万亿token的训练数据,普通人以每分钟150词的语速需要100亿小时才能读完。

人形机器人所需数据则完全不同。它们需要的是三维开放世界的知识——机器人亲手搬运行李、清洁房间,才能获取动作反馈。这类数据的数量级、复杂度、获取成本,与一维文本资料不可同日而语。

从供给侧看,各地数据采集企业有场景、有能力,却缺乏标准化运营体系和后处理能力。从需求侧看,AI大厂、科技公司、初创企业都需要海量高质量数据,却找不到稳定快速的供应渠道。供需之间,存在巨大鸿沟。

质量困境的深层代价

极佳视界是一家具身智能独角兽,4月完成新一轮15亿融资。该公司透露,训练模型使用了约几十万小时数据,主要来自网上公开数据和自主采集。但外部采购的数据质量普遍不达标——在实验室人工设置场景下采集的数据,与真实物理世界存在显著差异。

标注质量同样堪忧。图像标注可以给出几千句话的详细描述,视频数据的标注却极度简略,环境描述、任务描述远远不够。更严重的是,标注不规范、传感器空间标定混乱、时间同步出错等问题充斥市场。

姚卯青直言:"garbagein、garbageout,垃圾数据必然导致垃圾模型。"更棘手的是,如果算法训练后效果不佳,企业很难判断是数据问题还是模型问题,可能因此否定优秀算法。

破局路径与产业展望

姚卯青估计,当前全行业高质量数据总量凑凑可能只有50万小时规模。要达到智能涌现,1亿小时训练数据可能都不够,供需差距达千百倍。

数据孤岛是另一大障碍。各企业数据格式、标注标准自成体系,难以互通复用,产业协作成本极高。仿真数据虽不如真机数据有效,却是退而求其次的必备选择。

光轮智能CEO谢晨提出数据金字塔模型:真机数据居顶,质量最高;仿真数据居中;视频及互联网数据居底。谢晨强调,当前核心问题不在数据本身,而在模型评价体系——缺乏足够开放、真实、可规模化的具身模型评价方法,这才是制约行业发展的根本症结。