数据合格率达95%以上!北京人形具身智能机器人数据基地再获突破
来源:北京亦庄 时间:2026.03.23

3月19日,北京人形机器人创新中心(以下简称“北京人形”)在北京亦庄举行具身智能机器人数据采集与训练基地参访活动。本次活动集中展示了基地建设最新成果,北京人形具身智能机器人数据与训练基地一期(以下简称“数据基地”)自去年11月建成以来,已交付数万小时高质量数据,发展成为国内场景覆盖最齐全、机器人构型最丰富、数据产能及质量最高的专业化数据采集平台之一。

图片

具身智能机器人数据采集与训练基地。张磊/摄

具备全栈数据采集能力

覆盖30余个典型场景

图片

走进数据基地,仿佛进入一个微缩的“未来世界”。张磊/摄

据北京人形机器人创新中心具身天工事业部负责人、具身智能机器人数据与训练基地负责人蒋未来介绍,数据基地一期的建筑面积近5000平方米,覆盖家居、商超、办公、工业、医药、康养等领域30余个典型场景,并建有约200平方米专业光学动作捕捉场地。尤其是,这些场景并非静态的“样板间”,而是可动态配置、组合重构的“数据工厂”。场景内的光照条件、物体摆放、人员动线均可按需调整,确保采集数据具备充分的泛化能力,能够覆盖算法训练所需的边缘案例与长尾场景。

图片

北京人形自主研发的“天工”“天轶”系列机器人。张磊/摄

同时,数据基地已组建起全国构型最丰富的机器人矩阵,拥有120余台主流机器人设备。这里既有北京人形自主研发的“天工”“天轶”系列机器人,还有Aloha、宇树、优必选、松灵等机器人,以及Franka、UR、因时、强脑等专业设备,涵盖双足人形、轮式、机械臂、复合型等多种形态。这打破了单一机器人采集的数据孤岛效应,能产出覆盖不同运动控制逻辑、不同感知方式、不同交互模式的多源异构数据。同时,数据基地还配备头环式、夹爪式采集设备,以及动捕服、动捕手套及遥操驾舱等专业装备,具备真机遥操作、开放环境采集、动作捕捉采集等全栈式数据采集能力。

目前,数据基地已建立标准化项目管理体系,制定了数据采集、标注、质检等系列规范,实现全流程质量可控。

破解三大行业难题

数据合格率达95%以上

“如果把人形机器人比作汽车,数据就像汽油——车没油开不起来,人形机器人没有数据也用不了。”蒋未来说。人形机器人要真正走进千行百业,需要的不仅仅是几百、几千条“精修”数据,而是海量、多样、高质量的数据“原料”,其中真机数据是机器人智能从虚拟走向现实的必经之路。

但数据采集主要面临三大难点。一是场景碎片化,真实环境千差万别,每个变量都在考验算法的泛化能力;二是机器人“方言”不通,不同构型的机器人本体存在“方言”差异,传感器布局、关节自由度、控制接口各不相同,导致不同构型的数据难以迁移;三是数据质量参差不齐,数据采集涉及动作捕捉、多模态同步、人工标注等环节,任何环节偏差都可能产出低质数据,不仅浪费资源、甚至误导模型训练。

基于对行业痛点的洞察,北京人形前瞻布局专业化的数据采集基地,将分散的场景集中复现,将多样的机器人统一调度,将采集、标注、质检全流程标准化。北京人形通过牵头制定国内首个具身智能数据集行业标准《人工智能具身智能数据采集规范》,制定标准化、专业化的采集流程规范,促进跨机构数据共享与模型训练效率提升。目前,数据基地已为多家头部企业及科研机构交付数万小时高质量数据,整体数据合格率稳定在95%以上。

形成“数据飞轮”

迈向“百万小时高质量数据”目标

“数据基地投运以来,不仅承担北京人形所需的数据采集工作,促进开源数据集迭代升级和通用机器人平台‘具身天工’应用落地;还承担共性平台功能,面向行业用户提供高质量数据采集服务。”蒋未来说。

当前,北京亦庄正实施具身智能社会实验计划,全域开放高端制造、医疗康养、酒店商超等标志场景,并开放超过30个真实世界数据训练场。作为坐落于北京亦庄的具身智能机器人领域“国家队”,北京人形自成立起便肩负着突破关键核心技术、构建自主产业生态、服务国家战略的使命。随着“具身天工”在多种场景应用落地,“数据飞轮”效应加速启动,数据基地正向着“全球首个采集完成百万小时高质量具身智能机器人数据”的目标迈进,为人形机器人从实验室走向千行百业、走进千家万户筑牢数据基石。


上一条
下一条