自变量开源数据采集方案XRZero-G0，论文冲上技术社区趋势热榜，首次构建规模化具身数据采集方法论

2026-06-10 14:50:12 搜狐

数据采集与治理已经成为制约具身智能产业发展的瓶颈。相比大语言模型训练能使用万亿级别数据，具身智能所需的数据需要从真实物理环境采集，面临采集难、采集贵、数据可用性低和难以跨本体迁移等问题。建立高效可复用的数据采集机制、开放共建高质量的数据集，已经成为产业的当务之急。

近日，自变量机器人开源 XRZero-G0 ，论文发布当周即冲上alphaXiv趋势热榜前十，引发行业广泛关注。这是一套软硬一体的全身无本体数据采集与训练系统，它通过在硬件层添加头部视角，在软件层多视角交叉约束、添加限位和真机成功率检测，搭建起一套科学高效的数据采集和治理体系。

不仅如此，自变量还构建并开放了2000多小时、覆盖3000个任务的多模态全身无本体数据集 G0-Dataset ，并通过实验证实：以10:1比例混合无本体数据:真机数据，即可达到同等规模纯真机数据的效果。用这些数据训练的模型，摆脱了对固定本体姿态、特定本体型号的过拟合，具备出色的零样本迁移能力。

这也是国内首个大规模跑通“全身无本体采集→自动质检→混合训练→真机评测”全闭环的工作，搭建起一条规模化采集具身数据、形成迭代飞轮的可行之路。

文章配图-1

XRZero-G0 整合无本体数据采集、闭环质检和数据配比方案

软硬一体保证数据高可用，有效率提升至85%以上

XRZero-G0 首先在硬件上添加了头部摄像头，将数据与腕部的两个视角严格对齐。同样的采集数据量，训练模型时的效率更高、混合收益更稳定。在软件上，XRZero-G0则将对数据质量的管控，引入了数据采集阶段，建立起三层递进的自动质检和筛选机制，而非等到训练时再优化：

1、在观测层，利用多个视角、多个时间的数据反复交叉验证，防止视觉与运动的误差不断放大。

2、在动力学层，将外部动作数据翻译成目标机器人自己能做的动作，避免机器人做动作时碰撞自己、超出关节限位，或是超出电机力矩。让数据筛选从“定性”变成100%可验证的步骤。

3、在策略层，用真机开放回环执行任务的成功率，来作为数据是否可用的最终判别依据。

这套方法论将数据治理从“采集端的工艺优化”延伸到“训练端的分布对齐”，将入库数据的有效率提升到85%以上，使得无本体数据也能达到与真机数据相当的可信和可执行水平。未来，它将成为以全身无本体数据为基础的预训练新范式。

发明“真机:无本体”数据“黄金配比”，数据成本降低至1/20

在具身智能领域，普遍会将真机数据与无本体数据混合，喂给模型训练。这能同时解决“真机数据少、采集昂贵”和“无本体数据泛化性差”的问题。但两者该以什么比例混合，过去一直没有科学的定论。自变量通过在后训练阶段进行对照实验，得出了一个可复现的科学配比：

10份无本体数据 + 1份真机数据的效果 = 同等规模的纯真机数据

简单来说，无本体数据能让模型见多识广、学会常识和动作规划；真机数据则能帮模型“查漏补缺”电机延迟、本体差异、摩擦力这些物理信息。两者结合，能将获取训练所需数据的成本降低到原有的1/20。

文章配图-1

数据配比方案效果实测

不仅如此，自变量还将训练出的模型效果做了真机试验。自变量发现，相比于真机纯遥操数据，这种“混合配方”在两方面取得了更好的效果：首先是摆脱了对固定本体姿态的过拟合，能适应各种工作台角度、站位和视角，不依赖于特定采集环境。其次是具备了跨本体的零样本迁移能力，可以在完全没有参与采集的机器人本体上零样本部署，无需针对性微调。

这些真机实验证明：自变量构建的这一整套数据采集和治理方法，以及将真机和无本体数据混合用于训练的方式，能够支撑具身模型训练走向规模化，并非“权宜之计”，而是科学的系统化的路径。

开放首批无本体数据集，构建具身行业数据基础设施

真实物理环境的数据已经成为具身智能模型发展的“珍贵养料”。很多具身智能企业和三方公司也纷纷开始自建数据采集流程，摸索可行的路径。自变量作为在具身数据采集方面的先行者，决定打破数据孤岛、促进整个行业的数据基建：将 XRZero-G0 的核心成果全面开源。

目前，自变量采集构建的首批无本体数据集已经在 Huggingface 平台上线，方便全球开发者开箱即用。相关的技术报告也发布在 arXiv 等平台，涵盖硬件搭建、自动化质检流水线和混合数据配比后训练策略等方面，让具身智能产业能够复现使用。相关论文和数据集的发表，也在arXiv相关论坛alphaXiv和国内社区引发广泛的讨论和关注。

未来，自变量期待与全球科研力量并肩同行，彻底告别“盲采盲训”的摸索阶段，共同见证通用机器人融入物理世界的黎明到来。

分享到微博分享到微信

自变量开源数据采集方案XRZero-G0，论文冲上技术社区趋势热榜，首次构建规模化具身数据采集方法论

相关阅读

新动态

关注度

最话题