2025-08-11 09:30:26 中华网
2025年8月10日,恰逢2025 WRC(世界机器人大会)在北京亦庄开展期间,灵生科技宣布将开源业内首个支持异步运行的快慢双系统视觉语言动作(Visual Language Action)框架——RealDualVLA。该框架突破性地实现了大脑机制的双系统架构,通过结构、调度与硬件的彻底解耦,为机器人复杂操作任务提供了高效协同的全新解决方案,有望推动智能机器人在工业、服务等场景的量产落地进程。
受人类大脑启发,RealDualVLA 构建了两个功能分化、异步运行的子系统:
System2:类脑推理,负责视觉语言理解与任务规划;
System1:以20Hz频率生成多步动作序列,由底层控制器以200Hz执行。
二者共享图像与本体状态输入,通过异步通信完成复杂操作任务。这不仅仅是"看起来"分了两部分,而是真正实现了结构解耦、调度解耦、硬件解耦。
一、RealDualVLA 是“真”双系统
在当前社区中,很多工作“声称”采用了快系统(System1)与慢系统(System2)结构,但实质上只是逻辑上的模块划分,其特点包括:
- 两个系统运行在同一个进程/模型中;
- 无法异步调度或频率分离;
- 同步输入-输出,无法并行执行;
- 通常运行在同一个 GPU 上。
这类方法更像是快慢混合体,并不能发挥出真正双系统的效率与能力差异。
RealDualVLA 则是真异步、真分离、真协作。
二、System2 与 System1:共享感知,职责分明
说明:System1 和 System2 共享相同的图像和本体状态输入,都是对机器人当前感知的处理。System2 额外接收语言输入进行高层推理。System1 在不等待 System2 的情况下独立运行,仅在接收到新意图时更新控制策略。
三、灵活部署:System1 Only 与 System2 Only 版本
为满足不同计算需求,我们提供以下独立部署方案:
System1 Only:针对短程与低复杂度任务,轻量化部署,专注低延时实时控制
System2 Only:专注复杂推理与规划任务,高性能部署,实现高层次语义理解
用户可根据实际任务需求,灵活选择双系统协作或独立子系统部署方案,实现最优的算力分配与性能平衡。
四、异步调度架构
System2:以人类思维节奏(~8Hz)进行语言理解与任务意图生成;
System1:以20Hz频率生成多步动作序列,底层控制器以200Hz逐步执行;
二者通过中间 latent vector 通信,无阻塞、无锁等待,可部署在两个 GPU 上,实现真正的异步多系统协作。
五、量产适配优势
1. 硬件成本优化:System1可部署在边缘设备(如Jetson系列),System2支持云端协同,显著降低单设备算力需求
2. 工业级可靠性:System1的20Hz多步预测+200Hz底层控制,确保运动平滑稳定
3. 灵活配置:支持双系统全功能、System1 Only、System2 Only三种量产模式
灵生科技RealDualVLA模型的开源将为机器人研发社区提供首个真双系统视觉语言动作框架,助力开发者突破传统控制方案的瓶颈。无论是学术研究中的算法创新,还是工业场景的落地验证,该框架都将成为连接“语义理解”与“物理操作”的关键工具。
目前,RealDualVLA源码已进入最终准备阶段,即将正式发布。灵生科技诚邀机器人研究者、开发者关注项目动态,共同探索智能机器人操作的新范式,加速机器人技术从实验室走向规模化应用。