

Paper Reading: Embodied AI 8
从一些 Embodied AI 相关工作中扫过。
Pi0.6#

本文提出通过强化学习实现视觉-语言-动作模型在真实世界部署中的自我改进。研究者引入RECAP方法,通过优势条件化进行强化学习训练,整合演示数据、在线策略数据和人类干预。π₀.₆模型在离线强化学习预训练后能够在下游任务上专门化,成功完成在真实家庭中叠衣服、可靠组装盒子和使用专业咖啡机制作咖啡等复杂任务,部分困难任务的吞吐量提升超过一倍,故障率减半。
MergeVLA#

本文解决将不同任务训练的VLA模型合并为单一统一系统的关键挑战。研究者发现阻碍成功合并的两大障碍是视觉-语言主干中任务特定适应的分歧和跨网络层传播信息的相互依赖注意力机制。MergeVLA通过任务掩码引入稀疏激活的LoRA适配器以保持一致的参数,并在动作专家组件中用仅交叉注意力块替换自注意力。系统包含测试时任务路由器,能够从初始观察自动识别任务而无需监督,在多个机器人基准和真实世界实验中表现优异。
Compressor-VLA#

本文针对机器人VLA模型的计算效率问题,提出了包含两个压缩组件的框架:一个提取任务相关上下文,另一个保留细粒度空间细节。该方法将计算操作减少59%,视觉token数量减少超过3倍,同时在机器人操作基准测试中保持竞争力性能。该方法成功实现从仿真到真实双臂机器人部署的迁移。
Robot-Powered Data Flywheels#

本文提出机器人作为数据收集者而非仅消费基础模型的框架,在学术图书馆部署移动操作机器人Scanford两周,自主扫描书架并使用视觉-语言模型识别书籍。系统将书籍识别准确率从32.0%提升至71.8%,多语言OCR性能显著提高:英文从24.8%提升至46.6%,中文从30.8%提升至38.0%。该部署节省约18.7小时人工,收集了2103个书架的数据,展示了真实世界机器人部署如何创建良性循环,实用任务同时生成训练数据以增强特定领域和相关任务的模型性能。
VIPA-VLA#

本文解决VLA模型中2D视觉感知与3D物理动作空间脱节的关键局限。研究者提出使用人类演示视频进行”视觉空间与物理空间显式对齐”的预训练方法。引入的VIPA-VLA是具有3D视觉处理能力的双编码器系统,改善了机器人策略如何将2D视觉观察锚定到3D空间推理中,以实现更具泛化性的机器人控制。
DexWM#

本文介绍DexWM世界模型,用于预测灵巧操作任务中的未来环境状态。系统利用超过900小时的人类和机器人视频进行训练,以解决灵巧数据集有限的问题。关键创新是辅助手部一致性损失,确保精确的手部配置超越标准视觉特征预测。部署在带抓手的机器人臂上时,DexWM表现出色,在抓取和到达等操作任务上平均性能超过Diffusion Policy 50%以上,即使没有任务特定训练。
Openpi Comet#

Openpi Comet 是 2025 BEHAVIOR 挑战赛的亚军方案,基于 π₀.₅ 系统性研究了训练技术和数据效应对长时域机器人任务的影响。通过跨预训练和后训练阶段的消融研究展示了扩展效益,验证 Q-score 达到 0.345,显著超越此前的最先进性能。该工作为将基础模型适配到具身智能场景提供了实用经验,成功处理了涉及移动操作的日常家庭任务。
Evaluating Gemini Robotics Policies in a Veo World Simulator#

该研究展示了如何利用生成式视频模型评估多场景下的机器人策略。基于 Veo 视频基础模型构建的评估系统支持机器人动作条件生成和多视角一致性,并通过图像编辑和补全技术实现真实场景变化。通过对 8 个 Gemini 机器人策略版本在 5 个双臂操作任务上进行超过 1,600 次真实世界评估,验证了该系统能够准确预测策略在标准和新颖条件下的相对性能。
1st Place Solution for the 2025 BEHAVIOR Challenge#

该研究提出的视觉-动作策略赢得了 2025 BEHAVIOR 挑战赛冠军,在 50 个家庭任务的光真实感仿真环境中接受评估。在 Pi0.5 框架基础上引入了多项技术改进,包括用于流匹配的相关噪声以提高训练效率和动作平滑度、可学习的混合层注意力、以及 System 2 阶段跟踪以消除歧义。该方法结合了训练时的多样本流匹配与推理时的动作压缩和任务特定校正规则,最终在所有评估任务上达到 26% 的 q-score。
VideoVLA#

VideoVLA 利用大型视频生成模型作为机器人学习系统的基础,解决机器人操作中的泛化挑战。该方法结合语言指令和图像来同时预测动作序列和预期的视觉结果,采用多模态扩散 Transformer 架构。关键发现表明高质量的想象未来与可靠的动作预测和任务成功相关,验证了视觉预测在机器人学习中的价值。系统展现出跨具身平台的技能迁移和处理未知物体的能力,提出了机器人系统双重预测策略的新范式。
FASTer#

FASTer 提出了一个提升机器人学习效率的框架,包含两个主要组件:FASTerVQ 将动作块编码为单通道图像以捕获全局时空依赖性并保持高压缩率,以及 FASTerVLA 引入块级解码以提升性能。该工作解决了机器人控制中的核心挑战:在动作标记化时平衡重建质量与推理速度。作者表示该方法在推理速度和任务性能上均超越了此前的最先进 VLA 模型,在仿真和真实世界机器人操作任务中展现出强大的泛化能力。
Video2Act#

Video2Act 提出了一个双系统视频扩散策略框架,通过从视频帧中提取空间边界和运动信息来改进机器人策略学习。该方法采用慢速视频扩散模型与快速扩散变换器动作生成器的协同设计,使机器人能够在接收不频繁更新时仍保持稳定的操作任务。实验结果显示,相比现有方法在模拟环境中提升7.7%,在真实世界任务中提升21.7%的性能,并展现出强大的跨场景泛化能力。
RoboWheel#

RoboWheel 是一个数据引擎系统,能够将人类手-物交互视频转化为可用于不同机器人体态的训练数据。该方法从摄像头视频中重建手部运动,通过强化学习优化确保物理准确性,并将这些动作适配到从简单机械臂到灵巧手和人形机器人的各种机器人类型。研究证明生成的轨迹与遥操作一样稳定,为传统遥操作提供了一个仅需标准摄像头的轻量级替代方案。
RealAppliance#

RealAppliance 解决了现有家电模拟缺乏真实性且与实际产品手册不符的问题,提供了包含100个具有精确物理和电子机制的详细家电数据集。该工作引入了一个基准测试,评估AI模型在手册页检索、家电部件定位、开环和闭环操作规划等任务上的性能。这项研究旨在缩小机器人系统在家电操作模拟与真实世界之间的差距。
GR-RL#

GR-RL 提出了一个将通用视觉-语言-动作策略转化为复杂机器人任务专用系统的框架,通过强化学习对示范数据进行过滤、增强和强化,而非假设人类示范是最优的。该方法包括使用Q值作为进度指标过滤轨迹、应用形态对称增强以提高泛化能力,以及使用潜在空间噪声预测器进行在线强化学习。该框架实现了基于学习的策略自主系鞋带,成功率达83.3%,这是一项需要长时推理、毫米级精度和与可变形材料交互的复杂任务。
ManualVLA#

ManualVLA 针对视觉-语言-动作模型在处理需要精确规划和执行的长时程机器人任务时的局限性,提出了基于混合变换器架构的统一框架,能够生成包含图像、位置提示和文本指令的中间多模态”手册”。该系统包括规划专家从目标状态创建分步手册,以及基于3D高斯溅射的数字孪生工具包用于自动生成训练数据。在真实世界的乐高组装和物体重排任务中,ManualVLA 的平均成功率比之前的分层SOTA基线高32%。
SwiftVLA#

SwiftVLA 解决了视觉-语言-动作模型通常需要大量参数的问题,通过以最小开销增强轻量级模型的四维时空理解能力。该方法采用预训练的4D视觉几何变换器配合时间缓存,并引入用于未来预测训练的融合令牌,通过掩码-重建训练策略使4D分支在推理时可移除。SwiftVLA 在性能上匹配7倍参数规模的模型,同时推理速度提升18倍,在边缘设备上内存使用减少12倍。
MM-ACT#

MM-ACT 提出了一个统一的视觉-语言-动作模型,将文本、图像和动作集成在共享令牌空间中,并使用并行解码策略跨所有三种模态生成。该系统引入了”上下文共享多模态学习”训练方法,从共享上下文监督所有模态的生成,通过跨模态学习改进动作生成。在LIBERO模拟中达到96.3%成功率,在真实Franka机器人任务中达到72.0%,在双臂RoboTwin2.0任务中达到52.38%,其中跨模态学习额外贡献了9.25%的性能提升。