Axi's Blog
Paper Reading: Embodied AI 10Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

LDA-1B#

Arxiv ID 2602.12215
幻觉翻译 2602.12215

在 DINO 潜空间里联合预测动力学 / 策略 / 视觉的 1B 基模

LDA-1B 是 1B 参数的 foundation model,在 DINO 的 latent 空间联合训 dynamics、policy、visual forecasting,异步视觉 / 动作流由 multi-modal DiT 处理。宣称能利用低质量轨迹,这对 OXE 这种质量参差不齐的大数据源比较实在。属于 WM-VLA 联合训练方向里的一次 Scale 尝试。

推荐指数:

RLinf-Co#

Arxiv ID 2602.12628
幻觉翻译 2602.12628

SFT 混合数据 + Sim RL + 真机辅助监督防遗忘

RLinf-Co 做两阶段,先在仿真 + 真机混合 demo 上 SFT 暖启动,再在仿真里做 RL,同时用辅助 supervised loss 保留真机能力。针对”仿真 RL 调完 VLA 变成只会仿真任务”这种常见现象是直接的解法。OpenVLA 上 +24%。

推荐指数:

Xiaomi-Robotics-0#

Arxiv ID 2602.12684
幻觉翻译 2602.12684

小米侧的实时 VLA 基模,强调 async execution 与时序对齐

Xiaomi-Robotics-0 是小米侧的工业向 VLA,跨 embodiment 轨迹 + VL 数据预训,主打真机实时双臂操作,重点是 async execution 和 timestep alignment 这类部署侧技巧。架构没有特别新意,但是作为一家厂商级 VLA 的工程报告值得作为参考。

推荐指数:

ALOE#

Arxiv ID 2602.12691
幻觉翻译 2602.12691

Action chunk 级 TD Bootstrap 的 VLA Offline RL

ALOE 针对 VLA 常用的 action chunk 输出做 offline RL,核心是在 chunk 粒度做 TD bootstrap 而不是只看最终任务成败,credit assignment 更细。对做 VLA + RL 细调的同学是一个比较具体可参考的技术点。

推荐指数:

Legato#

Arxiv ID 2602.12978
幻觉翻译 2602.12978

Action Chunk 边界抖动的训练期平滑方案

Legato 解决 VLA action chunking 在 chunk 边界上不连续的老问题,做法是让 denoising 从”已知动作 + noise”的混合调度开始,训练和推理目标一致,再用随机 schedule 条件实现可控平滑度和可变推理延迟。属于 Pi-like 部署里一个比较实用的 trick。

推荐指数:

DORA#

Arxiv ID 2602.13252
幻觉翻译 2602.13252

zero-copy 数据传输的机器人中间件

DORA 是机器人中间件,核心是显式 dataflow 描述 + zero-copy 数据传输,降低序列化开销和延迟。对做真机系统部署的同学是一份基础设施方向上的参考,和 ROS 等中间件比的位置就是更偏 data-intensive 场景。

推荐指数:

WoVR#

Arxiv ID 2602.13977
幻觉翻译 2602.13977

Keyframe-init Rollout 防 WM 累积误差的 VLA RL

WoVR 还是 WM-Simulator-RL-VLA 这条线,核心 trick 是 Keyframe-Initialized Rollouts,从已知的真实 keyframe 重新起步以抑制 WM hallucination 带来的误差累积,同时 policy / simulator 共演化。比起单纯的长时 rollout,更务实地处理 WM 可靠性问题。

推荐指数:

DM0#

Arxiv ID 2602.14974
幻觉翻译 2602.14974

统一 Manipulation + Navigation 的 VLA,真机数据不回传梯度给 VLM

DM0 主打 Manipulation + Navigation 统一训练:先在 Web 文本 + 驾驶 + 具身数据上做 VLM 预训,再挂一个 FM Action Expert,训具身数据时不让 action 的梯度回传到 VLM(同时 Web / 驾驶数据可以照常 fine-tune VLM)。思路和 TwinBrainVLA 的冻结左脑有异曲同工之处,但是是选择性梯度屏蔽而不是完全复制一份 VLM,实现上更经济。

推荐指数:

RynnBrain#

Arxiv ID 2602.14979
幻觉翻译 2602.14979

2B / 8B / 30B 的具身时空 VLM 基础模型

RynnBrain 是一个 open-source 具身时空 VLM 基础模型,提供 2B / 8B / 30B 三个档位,覆盖 ego 理解、空间时间定位、物理推理、物理感知规划四件事。属于 RoboBrain 2.5 / Thinker 同一类基础模型,多一个开源家族可以对比。

推荐指数:

BPP#

Arxiv ID 2602.15010
幻觉翻译 2602.15010

VLM 挑 keyframe 作为历史条件的 Big Picture Policy

BPP 面向 history-aware 模仿学习,不直接把整段观测历史塞进模型,而是用 VLM 挑出 meaningful keyframe 作为压缩的历史信号,训练与部署 rollout 的分布差异也因此被拉近。思路很直接,对需要长时记忆但是完整 history 会导致 distribution shift 的任务是一个有效的中间层。

推荐指数:

CLOT#

Arxiv ID 2602.15060
幻觉翻译 2602.15060

高频定位反馈保持全局精度的人形遥操作系统

CLOT 是人形遥操作系统,通过高频全局定位反馈 + 数据驱动的 randomization(解耦观测轨迹和 reward 评估)实现长时间 drift-free 的全身跟踪。相较单纯跟踪参考轨迹的人形 WBC 工作,更强调实际遥操作场景下的全局稳定性,作为 Humanoid teleop 基建的一个参考。

推荐指数:

MeshMimic#

Arxiv ID 2602.15733
幻觉翻译 2602.15733

从视频重建 3D 地形并 retarget 人类 motion 到人形

MeshMimic 从视频恢复 3D 地形与人类轨迹,做 kinematic 优化 + contact-invariant retargeting,让人形学地形 / 环境交互。差异点是强调 motion-terrain 交互而不是纯 motion,但是和 HumanX、BeyondMimic 等在人形 video-driven 这条线的工作高度同质。

推荐指数:

Test-Time Adaptation for Tactile-Vision-Language Models#

Arxiv ID 2602.15873
幻觉翻译 2602.15873

按 per-modality reliability 动态融合的 TVLA 测试期适应

这篇针对 Tactile-Vision-Language 模型在 distribution shift 下的 TTA,用预测不确定性 + perturbation 响应估每个模态的 reliability,做样本过滤、自适应融合、优化引导。是比较标准的 TTA 在 TVLA 领域的应用,主要面向感知模态坏掉的情况。

推荐指数:

FUTURE-VLA#

Arxiv ID 2602.15882
幻觉翻译 2602.15882

时序自适应压缩 + latent AR 的长程 VLA

FUTURE-VLA 把长程控制和未来预测统一到一个序列生成里,关键是时序自适应压缩(控制 multi-view history 的信息密度)和 latent 空间 AR 对齐。和 BagelVLA、Cosmos Policy 同类”视频 + 动作 joint generate”的思路,差异点在压缩策略。

推荐指数:

DreamZero#

Arxiv ID 2602.15922
幻觉翻译 2602.15922

绕开语义只靠视频 Diffusion 预测世界 + 动作的 World Action Model

DreamZero 比较激进,完全绕开 language 语义,只用视频 diffusion 作为 backbone 预测未来世界状态和动作,把视频当作世界演化的 dense representation。和 Cosmos Policy 同族但更彻底地去掉 VL 端,作为”Video-centric World Action Model”的观点派作品值得对比。

推荐指数:

RoboGene#

Arxiv ID 2602.16444
幻觉翻译 2602.16444

Diversity + Self-Reflection + HITL 的自动任务生成

RoboGene 做 VLA 预训数据侧的自动任务生成,组合 diversity-driven sampling、self-reflection 约束物理可行性、human-in-the-loop 兜底。思路和 SceneSmith 这类 VLM Agent 造数据的工作相近,HITL 作为兜底暴露了完全自动化还不够靠谱。

推荐指数:

EgoScale#

Arxiv ID 2602.16710
幻觉翻译 2602.16710

20K 小时 Ego 视频预训 + 两阶段迁移到 22DoF 灵巧手

EgoScale 用 20,854 小时带 action 标注的 ego 视频预训一个 VLA,再用轻量的人-机对齐 mid-training 迁到 22 DoF 灵巧手,54% 的成功率提升。规模和 Being-H0.5 一个量级,思路上也相近——Human as Foundation,只是 hand 结构上更极端。这条线已经逐步形成了”有数据就能上大模型灵巧手”的共识。

推荐指数:

FRAPPE#

Arxiv ID 2602.17259
幻觉翻译 2602.17259

两阶段 latent 观测预测 + 多基模对齐的 WM-VLA

FRAPPE 给 VLA 挂 World Model:mid-training 时学预测未来观测的 latent,post-training 时对齐多个视觉 foundation model。避免 pixel 重建 constrain semantic 这一点和 VLA-JEPA 说的是同一件事,两阶段 + 多基模对齐是差异点,但创新并不突出。

推荐指数:

SimVLA#

Arxiv ID 2602.18224
幻觉翻译 2602.18224

0.5B 的最小 VLA 透明基线

SimVLA 主打”透明基线”:严格解耦感知与控制,用标准 VLM + 轻量 action head,0.5B 参数就在仿真拿 SOTA、真机持平,目的是让社区后续在此之上做改动时有一个干净的起点。考虑到不少 paper 刷 SOTA 靠复杂训练配方,这种极简 baseline 是有对比价值的。

推荐指数:

What Matters for Simulation to Online Reinforcement Learning on Real Robots#

Arxiv ID 2602.20220
幻觉翻译 2602.20220

100 次真机 RL 跑出来的 Design Choice 经验总结

这一篇没有新算法,而是跑了 100 次真机 RL 实验(3 个平台),系统对比算法 / 系统各种 Design Choice 的影响。结论之一是”有些大家默认用的选项其实对真机训练有害”,另一些 standard practice 则稳定有效。类似系统的 empirical study 在领域里比较少但很有价值,做真机 RL 的团队可以直接当 cheat sheet 用。

推荐指数:

UniLACT#

Arxiv ID 2602.20231
幻觉翻译 2602.20231

RGB + Depth 统一 latent action 的预训

UniLACT 主要是把 depth 拉进 latent action 学习,通过 inverse / forward dynamics 对 RGB 和 depth 做联合表示。属于 latent action 预训这一条线的扩展,novelty 仅限于多了 depth 这一路。

推荐指数:

HALO#

Arxiv ID 2602.21157
幻觉翻译 2602.21157

文本 CoT / 视觉 subgoal / 动作三专家 MoT VLA

HALO 是 MoT 架构,把 textual reasoning、visual subgoal 预测、action 预测分给三个 expert。和 BagelVLA、FUTURE-VLA 等在思路上同质,差异是 expert 角色切分方式。

推荐指数:

SC-VLA#

Arxiv ID 2602.21633
幻觉翻译 2602.21633

辅助预测头 + 在线 reshape reward 的自纠正 VLA

SC-VLA 在 VLA 上挂 progress + trajectory 两个辅助预测头做 “sparse world imagination”,基于预测在线 reshape reward 引导策略改进。又一个在 VLA 上挂 WM 辅助监督 + 在线调参的变体。

推荐指数:

WoG#

Arxiv ID 2602.22010
幻觉翻译 2602.22010

在 condition space 里做世界建模的 VLA

WoG 把未来观测压成 compact condition 注入到 action 推理里,走”不预测高维未来像素,而在 learned condition space 里做 WM”这条路子。和 VLA-JEPA、FRAPPE 的主旨是一致的,本质都是”latent-only WM 监督”。

推荐指数:

Force Policy#

Arxiv ID 2602.22088
幻觉翻译 2602.22088

自由空间视觉 + 接触时力反馈的 Hybrid 力/位控策略

Force Policy 走的是经典 hybrid 力位控的 Learning 化版本:全局 vision policy 在自由空间运动,接触后切到以学到的 interaction frame 为基的高频局部力控策略,auto-switching。思路和 CompliantVLA 相似但是解法更偏 hybrid control,工程上比较干净。

推荐指数:

LLaVA-VLA#

Arxiv ID 2602.22663
幻觉翻译 2602.22663

基于 LLaVA 的轻量 Nav + Manip 统一 VLA

LLaVA-VLA 直接拿 LLaVA 作 VLM backbone,加多视角、proprio tokenization、action chunking,两阶段训练无需昂贵预训,并把 Nav + Manip 统一进一个 end-to-end VLA,能在消费级 GPU 跑。卖点是轻量 + 统一,代码可复现性对小团队友好。

推荐指数:

LeRobot#

Arxiv ID 2602.22818
幻觉翻译 2602.22818

HuggingFace 的机器人学习开源栈技术报告

LeRobot 是 HuggingFace 侧的开源机器人学习栈官方技术报告,覆盖从底层电机控制 middleware 到数据集采集 / 管理以及多种 SOTA 算法的集成。已经是社区里事实上的底座工具之一,不少论文的数据集和基线都是直接挂在 LeRobot 里,做 VLA / DP 入门也绕不过去,有这篇可以顺手读一下官方对其定位的整理。

推荐指数:

FAVLA#

Arxiv ID 2602.23648
幻觉翻译 2602.23648

低频 VLM + 高频力反馈 Action Expert 的力感知 VLA

FAVLA 走慢 VLM + 快 Action Expert 的双频异步范式,中间加 force adapter 把高频力反馈注入动作预测、还可以根据预测的力变化自适应调速。和 EAI9 里的 CompliantVLA-adaptor 非常像,主要差别是 FAVLA 把 force 作为 policy 内部特征而不是外挂 VIC 控制参数。

推荐指数:

PhysGen#

Arxiv ID 2603.00110
幻觉翻译 2603.00110

视频生成当物理模拟器,video 与 action 共享 physical token

PhysGen 把预训的视频生成模型当物理模拟器用,把 video 与 action 统一为 shared physical token,加上 causal mask 与 multi-token prediction。本质上是 Cosmos Policy、DreamZero 这条 Video-centric VLA 路线的又一变体。

推荐指数:

RMBench#

Arxiv ID 2603.01229
幻觉翻译 2603.01229

9 个任务的 Memory-dependent 操作 Benchmark

RMBench 专门针对”需要记忆”的操作任务(比如依赖早期观察的状态判断)构造 9 个任务,填补之前 VLA benchmark 基本不测 memory 的空白。同时放了一个 Mem-0 作参考策略。和 STaR、BPP 等长时记忆相关工作配合使用。

推荐指数:

NIAF#

Arxiv ID 2603.01766
幻觉翻译 2603.01766

把 Action 表示为 Neural Implicit Field 做连续轨迹回归

NIAF 把 action 从离散 waypoint 换成可解析微分的连续隐函数,由 MLLM 做层级 spectral modulator 调制一个学得的 motion prior 生成 infinite-resolution 轨迹,可以显式约束速度 / 加速度 / jerk。方向上和 Pi-like / Diffusion 的 chunk 输出是不同的动作表示派别,值得关注。

推荐指数:

π\pi-StepNFT#

Arxiv ID 2603.02083
幻觉翻译 2603.02083

无 critic、无 likelihood 的 FM VLA 在线 RL

π-StepNFT 做 Flow-Matching VLA 的在线 RL,不需要 critic、不需要显式 likelihood,用 step-wise negative-aware fine-tuning 细粒度地更新,每步只一次 forward。算是 π_RL 系列之外的另一种 FM VLA RL 方案,尤其适合 likelihood 难算的场景。

推荐指数:

Robometer#

Arxiv ID 2603.02115
幻觉翻译 2603.02115

frame 级进度 + trajectory 级偏好的 100 万级 Reward Model

Robometer 把 reward 建模拆成 frame-level 的 progress loss(锚定专家数据量纲)和 trajectory-level 的 preference loss(做全局排序),在 100 万条轨迹的 RBM-1M 上训,能学到既识成功又识失败的通用 reward。和 EAI8 的 Robo-Dopamine 是同类工作的另一种切法。

推荐指数:

Uni-Skill#

Arxiv ID 2603.02623
幻觉翻译 2603.02623

VerbNet 思路 + 从视频自动产出的可增长 Skill 库

Uni-Skill 走 Skill Library 路线,规划时发现缺就向 SkillFolder 请求新技能实现,SkillFolder 是从大规模视频里抽出来的 VerbNet 风格仓库。属于 SayCan 之后的 skill-based planner 变种,数据源换成视频,插入抽象仍然依赖规划器。

推荐指数:

Rhythm#

Arxiv ID 2603.02856
幻觉翻译 2603.02856

双人形互动任务的全身控制框架

Rhythm 针对双人形交互任务(拥抱、跳舞),从人类数据 retargeting + graph-based reward 的 RL 学会 coupled dynamics,再真机部署。双人形交互场景在现有 Humanoid WBC 工作里相对稀有,作为一个方向补充。

推荐指数:

ACE-Brain-0#

Arxiv ID 2603.03198
幻觉翻译 2603.03198

一统驾驶 / 机器人 / UAV 的空间智能基础模型

ACE-Brain-0 想一统驾驶 / 机器人 / UAV 三域,用 Scaffold-Specialize-Reconcile 三段式:先建共享空间 foundation,再训领域专家,最后无数据模型合并。Scope 很大,24 个 benchmark 都能跑,最终走模型合并主要是为了避免灾难性遗忘。

推荐指数:

HoMMI#

Arxiv ID 2603.03243
幻觉翻译 2603.03243

UMI + Ego 相机,Human demo 学全身移动操作

HoMMI 把 UMI 扩到 whole-body mobile manipulation,加 egocentric 相机、用 embodiment-agnostic 视觉表征 + relaxed head action + whole-body 控制器来跨越人-机 embodiment gap,不需要机器人在场就能采数据。和 HuMI、HumanX 是同一条线的不同切法,差异在 task scope(含导航和主动感知)。

推荐指数:

ULTRA#

Arxiv ID 2603.03279
幻觉翻译 2603.03279

物理驱动 retarget + 多模态统一控制器的人形 Loco + Manip

ULTRA 把大规模 mocap 通过物理驱动的 neural retargeting 搬到人形,再用多模态统一 controller 联合参考动作和任务目标学习,从 mocap 到 ego 视觉都能作条件,测试时可以无参考动作直接执行。和 BeyondMimic、SONIC 等同属 Humanoid whole-body 方向。

推荐指数:

LiteVLA-Edge#

Arxiv ID 2603.03380
幻觉翻译 2603.03380

Jetson Orin 上 4-bit GGUF 量化 + ROS2 的 VLA 端侧部署

LiteVLA-Edge 不做新算法,做的是工程栈:FP32 做 SFT → 4-bit GGUF 量化 → GPU 加速离线推理,集成到 ROS 2 管道,在 Jetson Orin 上拿到约 150ms 延迟。对需要在嵌入式平台上跑 VLA 的同学是实用参考。

推荐指数:

MEM#

Arxiv ID 2603.03596
幻觉翻译 2603.03596

短时视频记忆 + 长时文本记忆的多尺度具身记忆

MEM 用视频做短时记忆、文本做长时记忆,目标是支撑 10 分钟量级的长程任务(厨房清理、做三明治)。长程任务里 VLA 基本靠 memory 支撑,这种分 horizon 切模态的方式比单一 context window 更合理。

推荐指数:

SkillVLA#

Arxiv ID 2603.03836
幻觉翻译 2603.03836

双臂单臂技能可左右重组的 Skill 解耦 VLA

SkillVLA 关注双臂的 Skill Reuse 问题:传统训练里左右臂是绑死的,组合新 left-right pair 几乎全挂。论文通过解耦单臂技能避免跨臂 entangle,将组合成功率从 0 拉到 51%。这是一个挺实际的问题和清晰的解法。

推荐指数:

RoboCasa365#

Arxiv ID 2603.04356
幻觉翻译 2603.04356

365 家务任务 + 2500 厨房场景的大规模家用 Benchmark

RoboCasa365 把 RoboCasa 的规模再拉大:365 个家务任务 × 2500 厨房场景,配 600+ 小时人类演示和 1600+ 小时合成数据。对研究任务 diversity 与 policy scaling、lifelong learning 的人而言是一个 reproducible 的大型基准。

推荐指数:

ManipulationNet#

Arxiv ID 2603.04363
幻觉翻译 2603.04363

标准化硬件 kit + 统一客户端的真机分布式 Benchmark

ManipulationNet 的目标比较有意思:用标准化硬件 kit + 统一软件客户端,让不同机构在不同地点跑出可以互相对比的真机结果,两条评测轨覆盖低层接触技能和高层推理。解决真机 evaluation 最大的痛点——不同实验室互相对齐,方向上是有价值的,落地难度很大。

推荐指数:

RoboMME#

Arxiv ID 2603.04639
幻觉翻译 2603.04639

覆盖时 / 空 / 物 / 程序四类 Memory 的 VLA Benchmark

RoboMME 和 RMBench 同主题,专门测 long-horizon、history-dependent 的 memory 能力,按 temporal / spatial / object / procedural 四个维度构造 16 个任务,并配 14 个带 memory 的 VLA 变体作对照。研究 memory 架构选型时可以配合 RMBench 一起用。

推荐指数:

SeedPolicy#

Arxiv ID 2603.05117
幻觉翻译 2603.05117

SEGA 门控注意力压缩历史观测的长程 DP

SeedPolicy 针对 Diffusion Policy 在长程任务上掉点的问题,挂一个 SEGA(Self-Evolving Gated Attention)维护 time-evolving latent state 来压缩长序列观测、滤掉无关时间信息,小参数量拿到 36.8% / 169%(随机化场景)的相对提升。对把 DP 推到更长 horizon 场景的同学可参考。

推荐指数:

UltraDexGrasp#

Arxiv ID 2603.05312
幻觉翻译 2603.05312

2000 万帧合成的双臂灵巧抓取数据集 + 零样本 sim2real

UltraDexGrasp 生成规模 2000 万帧的双臂灵巧抓取合成数据集,结合 optimization-based 合成和 planning-based demo 生成,训出来的策略零样本 sim2real 真机成功率 81.2%。双臂灵巧抓取大规模合成数据集目前还不多,有价值。

推荐指数:

Omni-Manip#

Arxiv ID 2603.05355
幻觉翻译 2603.05355

360 LiDAR 点云 + Time-Aware Attention 的人形大工作空间策略

Omni-Manip(OmniDP)用 360 度 LiDAR 点云替代传统 RGB-D,再配合 Time-Aware Attention Pooling,让人形可以在大工作空间里一次性完成操作而不需要重新定位。绕开 RGB-D FOV 小 / 自遮挡的常见问题,代价是对传感器依赖较强。

推荐指数:

RoboPocket#

Arxiv ID 2603.05504
幻觉翻译 2603.05504

手机 AR 预览 policy 轨迹 + 异步在线微调的数据采集

RoboPocket 把 AR Visual Foresight 搬到手机:采集者通过手机 AR 直接看到 policy 未来会走的轨迹,不需要机器人在场就能发现模型弱点,配合异步在线 fine-tuning 几分钟更新一次,比离线路线 2x 数据效率。用手机完成”预览 + 采集”的 UX 方向是值得借鉴的。

推荐指数:

TEGA#

Arxiv ID 2603.05552
幻觉翻译 2603.05552

EMG 推力 + 触觉背心反馈的残障辅助遥操作

TEGA 是一套辅助残障人士的遥操作系统,用 EMG 推断 grasp force + 用 wearable haptic vest 反馈视触信号。面向具体应用,跟主流 VLA / WM 方向关联有限。

推荐指数:

PRISM#

Arxiv ID 2603.05574
幻觉翻译 2603.05574

IL + Eureka 式自动生成 reward 的 RL refinement

PRISM 是 IL + RL 组合,IL 提供初始策略,RL 阶段用 Eureka 范式从自然语言任务描述自动生成 reward function,加上人在 rollout 中间给修正反馈。思路上就是把 IL/RL/HITL 三件事叠起来,没有特别新的 insight。

推荐指数:

RoboCritics#

Arxiv ID 2603.06842
幻觉翻译 2603.06842

LLM 生成机器人代码 + 专家规则 critic 迭代修正

RoboCritics 是 LLM 写机器人代码的闭环补丁:用专家 critic 检测 joint 违例、碰撞等安全问题,给出可修复反馈交给 LLM 重写,用户一键确认。属于工程 workflow 类,和现有 LLM-for-robot 的 pipeline 类工作相似。

推荐指数:

TacDexGrasp#

Arxiv ID 2603.07040
幻觉翻译 2603.07040

触觉 + SOCP 约束 friction 防滑的多指抓取控制

TacDexGrasp 用 Second-Order Cone Programming 约束每根手指的切向力 / 法向力 < 摩擦系数,从而避免 multi-finger grasp 里因 rotational slip 带起 translational slip 的现象,不需要显式建模扭矩。属于 grasp 控制细节上的一个 principled 改法,偏经典力学控制。

推荐指数:

TempoFit#

Arxiv ID 2603.07647
幻觉翻译 2603.07647

Training-free 的 KV-cache 时序记忆,给冻结 VLA 补长程能力

TempoFit 是 training-free 方案,把历史帧 attention 的 layer-wise KV-cache 保留下来,推理时用 Frame-Gap Temporal Bias 带 recency 权重去 retrieve,不需要新 token、不需要加可训模块就让冻结 VLA 具备 temporal memory。对已经训好的 VLA 补长程能力是个轻量选项。

推荐指数:

AtomicVLA#

Arxiv ID 2603.07648
幻觉翻译 2603.07648

原子技能分解 + SG-MoE 的长程 VLA

AtomicVLA 把长程任务拆成 atomic skill,用 Skill-Guided MoE 让每个 expert 负责一个原子技能,新技能通过灵活 routing encoder 做 continual learning。属于 skill-based + MoE 这一类,和 Uni-Skill、SkillVLA 是同一趋势的变体。

推荐指数:

RoboRouter#

Arxiv ID 2603.07892
幻觉翻译 2603.07892

用 GPT-4o 做"挑哪个 VLA 跑"的检索-路由系统

RoboRouter 不训练新的策略,而是观察到现在没有一个 VLA 能 dominate 所有任务(VLA 在 OOD 上崩、code-based composition 处理不了精细接触),于是把”选哪个 policy”这件事本身做成一个 training-free 的 retrieval + LLM agent:把任务的指令、图像、metadata embed 之后从历史执行库里检索 top-k 同类记录,再让 GPT-4o 这种 VLM 看历史成败做 reasoning 选 policy。整体相当于在一堆已有 policy(含 RDT-1B、π₀ 这种)之上挂一个 system-2 调度。

问题在于这个故事的前提就比较站不住。RoboRouter 工作时单次路由就要 4.79s 延迟,并且换成 Gemini 1.5 Pro / GPT-4o mini 性能就明显掉,意味着它的所谓收益本质上来自一个昂贵的闭源 VLM 用 in-context 看历史在猜,而不是某种可学习的 dispatch 能力。更深一层的反对意见是:当前 VLA 社区主流路线(Pi-0.5、GR00T、Cosmos Policy)的 bet 是”单个底模 + scale + co-training 解决全部”,RoboRouter 的 mixture-of-policy 想法和这个 bet 在方向上相反,且没有 evidence 说明 routing 比直接 scale 单模型更值得做。

推荐指数:

SaiVLA-0#

Arxiv ID 2603.08124
幻觉翻译 2603.08124

冻结 VLM + 类小脑 + 三值离散 Δ Action 的低成本 VLA

SaiVLA-0 在三件事上和 Pi-0.5 / GR00T 这种主流 VLA 走的不一样。第一是 VLM 完全冻结,只训一个轻量 Pons Adapter(layer-wise projection + GLU fusion + attention pooling)把多层 hidden state 压成 24 个 context token,再喂给下游一个被叫做 Cerebellum 的 6 层 Transformer + ViT + state encoder,整体大致对应 Helix 的脑-脑桥-小脑切分但更系统化。第二是动作头放弃了 Pi-0 的 Flow Matching 和 GR00T 的 Diffusion,改用 ParaCAT,每个 DoF 输出 {−1, 0, +1} 的 softmax,再配 hysteresis / EMA 平滑,本质是把动作离散成有方向无幅度的三值 token。第三是工程上做了两阶段 feature caching:先离线缓存冻结 VLM 的输出,再训下游头,LIBERO 训练时间从 7.5h 压到 4.5h。

整体定位是给数据少 / 算力小的 lab 用的”精打细算 VLA”,方向上和当前主流”scale 单基模”的赌注是相反的。最大的 Limitation 论文自己也写得很坦白:ParaCAT 方向化的离散动作天然有亚毫米级精度天花板,Goal 相关任务上分裂训练比端到端会掉分(原因不明),并且真正的 bimanual 真机实验还在 “planned” 状态,所有 99% 都是 LIBERO 仿真。作为”用冻结 VLM 拼便宜 VLA”的工程参考还可以,但是不要被 LIBERO 数字误导以为它能挑战 Pi-0.5。

推荐指数:

Seed2Scale#

Arxiv ID 2603.08260
幻觉翻译 2603.08260

4 条种子 demo 自举出训练集的 Self-Evolution 数据管线

Seed2Scale 名字像是”scale up 数据量”那一类,实际做的是反过来——只用约 4 条人类种子 demo,靠一个 self-evolution 循环把数据集滚出来。三件套:48M 的 SuperTiny VLA 当 collector 跑大量并行 rollout(带 exponential temporal ensembling 平滑),冻结的 Qwen3-VL 当 VLM-as-Verifier 用参考视频给轨迹 0-10 打分筛失败,然后用合格的轨迹再训 SuperTiny 自己以及目标模型 SmolVLA,迭代 8 轮成功率从 22% 拉到 68%。把 collector / verifier / target 三个角色拆给三个不同尺寸的模型这种”异构协作”本身有点意思,比 MimicGen 那种纯几何扰动想得更深一些。

但是论文没有真正回答最关键的问题:early iteration 时 collection 成功率不到 15%,意味着 verifier 必须在跟种子数据已经发散得很远的轨迹上判成败,一旦 false negative 累积,整个 loop 就在自我中毒。论文没有专门测 verifier 在 OOD 轨迹上的可靠性,也没和 Pi-0 / GR00T / RDT2 这种走真数据 scale 路线的方法做正面对比,只比了 2023 年的 MimicGen。把这篇当成 minimal-demo 场景下的 self-bootstrapping pipeline 参考即可,别拿它去和真大数据 VLA 比 scale。

推荐指数:

AtomVLA#

Arxiv ID 2603.08519
幻觉翻译 2603.08519

LLM 拆原子子任务 + 潜空间 WM 给 action chunk 打分的 GRPO

AtomVLA 和前面那篇 AtomicVLA 名字像但是路子完全不同。这里关心的是 VLA 训练时只见到粗粒度任务指令,长程任务上的中间监督信号缺失,错误会累积。做法是先用 LLM 把高层 demo 拆成一串原子子任务,再用一个预训的 latent world model 把候选 action chunk 投到 latent 空间和子任务目标做匹配打分,然后用 GRPO 做 offline post-training,绕开真机 / 仿真在线 rollout。本质上是用 latent WM 当 dense reward 实现 chunk 级 credit assignment,这一点比 ALOE 那种 chunk-TD 的思路又往前推了一步——奖励信号不是任务终点而是子任务对齐度。

LIBERO 上 97% 但是 LIBERO-PRO 上掉到 48% 已经把 limitation 写在脸上:所谓 atomic 拆解依赖 LLM,LIBERO-PRO 这种带扰动的版本上一旦 LLM 的拆解和实际 trajectory 对不上,subtask reward 就会失真。整体方向是 VLA RL 里值得跟一下的”子任务 reward shaping”流派,但是 LLM 拆解的鲁棒性是这条路绕不过的瓶颈。

推荐指数:

PlayWorld#

Arxiv ID 2603.09030
幻觉翻译 2603.09030

机器人自主"play"采集 + 课程学习训接触丰富 World Model

PlayWorld 的核心 insight 是大多数 Video / Action WM 都训在人类 demo 上,而 demo 几乎都是成功轨迹,contact 失败、滑掉、碰撞这些 long-tail 动力学覆盖率极低,于是模型一旦遇到接触场景就 hallucinate。论文的解法是”让机器人自己玩”:VLM 当 task proposer 自动生成自然语言指令,VLA 当 executor 在真机/仿真里跑出 30+ 小时无监督交互数据,天然包含失败模式。然后用 SVD 作为视频骨干,结合一种”distance-to-success”的课程:从冻结 CLIP embedding 抽人类 demo 的成功 centroid,按和这些 centroid 的距离把 play 轨迹分成由易到难的若干 rank,再渐进式调整采样分布,让模型先学 free-space 转移再学 contact-rich 转移。

和 Cosmos Policy / DreamZero / World-VLA-Loop 这种以”video diffusion 大基模 + scale data”为路线的 WM 工作相比,PlayWorld 的差异化是非常具体的:不靠 human supervision,不靠 reward-driven exploration,直接靠 play 自动覆盖失败分布;并且专门构造了一个 500+ clip 的 interaction-centric 评测集,把 missed grasp / slip / deformation 这些失败类型明确标出。在这个评测上 18 个不同策略的 predicted-vs-real success 相关性能到 0.88,作为 policy evaluator 比之前的通用 video WM 实用得多,下游用 DSRL 配合冻结骨干微调直接拿 65% 的提升。

主要 Limitation 论文自己提了:仍然不能彻底消 hallucination,在 open-loop rollout 长 horizon 下 control mode 不一致还是会累积错误;以及目前都是受控实验室设定,跨场景 / 跨 embodiment 怎么平衡 play 数据没解决。这两个问题不解决,“WM as evaluator”距离真正取代真机评测还有距离。整体是这一波 WM-VLA 工作里相对少见地把”训练数据分布偏置”作为根因来攻的,方向值得跟。

推荐指数:

DexHiL#

Arxiv ID 2603.09121
幻觉翻译 2603.09121

HIL DAgger 协同纠正"臂 + 灵巧手"的灵巧操作微调

DexHiL 的关心点是:HG-DAgger / HIL-SERL / Sirius 这些 HIL 方法都只对 parallel gripper 工作,DexGrasp-VLA 这类做了灵巧手但是把手单独拉出来用一个独立 grasping 网络,arm 和 hand 是分开纠正的。DexHiL 把”臂 + 灵巧手”作为一个整体系统在 DAgger loop 里同时接受人类干预。具体做法是 ArUco 标记追踪 + 动捕手套混合的轻量 teleop 接口(policy 跑 20Hz、teleop 30-90Hz 异步),手部 retarget 走两阶段——先非拇指四指反 pinch-like 姿态、再加 thumb residual + 几何正则;训练上用 intervention-aware reweighting 把 50% 的 batch 集中在干预样本上,并且只保留干预后的 recovery 段(不要纠正过程那段)。Ablation 显示主要 driver 就是这个 reweighting,不只是数据量增加。

最大的 Limitation 是 scalability:DAgger loop 本质上要求人类持续在线,论文 claim 的 35% 人力降低相对的还是 HIL 流程,绝对的人力门槛仍然很高,不适合大规模扩展。但是在”既要 dex hand 又要在线纠错”这个设定下,DexHiL 把 arm + hand 真正联合起来在 HIL 框架里这一点是直接而合理的。

推荐指数:

CORAL#

Arxiv ID 2603.09298
幻觉翻译 2603.09298

冻结基模 + 每任务一个 LoRA + 语言决定路由的多任务 VLA

CORAL 做的就是 EAI8 在批 MergeVLA 时讲的那个”人间正道”的具体实现:先把 embodiment-aware 基模训好然后整体冻结,每个新任务再训一个 r=16 的小 LoRA(VLM encoder 和 action head 的 attention 都注),推理的时候直接根据 language instruction 决定加载哪个 LoRA,整个 routing 是 deterministic 的没有 learned gating,loaded LoRA 还会被 fold 进底模权重所以 zero FLOPs overhead。这条路对比 MoRE / HiMoE-VLA 这种 learned-gating MoE 的 VLA 是更干净的取舍,对比 MergeVLA 那种把 LoRA 互相 merge 的故事则更直接——既然多任务有冲突,那就 parameter-level isolation,不要硬 merge。

但是论文自己也点出了真正的核心问题:CORAL 只做了参数级隔离,feature representation 仍然来自共享冻结骨干,语义 / 视觉冲突在表征层并没有被解决。等到任务数量上百、底模又没在足够 diverse 的数据上预训过,per-task LoRA 拼不出来的时候,瓶颈就会暴露在底模本身,而不是在路由策略上。换句话说 CORAL 是”在底模够强的前提下”才成立的方案。

推荐指数:

Robotic Scene Cloning#

Arxiv ID 2603.09712
幻觉翻译 2603.09712

Grounding-DINO + SAM2 + DepthAnything + ControlNet 编辑轨迹图做数据增强

RSC 的故事是”已有 demo 数据上把目标物体换成 user 实际场景里的新物体”,做法很标准 modular:CLIP + Grounding-Resampler 提视觉特征,Grounding-DINO + SAM2 出 mask 控 layout,DepthAnything + ControlNet 控 pose,再用 DDIM inversion + Progressive Masked Fusion 把新物体融进原图。比 GreenAug 这种纯文本 prompt 的增强成功率高 35%,比 RoboTransfer 的 texture 替换能做更多 shape 变化。

问题是这条路天然有上限:作者自己说只能处理”中等程度”的 shape 变化,复杂形状对不上;而且整套 pipeline 把 4-5 个基础模型串起来,部署成本和潜在错误源都很高,本质是在用大量基模的能力去补”为什么我的 demo 数据少”这个根因。比起 RSC 这种 image-level 增强,TwinRL-VLA 那种从手机直接重建数字孪生再做 RL 的方向更可持续。RSC 当个 demo-阶段的 augmentation tool 还可以,论文性质 contribution 有限。

推荐指数:

DiT4DiT#

Arxiv ID 2603.10448
幻觉翻译 2603.10448

抽 Video DiT 中间 denoising 特征作为 Action DiT 条件的双 DiT VLA

DiT4DiT 是 Video WM + VLA 这条线的又一变体,差异化点在”不取最终生成帧、而是取 video DiT denoising 中间步的 hidden feature 作为 Action DiT 的条件”。具体是 Cosmos-Predict2.5-2B 当 Video DiT、GR00T-N1 当 Action DiT,跨注意力把 video 特征和 robot state 喂给 action 端。训练上有个 Tri-Timestep 设计:video 用全程均匀 timestep、特征抽取固定在某个 deterministic timestep(保证条件稳定)、action 用 Beta 分布偏向关键控制阶段,三个时间轴解耦。

和 Cosmos Policy “直接拿视频模型当策略 + 把 action encode 成 latent frame”的极简思路相比,DiT4DiT 走了相反方向——保留独立的 Action DiT,但是让它去吃 video DiT 中间状态。问题是消融里揭示这个方案”对 denoising step 数极其敏感”,性能随中间抽取步数变化是单调掉,部署时 A100 上只剩 6Hz(GR00T 同条件 13Hz)。换言之这个 mid-denoising feature 的 trick 一旦超出训练时设定的窄区域就不稳,是 design choice 自带的脆性,而不是工程没调好。

推荐指数:

FAR-Dex#

Arxiv ID 2603.10451
幻觉翻译 2603.10451

把 demo 拆成 motion / skill 段做合成 + 一致性蒸馏 + 元素级残差 RL 的灵巧手

FAR-Dex 两段。第一段 FAR-DexGen 关心的是 DemoGen / MimicGen 这种增强不能保留细粒度手-物交互:把每条 demo 切成 motion 段(自由空间趋近)和 skill 段(接触 / 操作),motion 段对 arm 关节走 IK 重生成、hand 动作完全保留,再用 motion planning 把段拼回去,在 IsaacLab 里做 domain randomization 和碰撞检测扩充,质量评估 87.9%(DemoGen 74.5%、MimicGen 68.3%)。第二段 FAR-DexRes 把 DP3 base 用 consistency model 蒸成单步推理,再挂一个 multi-head attention 的 residual policy,关键是输出 element-wise 的残差权重 σ_t——每个动作维度独立调整,区别于 ResiP 用单一 scaling factor,是这篇里最实质的差异化设计。

最大的 Limitation 是 real - sim gap:仿真 83–95%、真机 80–90%,这条”真机 demo → 仿真合成 → 真机部署”两段式 sim-to-real 路径累积误差是必然的,而且整个 pipeline 严重依赖 IsaacLab 的物理 fidelity 和 domain randomization。把 FAR-DexGen 当 dex hand 数据增强组件用比较合适,FAR-DexRes 的 element-wise residual 是 ResiP 之后比较干净的一步。

推荐指数:

FutureVLA#

Arxiv ID 2603.10712
幻觉翻译 2603.10712

3D-VAE + 视觉/动作流解耦的 Joint Visuomotor 嵌入预训

FutureVLA 名字和前面的 FUTURE-VLA 撞但是关心的问题不同:它针对”显式 future-guided 方法(WorldVLA 这种)会被任务无关的视觉细节占走容量”以及”隐式 latent 方法(LAPA / UniVLA / Villa-X)依赖稀疏帧对、时间连续性差”两个老问题。做法是 17 帧短 clip 过冻结 3D-VAE token 化,通过 Joint Visuomotor Gating 让 motor token gated-attend 到 visual token(避免视觉主导),训练目标是双流:视觉流重建首帧、动作流预测 action chunk,post-training 时再接一个 adapter 对齐到下游 VLA 的中间表示。15.6M 帧 OXE+LIBERO 数据,三天 16 卡 A100。

和已经覆盖的 BagelVLA / Cosmos Policy / FUTURE-VLA 在大方向上同属”video 监督 → 改善 VLA”那类,但是切法很具体——用解耦双流 + gating 机制对抗”视觉特征反过来主导 motor 预测”这个具体问题,是这条线里相对工程化解法。Limitation 论文自己也说了:纯靠视觉约束在 contact-rich 任务(擦白板这种)上不够,需要触觉 / 力矩。这个其实是所有 vision-only 监督路线绕不开的结构性问题,不是 FutureVLA 独有。

推荐指数:

Thousand-GPU Embodied Training Recipe#

Arxiv ID 2603.11101
幻觉翻译 2603.11101

把 GR00T-N1.5 训练时间从 15h 压到 22min 的千卡基建

这篇是工程报告,价值在系统优化的具体细节而不是算法。主要 stack:上层用 Ray 驱动的弹性数据湖 + Yunhai 高性能存储 + 3.2T RDMA 解 I/O 瓶颈(之前会造成 NCCL timeout);中层 variable-length FlashAttention 去掉 padding 浪费(188% 提速)+ data packing 把多样本塞同序列 + π₀.₅ 架构级改造(165%)+ FP8 block-wise 量化(140%);上层”RL-VLA3”三级异步把 env 交互 / trajectory 生成 / policy 更新解耦,吞吐再加 126%。在 GR00T-N1.5 上单轮训练 15h → 22min(40x)。

定位很清楚——把 LLM 训练社区已经成熟的工程套路(async pipeline、FP8、packing、FlashAttn)系统化搬到 VLA。算法侧没有新东西,但是大规模 VLA 训练社区里这种 end-to-end 的工程报告并不多见,做基建的可以直接当 cheat sheet。Limitation 也很坦白:128-256 卡之后 sublinear,通信开销吃掉收益,所以”千卡”在实际部署里更多是 marketing 词,真正能拿到的高效率区间还在几百卡量级。

推荐指数:

ResWM#

Arxiv ID 2603.11110
幻觉翻译 2603.11110

把 World Model 的 dynamics 改成 condition on 残差动作

ResWM 的切入点很具体:传统 WM(Dreamer 系)的 latent dynamics condition on 绝对动作 ata_t,但是绝对动作 distribution 和任务强相关、方差大,所以 imagination rollout 在控制上抖。论文把整个 RSSM-based WM 重新 condition 在 residual action δat\delta a_t 上,policy 直接预测 δat\delta a_t,最终 at=tanh(at1+δat)a_t = \tanh(a_{t-1} + \delta a_t);同时用 Observation Difference Encoder 显式建模相邻帧 difference 配合残差动作。这个设计相当于显式给 RSSM 注入了一个 temporal smoothness prior,搜索空间收窄,DMControl 上比 Dreamer / TD-MPC / TACO 都好(500K 步 925 vs 885)。

和 ResAct 这种把 residual 放在 actor-critic 上的工作不同,ResWM 是把 residual 放进 imagination dynamics 本身。Limitation 也直接来自这个设计:每步动作变化受 δa\delta a 上限约束,遇到突发干扰或急停场景反应不过来,得几步才能完成大幅控制切换。把 ResWM 当 contact-light、动作平滑度优先场景下的 RSSM 选择是合适的,但是接触 / 急动场景就别硬上。

推荐指数:

RoboClaw#

Arxiv ID 2603.11558
幻觉翻译 2603.11558

正向 / 反向动作配对实现自重置无人值守数据循环的 VLM Agent 框架

RoboClaw 关心”VLA 数据采集、训练、部署是分离流程,不一致 + 需要人 reset 环境”这个问题,核心 idea 是 Entangled Action Pairs:让每个 forward 操作 behavior 配一个 inverse recovery,构成自重置 loop,从而可以连续在线采数据不需要人。整个系统是一个三层 agent(Policies / Tools / Skills)+ 三块 memory(role / task / working)用 CoT 推理调用 tool。下层 policy 用 π₀.₅ + LoRA r=16 训。

跟 RoboCopilot / Genie Centurion 这种半自动闭环比,RoboClaw 完全去掉了人工 reset;跟 SayCan / HAMSTER 这种纯规划比,它在 execution 期还能监控、retry、recover 或者 escalate 给人。EAP 这个设计是真有价值——很多 VLA 工程实际上 80% 时间在写 reset 脚本。

Limitation 也严苛:要求每个任务都有可行的 inverse reset,倒水、切菜这种不可逆任务直接退化成需要人;早期训练阶段 recovery policy 没学好之前还是要 HITL 兜底;以及云端 VLM 延迟问题。把它当 data collection / deployment 的 framework 参考是合适的。

推荐指数:

SaPaVe#

Arxiv ID 2603.12193
幻觉翻译 2603.12193

相机动作 / 操作动作解耦的真主动感知 VLA

SaPaVe 是 EAI9 里 ActiveVLA 之后再做主动感知 VLA 这一方向上的合理推进。区别于 ActiveVLA”在点云上虚拟换视角再重渲染”,SaPaVe 直接预测真实 pitch/yaw 的相机动作,并且把相机动作头和操作动作头解耦——把 camera control 视为 embodiment-agnostic 的子动作空间,先在 200K 合成数据集 ActiveViewPose-200K 上用 LoRA Adapter 单独训出语义化相机控制,再冻结这个 adapter 在真机 + 仿真混合数据上训操作头。同时配套放出 ActiveManip-Bench(12 任务 / 100 物体 / 20 场景),这是首个把”主动感知能力”作为评测维度的 VLA Benchmark。

bottom-up 这个训练顺序——先建立 perception prior 再做 manipulation——比 ActiveVLA 那种端到端 modular pipeline 干净。最大的 Limitation 是静态底座设定:humanoid 不会动,工作空间被固定 reach 限制,所谓”主动”还是只在头 / 颈 / 上半身的 view space 里活动。一旦扩展到 mobile manipulation 这套 decoupled head 怎么和导航动作 share 是开放问题。整体作为主动感知 VLA 方向的 Benchmark + baseline 是值得关注的工作。

推荐指数:

HumDex#

Arxiv ID 2603.12260
幻觉翻译 2603.12260

IMU 轻量动捕 + MLP 学习式 fingertip→joint retargeting 的灵巧手遥操作

HumDex 关心 dex hand 数据采集硬件瓶颈:mocap 室固定、exoskeleton 重、VR 一旦手出 FOV 就丢。方案是 15 个 IMU 做全身 motion + 一个 MLP 把五指 fingertip 位置(15D)直接映到 20 自由度关节角,监督来自 ~20k 优化式 IK 求出的样本。训练分两段:先用人类数据 pretrain ACT 策略,再用真机数据微调跨 embodiment gap。

跟 RoboPaint / DexImit / VideoManip 这一波”video → dex hand”的工作相比,HumDex 的差异在传感方案是 IMU + 学习式 retargeting 而不是单目视频重建,避开了视觉重建的精度问题;和传统 optimization-based retargeting 相比,learning-based 不需要逐任务调参,论文做了 head-to-head 实验验证。

Limitation 自己写得很直白:训练数据规模上不去(实验只能到 ~20k 帧)、目前覆盖的手部姿态比较有限、力敏感任务还没解决。把它当作”dex hand 遥操作 + retargeting 的硬件 + ML 组合方案”参考是合适的,作为通用 Human-to-Dex 范式还需要扩。

推荐指数:

Ψ0\Psi_0#

Arxiv ID 2603.12263
幻觉翻译 2603.12263

Ego 视频预训 + 机器人后训 + AMO 底层控制的三层 Humanoid VLA

Ψ0\Psi_0 反对一个常见做法:把人类 ego 视频和真机数据 naive co-training,理由是两者运动学差距太大,混训会污染表示。它给出的解法是分段:先在 800 小时 EgoDex 上做 next-action 预训(48 DoF task space),再在 31 小时 Humanoid Everyday 上用 Flow Matching 做后训(36 DoF joint space),最后任务级 30 小时遥操作微调。System 上是三层:System-2 是冻结的 Qwen3-VL-2B、System-1 是约 500M 的 MM-DiT 作 Flow Matching action expert、System-0 是 AMO 下身 RL controller。论文 claim 用了大约 Pi-0 / Pi-0.5 一成的真机数据,成功率反而高 40%。

跟 Pi-0 / Pi-0.5 的关键差别有两点:用 MM-DiT 而不是普通 DiT 做 VL-action fusion、用训练期 RTC 而不是测试期 guidance 解推理延迟。整体属于 Humanoid VLA 里比较有自己技术取舍的工作。Limitation 论文坦白:算力卡死了进一步 scale 人类视频和真机数据,硬件 payload 限制更复杂的 manipulation 任务范围,所以”少数据多收益”这个 claim 在更大数据 / 任务规模下还没有验证。

推荐指数:

TacVLA#

Arxiv ID 2603.12665
幻觉翻译 2603.12665

紧凑触觉 token + 接触感知 gating 的 PaliGemma VLA

TacVLA 差异化在触觉表征:之前的 tactile-VLA 多把触觉当 image-like 输入(密集像素),TacVLA 把 15×8 触觉阵列用 MLP + 2D 位置编码压成 36 个紧凑 token,并加一个 contact-aware binary gating——只在检测到接触时才让触觉 token 参与 attention,否则直接 zero out。底模是 PaliGemma + Pi-0.5 风格 Flow Matching action expert,OpenPI 上 LoRA 微调 1 万步。

跟 EAI10 内已经覆盖的几篇触觉 VLA 比有清晰位置:FD-VLA 是不要真传感器、用蒸馏假装力 token;FAVLA 是双频 async + 力反馈直接进特征;UniForce 是跨传感器统一表征。TacVLA 的取舍是”真传感器、压缩到少 token、靠 gating 抑制无关信号”。Limitation 论文自己点出来很关键:binary threshold 是 hard heuristic,根本不是 learnable 的,gradually 调整模态重要性需要 learnable gating;以及触觉传感器空间分辨率低天然限制细粒度 contact 形状推理;并且只测短程接触任务。整体设计 OK,但是 binary gate 这一步的 hack 性质是后续工作要解决的明显问题。

推荐指数:

LATENT#

Arxiv ID 2603.12686
幻觉翻译 2603.12686

用不完整人类网球片段学人形动态球类技能的 Latent Action 框架

注意 LATENT 这里的”latent”和 LAPA / UniVLA / CARE 那一类讲的”无 action 标签预训”不是一回事,它属于 athletic humanoid(更像 BeyondMimic / HumanX)的分支:因为网球速度 15-30 m/s、接触窗口毫秒级,根本不可能做 humanoid teleop,而完整人类比赛 mocap 也很难,所以只能用”不精确(手腕不准)+ 不完整(没任务上下文)“的网球动作片段。三阶段流水线:先在 5 小时业余球员数据上预训 motion tracker(故意去掉手腕关节,留给后面纠正),再用条件 VIB encoder-decoder 在线蒸出一个 state-dependent prior 的连续 latent 空间,最后高层 PPO 在 latent space 上规划同时输出手腕直接修正,并且加一个 “Latent Action Barrier” 用 state-dependent Mahalanobis 距离约束探索。

和 PULSE / ASE / AMP / Vid2Player3D 这种 character animation / 物理控制方向的工作位置接近,区别是显式约束 latent 探索范围避免 mode collapse 成抖动序列。Limitation 写得直白:真机部署完全依赖 OptiTrack 做机器人和球的 state,离开实验室就废,论文自己提议 active vision 是出路但是没做。把这篇当作”用不完整人类数据学高动态技能”的设计范例值得读,但是和 manipulation VLA 关联有限。

推荐指数:

AnchorVLA4D#

Arxiv ID 2603.12730
幻觉翻译 2603.12730

Anchor 首帧 + 当前帧轻量空间编码的 RGB-only VLA

AnchorVLA4D 名字带 4D 但是其实只用两帧(首帧 anchor + 当前帧),通过 Any4D 这个轻量空间 encoder 联合编码后拼到 Qwen2.5-VL 的 hidden state 上,下游 ScaleDP 出动作。问题切得很具体:现在 VLA 常见两个失败模式——夹爪遮挡时模型”忘了”被挡住的物体,以及在同一个空间位置重复抓失败说明缺空间记忆。Anchor 首帧就是给一个永久参考。差异化也清晰:DepthVLA / GeoVLA / 3DS-VLA 都需要额外深度或点云,ST-VLA 要塞 30 帧历史延迟很高,AnchorVLA4D 只两帧 RGB、推理多 16% 时间。

Limitation 论文自己写得很直接——这套设计天然是把”初始状态”当 anchor,但是当执行 state drift 远了(比如需要大角度旋转 grasp)anchor 就反过来变成偏置,劝模型回到原始 state 反而提高失败率。这是 anchor-based design 不可避免的代价。把它定位成”低成本补 RGB VLA 空间记忆”的方案是合理的,不要指望它解决长程 / 大幅 state 变化的任务。

推荐指数:

Easy-IIL#

Arxiv ID 2603.12769
幻觉翻译 2603.12769

用 model-based 助手代替人类做大部分 IIL 采集

Easy-IIL 想降的是 IIL 的人力门槛:HG-DAgger / Sirius 那一类要求人在线持续监督和介入,劳动量很大。它的方案是从一条人类 demo 初始化一个 model-based assistant expert,让 assistant 接管大部分采集,人只在接近失败时介入;训练上用 random action-chunk switching 在 novice / assistant 间切,并把 novice policy 出的动作 mask 掉只学人 + assistant 的轨迹,下游用 Diffusion Policy。

跟 DexHiL(同一卷里另一篇 HIL)相比定位不同:DexHiL 是把 arm + dex hand 都在 HIL loop 里精细纠正,针对的是 dex 灵活手;Easy-IIL 是把人换成 model-based 替身,针对的是降人力,4-5x 减人力但是 task 复杂度被 assistant 模型上限钉死。论文也承认这一点——model-based 方法随数据量增大会被端到端策略超过,所以 Easy-IIL 在很复杂的长程任务上没法救。把它当成”任务相对简单时的 HIL 省人力开关”是合适的。

推荐指数:

RoboStream#

Arxiv ID 2603.12939
幻觉翻译 2603.12939

VLM + SAM3 + 物体级时空图记忆的 System-2 规划器

名字带 Stream 但是和 StreamVLA / DynamicVLA 这种端到端流式 VLA 完全不是一路:RoboStream 是 System-2 planner,做法是 VLM 先识别任务相关物体、SAM3 出 mask,每个物体编一个 STF-Token(视觉 + centroid + Gaussian shape + 时间戳),然后维护一张 Causal Spatio-Temporal Graph 来记录物体身份和动作触发的状态转换,最后让 VLM 在这张图上做 CoT 规划出 6-DoF 动作。整套 training-free,跑现成 Qwen3-VL。

把这个故事拆开看就是”VLM + 多个基模 + 一个 explicit memory graph”的拼装 pipeline,本质和 RoboBrain 系或者 SayCan 之后这一波 System-2 框架在结构上类似,差异是把 memory 改成 explicit graph 节点存物体身份。论文自己承认最大的问题:decoupled planning-execution 系统的固有张力——语义规划再准、底层执行 / 抓取不稳一样会失败。在 VLA 端到端越做越强的当下,这类多模块 System-2 框架的存在意义主要是 demo-friendly,不是技术上有 insight。

推荐指数:

REFINE-DP#

Arxiv ID 2603.13707
幻觉翻译 2603.13707

高层 DP 规划器 + 低层 RL 控制器联合 RL 微调的 humanoid loco-manip

REFINE-DP 关心人形 loco-manip 部署时一个具体痛点:高层 Diffusion Policy 规划器和低层 RL 控制器训得分离,两边 distribution 一旦 drift(command tracking 不准)误差会沿时间轴累积,但是单纯 scale demo 又太贵。它的解法是 PPO 在一个 diffusion-process-augmented MDP 上同时微调 planner 和 controller——把每个 denoising step 当成一个 decision step,从而 planner 的命令分布和 controller 的实际跟踪能力联合演化。比”只微调 planner”快约 50% 收敛、跟踪误差也更小。

核心 insight 是合理的:以前 hierarchical loco-manip 默认 controller 已经”训好不动”,但现实里 planner 的命令分布会偏离 controller 训练时见过的范围,joint fine-tune 直接对症。最大的 Limitation 是 sim2real:仿真 90%+,真机 door 70% / box transport 50%,主要被物体观测噪声和 locomotion 抖动 / 滑动这种未建模动力学吃掉。Joint fine-tune 这条路是对的,但是真机部署需要更强的 dynamics randomization 配合。

推荐指数:

ST-VLA#

Arxiv ID 2603.13788
幻觉翻译 2603.13788

3D 轨迹 + 平滑空间 mask 作中间表示的层级 VLA

ST-VLA 的 motivation 比较明确:现有 hierarchical VLA 用 2D 轨迹或 mask 当中间表示,丢掉 3D 几何与时间连续性。它把中间表示升维到 4D(3D 轨迹 + 时间),核心两件事——把 2D guidance lift 到 3D path 并以 cylinder 围出 spatial tube;用 cross-modally aligned smooth mask 替代 hard mask 让 boundary 平滑,避免下游 policy feature 抖。架构是 Qwen3-VL-4B 微调成 ST-VLM 出 sub-instruction + 3D trajectory,下游接专用 3D policy(3DDA / 3DFA),数据集 ST-Human 30 万人类操作 episode、14 任务、4.3M 样本带 2D/3D/4D 多层标注。

跟 RT-Trajectory / Track2Act 这类 2D 轨迹方法比明显是个升维;跟纯 3D value map 比保留了显式时间结构。一个值得注意的设计是 smooth mask 可以和 vanilla policy 兼容、不需要每个 policy 重训,这让方法可以作为外挂中间层使用。Limitation 论文坦白:单视图 + 重度依赖 SAM2,clutter 场景里分割崩了整个流程就崩;扩 multi-view 还是 future work。整体在 hierarchical VLA 的中间表示设计上做得比较扎实。

推荐指数:

OmniClone#

Arxiv ID 2603.14327
幻觉翻译 2603.14327

免标定 retargeting + 18 类细分诊断 Benchmark 的人形遥操作

OmniClone 的两件事:第一是放出 OmniBench——首个把 humanoid teleop 切成 18 个细分类别(loco-manip、跳跃、下蹲等等,按难度分级)的诊断 Benchmark,去对抗”现有 humanoid 评测都是粗粒度聚合数字、看不出哪种动作崩了”的现状;第二是 OmniClone 系统本身,Transformer Actor-Critic + DAgger 蒸出 student policy,30 小时数据 + 80 GPU 小时单卡可训。差异化点在 subject-agnostic retargeting:通过初始 calibration frame 算 dynamic scaling factor,省掉每个新操作员的耗时标定,MPJPE 降约 20mm;以及 control-source agnostic 的接口——同一份 policy 兼容 teleop / 动作回放 / VLA 上游驱动。

数据 recipe 发现也值得注意:60% 站姿操作、40% 在动态动作和 locomotion 间均衡,论文 claim 这个”小比例调整”对泛化影响巨大。Limitation 也直接:高难度跳跃只有 75% 成功率,整体 balance 配方天然牺牲了 peak agility,覆盖极端动态区间还不行。在 humanoid 遥操作 / WBC 这一波工作里 Benchmark 部分相对值得直接拿来用。

推荐指数:

R3DP#

Arxiv ID 2603.14498
幻觉翻译 2603.14498

VGGT 3D 特征异步 fast-slow 蒸馏给 Diffusion Policy

R3DP 的核心 trick 是 fast-slow 异步:VGGT 这种 3D 基础模型几何先验很强但是太重,每帧跑不起,所以稀疏关键帧(间隔 τ=4-8)才走 VGGT,中间帧由一个轻量 TFPNet 用历史上下文 + 当前 RGB 预测出 VGGT-equivalent 的 feature;再加一个 PRoPE-based 的多视角融合(显式吃相机内外参,不是简单 concat)。整体替掉 Diffusion Policy 的视觉编码器,VGGT 和 TFPNet 都冻结。

定位是 EAI10 里”想用大基模但是怕慢”这一类工作的 3D 版本——不蒸 latent action 而蒸时序几何特征。Limitation 也直接:TFPNet 是 task-specific 训出来的,τ 的取值要 trade off 速度和精度,真机收益(71.7% vs 66.7% DP+VGGT)相对加复杂度而言偏小,换言之 VGGT 直接每帧跑也只是慢、效果不一定差很多,async distillation 主要换的是 latency 而不是精度。

推荐指数:

CoRL#

Arxiv ID 2603.14811
幻觉翻译 2603.14811

SFT + GRPO + Cross-View Reward 的多机协作空间推理

注意这里的 CoRL 不是会议名也不是 Curriculum RL,是 Collaborative Reinforcement Learning:多个 ego 视角 agent 把各自局部观测合并成世界级理解。两阶段——CoT-SFT 先建推理基线,再用 GRPO 加上 Cross-View Spatial Reward 做强化。配 E2W benchmark 评 global counting / relational reasoning / action-oriented grasping。整体属于 VLM 上的空间推理增强,跟典型的 manipulation VLA 关系不大,且依赖多机标定多相机才能用。

推荐指数:

ForceVLA2#

Arxiv ID 2603.15169
幻觉翻译 2603.15169

Cross-Scale MoE + 力 prompt 引导任务分解的 hybrid 力位 VLA

ForceVLA2 是 ForceVLA 续作,关心的是把力从单纯感知输入升级为主动闭环控制信号。架构双层:长程层用 PaliGemma/SigLIP 接力 prompt 引导任务分解,短程层多模态 encoder 吃 6D pose + 6D 力,并且让力信号 bypass 上层 VLM fusion 直接进 reactive 通路;输出层是 Cross-Scale MoE 在 visual / state / force 专家间路由,最终走 Flow Matching 出关节位置-力联合命令 + subtask 进度。训练数据是用带力反馈的 GELLO 遥操作的 1000 条轨迹覆盖 5 个接触任务。

EAI10 这一卷里面力相关 VLA 多得有点扎堆:FD-VLA 直接蒸出假力 token 不要传感器、FAVLA 做双频 async + 力进特征、TacVLA 用 binary gating 控触觉 token、CompliantVLA-adaptor 在外面挂 VIC。ForceVLA2 的位置是”真力 + 力 bypass + MoE 路由”,这个 force-bypass 设计逻辑上是对的——力闭环就该绕开 VLM 的高延迟通路。但是论文没有 head-to-head 比这些同期力相关 VLA,只对到 π₀ / π₀.₅ / 自家 ForceVLA,66% vs 18% / 31% / 35%,所以”力为什么有用”被对比清楚了,“我和 FD-VLA / FAVLA 谁更好”是没回答的。Limitation 论文自己点出:力交互对摩擦 / 接触建模太敏感,仿真结果不可信,所有验证都是真机 1000 条轨迹规模——意味着这条路 reproducibility 一直是问题。

推荐指数:

SimDist#

Arxiv ID 2603.15759
幻觉翻译 2603.15759

只用真机 15-30 分钟微调 dynamics 的 sim-to-real 分摊

SimDist 的 insight 比较简洁:sim 和 real 之间,全局任务结构(物体位置、语义角色、距离)迁移得相当好,差的是局部 dynamics。所以仿真预训练时把 encoder / reward / value 学好都冻住,真机只用 15-30 分钟 on-policy 数据通过 L2 latent matching 微调 dynamics 模型一项。预训练阶段在仿真里跑 10 万+ 多样轨迹(混 expert + 次优 + 加扰动),让 reward/value 见过失败和恢复;真机跑 MPPI 规划做闭环系统辨识。

跟”端到端 sim2real fine-tune VLA”或者”全模型在线 RL”那种暴力路线相比,SimDist 把 long-horizon credit assignment 这件事整体让仿真承担、真机只解 short-horizon system identification 是合理的工程拆分。Limitation 论文自己点明:单任务 + 高保真仿真 + 需要 privileged state 才能预训,多任务 / 低保真仿真都没验证。这条路线适合”已有强仿真 + 新真机平台”快速对齐的场景,不适合从零搞通用 policy。

推荐指数:

OmniReset#

Arxiv ID 2603.15789
幻觉翻译 2603.15789

用多样化初始 state 分布替代 curriculum / demo 的暴力 RL

OmniReset 的赌注是”不用 curriculum、不用 demo、不用 per-task reward shaping,只要 reset 状态分布够多样、batch 够大、并行够暴力,dexterity 就会涌现”。具体做法是预先 sample 出覆盖 reaching / near-object contact / stable grasp / near-goal 四种交互模式的可行 reset 状态,缓存在 GPU 上,PPO + asymmetric actor-critic(actor 受限观测、critic 用特权信息)+ gSDE 探索噪声 + 任务无关的 sparse + dense reward 混合,超参跨任务全固定。最后用 student-teacher distillation 把 state-based expert 蒸到 RGB visuomotor 上(8 万条仿真轨迹 + 重 randomization)。

核心 insight 实际上是把 RL exploration 难题换成了 reset state 多样性问题,逻辑上说得通:训练分布只要覆盖 inference 时会遇到的状态,sparse reward 就能传得起来。Limitation 也很直接——整个 pipeline 依赖一个 grasp sampler 给出可行 reset,复杂非凸物体上 sampler 一崩整个 reset 分布就毁;以及 sim-to-real gap 大,Drawer Insertion 仿真 90% 真机只剩 15%,RGB student 也明显弱于 state expert。当作”如果有强仿真 + 强 grasp 采样 + 大算力”的暴力 RL 配方参考是合适的。

推荐指数:

RARRL#

Arxiv ID 2603.16673
幻觉翻译 2603.16673

PPO 学一个 LLM agent 的"该不该 reason / reason 多少"调度器

RARRL 不是 retrieval-augmented RL,关心的是 LLM agent 上一个具体问题:什么时候调 LLM 推理、什么时候直接执行、调的话给多少算力。它把这件事 formalize 成 MDP,用 PPO 学一个 orchestration policy 在每一步决定”reason vs act”以及 reason 的 role(planning / verification)和 budget;底下的 LLM 模块完全冻结当黑盒。ALFRED 上推理时间降 60%+ 而成功率不掉。

属于 LLM-agent / SayCan 路线下的工程优化,跟 VLA 关系不大。Limitation 也很直白:天花板被底下的 execution 和 reasoning 模块本身 bound 死,调度策略再聪明也救不了底层弱 policy。

推荐指数:

MolmoB0T#

Arxiv ID 2603.16861
幻觉翻译 2603.16861

Molmo2 + 1.7M 纯合成数据零样本到真机的 VLA

MolmoBot 想直接挑战社区的”Sim-only 训不出 work 的真机 VLA”这个共识:放弃真机数据,全靠 MolmoBot-Engine 的程序化数据管线生成 170 万条合成轨迹,覆盖 9.4 万个程序化生成房屋 + 1.1 万个独立物体,重 domain randomization 但是不追求 photorealism,赌的是”环境多样性 >> 渲染真实度”。架构给了三档:MolmoBot 是 Molmo2-4B + DiT Flow Matching action head(cross-attn 接 VLM 中间 hidden state)、MolmoBot-Pi0 是相同结构但用 π₀ 拓扑做对照、MolmoBot-SPOC 是轻量 Transformer + 离散 quantile bin 动作,给端侧部署。

价值在于 zero-shot 真机的 claim 如果稳,这是对”必须真机大数据”主流路线的一次实质打击。Limitation 也写得直接:完全被仿真器能力卡死,只能做刚体 + articulated,contact-rich / 软体根本进不来——这恰好是 VLA 现在最在意的方向。所以这条路的现实定位是”在仿真器 cover 得到的任务范围内,多样性可以替代真机数据”,而不是”sim-only 解决一切”。

推荐指数:

ManiTwin#

Arxiv ID 2603.16866
幻觉翻译 2603.16866

10 万级带抓取 / 功能 / 语言标注的仿真就绪 3D 资产数据集

ManiTwin 是数据集工作。问题切得清楚:Objaverse / ShapeNet 量大但是没物理属性、PartNet-Mobility 物理可用但是规模小且没语言标注,没有数据集把”规模 + 物理可用 + 抓取标注 + 功能点 + 语言”五件事一次凑齐。论文用一条全自动 pipeline——CLAY 做图生 3D(约 45s/物体)+ VLM 做质量筛选和功能 / 抓取点语义标注 + GraspGen 生成 6-DoF grasp + SAPIEN PhysX 仿真验证物理稳定性 + 人工抽检——产出 10 万级带完整标注的资产。

整条 pipeline 全是把现成基模和工具串起来,没有新的模型训练,定位就是把数据交付出来,对做 sim-side VLA / dex grasping / RoboCasa 类工作的人是直接可用的资产。Limitation 也直接:只覆盖刚体可抓取物体,articulated / deformable 全不在范围;物理属性是 VLM 推断的不是真测量;grasp point 标注准确率只有 84.8%。把它当 Objaverse 的”manipulation-ready”分支用即可。

推荐指数:
Paper Reading: Embodied AI 10
https://axi404.github.io/blog/paper-reading-eai10
Author 阿汐
Published at February 5, 2026
Comment seems to stuck. Try to refresh?✨