Paper Reading: Embodied AI 10

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

Embodied AI Paper Reading

ALOE#

Arxiv ID 2602.12691

幻觉翻译 2602.12691

Action chunk 级 TD Bootstrap 的 VLA Offline RL

ALOE 针对 VLA 常用的 action chunk 输出做 offline RL，核心是在 chunk 粒度做 TD bootstrap 而不是只看最终任务成败。从流程上来说还是比较简单的，还是先进行 warmup，然后 rollout 一些数据，之后训练 critic。本身这里 RL 的方式其实就是用 Reward 去给 Action 信号的监督进行了加权，也就是类似于 Diffusion-NFT 的做法。里面还有一些 trick，值得一看。

推荐指数：

DM0#

Arxiv ID 2602.14974

幻觉翻译 2602.14974

多 Stage CoT Pi-like VLA

DM0 本身的思路如图所示，其实就是接受 VL 输入之后进行多轮推理，然后之后输出 Action；另外一种模式就是不推理。本身 DM0 在训练的时候会 Co-training，并且有很多的 VQA 以及各种数据拼盘，本身在他们自家 RoboChallenge Benchmark 上面性能也还算不错。

推荐指数：

RynnBrain#

Arxiv ID 2602.14979

幻觉翻译 2602.14979

2B / 8B / 30B 的具身时空 VLM 基础模型

RynnBrain 是一个 open-source 具身时空 VLM 基础模型，提供 2B / 8B / 30B 三个档位，覆盖 ego 理解、空间时间定位、物理推理、物理感知规划四件事。属于 RoboBrain 2.5 / Thinker 同一类基础模型。相关论文评分按照惯例，具体细节可以看论文内容。

推荐指数：

FUTURE-VLA#

Arxiv ID 2602.15882

幻觉翻译 2602.15882

同时预测 Action 和 Visual Token 的 OpenVLA-like VLA

FUTURE-VLA 主要实现的是 AR 来 unified 预测未来以及 action，同时对于 encoder 进行了一些压缩，使得可以接受比较长的历史输入。然后对于输出，对于 Action 使用 FAST token，对于 Visual 使用 TiTok 的 Token，然后进行 AR。本身思路上比较清晰，但是选择 Qwen 而不是一些 UMM，本身感觉还是比较迷惑的，可能还是从拟合以及基模性能的角度来理解会合理一些。

推荐指数：

DreamZero#

Arxiv ID 2602.15922

幻觉翻译 2602.15922

DiT 预测世界 + 动作的 World Action Model

DreamZero 本身是和 Cosmos Policy 同思路的 WM-VLA 模型，也就是俗称的 WAM。本身的思路比较类似，但是预测的内容更加收敛，直接使用 14B DiT 预测 Future Frame 以及 Action，没有像是 Lingbot-VA 一样解耦 IDM 出来而是直接端到端，并且使用 teacher forcing 训练。本身里面还包括了一些加速的处理以及其他细节，值得一看。本身模型可以在一定程度上实现了 Zero-shot，虽然说动作依然不是特别丝滑，但是未来可期。

推荐指数：

EgoScale#

Arxiv ID 2602.16710

幻觉翻译 2602.16710

20K 小时 Ego 视频预训 + 两阶段迁移到 22DoF 灵巧手

EgoScale 用 20,854 小时带 action 标注的 ego 视频预训一个 VLA，再用轻量的人-机对齐 mid-training 迁到 22 DoF 灵巧手，mid 冻结视觉-语言主干网络，仅更新视觉编码器和 DiT 动作专家，之后可以直接后训练。本身的模型结构和 GR00t 比较类似，并且对于不同的本体使用不同的 MLP 来适配。效果上还算不错，作为利用 Ego Video 的工作很值得参考。

推荐指数：

HALO#

Arxiv ID 2602.21157

幻觉翻译 2602.21157

文本 CoT / 视觉 subgoal / 动作三专家 MoT VLA

HALO 是 MoT 架构，把 textual reasoning、visual subgoal 预测、action 预测分给三个 expert。和 InternVLA-A1、Motus、F1-VLA 以及 BagelVLA 等在思路上同质。

推荐指数：

LeRobot#

Arxiv ID 2602.22818

幻觉翻译 2602.22818

HuggingFace LeRobot 技术报告

LeRobot 是 HuggingFace 侧的开源机器人学习栈官方技术报告，覆盖从底层电机控制 middleware 到数据集采集 / 管理以及多种 SOTA 算法的集成。究其根本，LeRobot 数据集还是比较流行的，但是似乎其他部分的完善度有所欠缺，社区也并没有在广泛使用。不过还是值得一看。

推荐指数：

WoG#

Arxiv ID 2602.22010

幻觉翻译 2602.22010

在 condition space 里做世界建模的 VLA

WoG 本身是 Pi-like 的模型，大的框架依然是 VLM 生成潜在表示，并且作为 DiT 输入，然后之后用 Q-former 将未来的 Visual Feature（使用 DINOv2 和 Wan VAE）作为 Condition 也加进去，作为第一阶段训练；之后在第二阶段，将潜在表示与 Visual Feature 对齐，并且生成动作。本身 WoG 的两阶段还是比较类似于课程学习的风格，同时尝试利用了一些人类数据，大概可以提升 10 个点左右。本身思路还算有趣，值得一看。

推荐指数：

ACE-Brain-0#

Arxiv ID 2603.03198

幻觉翻译 2603.03198

三段式训练的空间智能基础模型

ACE-Brain-0 想一统驾驶 / 机器人 / UAV 三域，用 Scaffold-Specialize-Reconcile 三段式：先建共享空间 foundation，再训领域专家，最后无数据模型合并。依然是具身大脑，按照惯例评分，详细可以见论文内容。

推荐指数：

MEM#

Arxiv ID 2603.03596

幻觉翻译 2603.03596

短时视频记忆 + 长时文本记忆的多尺度具身记忆

MEM 用视频做短时记忆、文本做长时记忆，目标是支撑 10 分钟量级的长程任务（厨房清理、做三明治）。长程任务里 VLA 基本靠 memory 支撑，这种分 horizon 切模态的方式比单一 context window 更合理。

推荐指数：

SkillVLA#

Arxiv ID 2603.03836

幻觉翻译 2603.03836

双臂单臂技能可左右重组的 Skill 解耦 VLA

SkillVLA 关注双臂的 Skill Reuse 问题：传统训练里左右臂是绑死的，组合新 left-right pair 几乎全挂。论文通过解耦单臂技能避免跨臂 entangle，将组合成功率从 0 拉到 51%。这是一个挺实际的问题和清晰的解法。

推荐指数：

RoboCasa365#

Arxiv ID 2603.04356

幻觉翻译 2603.04356

365 家务任务 + 2500 厨房场景的大规模家用 Benchmark

RoboCasa365 把 RoboCasa 的规模再拉大：365 个家务任务 × 2500 厨房场景，配 600+ 小时人类演示和 1600+ 小时合成数据。对研究任务 diversity 与 policy scaling、lifelong learning 的人而言是一个 reproducible 的大型基准。

推荐指数：

UltraDexGrasp#

Arxiv ID 2603.05312

幻觉翻译 2603.05312

2000 万帧合成的双臂灵巧抓取数据集 + 零样本 sim2real

UltraDexGrasp 生成规模 2000 万帧的双臂灵巧抓取合成数据集，结合 optimization-based 合成和 planning-based demo 生成，训出来的策略零样本 sim2real 真机成功率 81.2%。双臂灵巧抓取大规模合成数据集目前还不多，有价值。

推荐指数：

AtomicVLA#

Arxiv ID 2603.07648

幻觉翻译 2603.07648

原子技能分解 + SG-MoE 的长程 VLA

AtomicVLA 把长程任务拆成 atomic skill，用 Skill-Guided MoE 让每个 expert 负责一个原子技能，新技能通过灵活 routing encoder 做 continual learning。属于 skill-based + MoE 这一类，和 Uni-Skill、SkillVLA 是同一趋势的变体。

推荐指数：

AtomVLA#

Arxiv ID 2603.08519

幻觉翻译 2603.08519

LLM 拆原子子任务 + 潜空间 WM 给 action chunk 打分的 GRPO

AtomVLA 和前面那篇 AtomicVLA 名字像但是路子完全不同。这里关心的是 VLA 训练时只见到粗粒度任务指令，长程任务上的中间监督信号缺失，错误会累积。做法是先用 LLM 把高层 demo 拆成一串原子子任务，再用一个预训的 latent world model 把候选 action chunk 投到 latent 空间和子任务目标做匹配打分，然后用 GRPO 做 offline post-training，绕开真机 / 仿真在线 rollout。本质上是用 latent WM 当 dense reward 实现 chunk 级 credit assignment，这一点比 ALOE 那种 chunk-TD 的思路又往前推了一步——奖励信号不是任务终点而是子任务对齐度。

LIBERO 上 97% 但是 LIBERO-PRO 上掉到 48% 已经把 limitation 写在脸上：所谓 atomic 拆解依赖 LLM，LIBERO-PRO 这种带扰动的版本上一旦 LLM 的拆解和实际 trajectory 对不上，subtask reward 就会失真。整体方向是 VLA RL 里值得跟一下的”子任务 reward shaping”流派，但是 LLM 拆解的鲁棒性是这条路绕不过的瓶颈。

推荐指数：

PlayWorld#

Arxiv ID 2603.09030

幻觉翻译 2603.09030

机器人自主"play"采集 + 课程学习训接触丰富 World Model

PlayWorld 的核心 insight 是大多数 Video / Action WM 都训在人类 demo 上，而 demo 几乎都是成功轨迹，contact 失败、滑掉、碰撞这些 long-tail 动力学覆盖率极低，于是模型一旦遇到接触场景就 hallucinate。论文的解法是”让机器人自己玩”：VLM 当 task proposer 自动生成自然语言指令，VLA 当 executor 在真机/仿真里跑出 30+ 小时无监督交互数据，天然包含失败模式。然后用 SVD 作为视频骨干，结合一种”distance-to-success”的课程：从冻结 CLIP embedding 抽人类 demo 的成功 centroid，按和这些 centroid 的距离把 play 轨迹分成由易到难的若干 rank，再渐进式调整采样分布，让模型先学 free-space 转移再学 contact-rich 转移。

和 Cosmos Policy / DreamZero / World-VLA-Loop 这种以”video diffusion 大基模 + scale data”为路线的 WM 工作相比，PlayWorld 的差异化是非常具体的：不靠 human supervision，不靠 reward-driven exploration，直接靠 play 自动覆盖失败分布；并且专门构造了一个 500+ clip 的 interaction-centric 评测集，把 missed grasp / slip / deformation 这些失败类型明确标出。在这个评测上 18 个不同策略的 predicted-vs-real success 相关性能到 0.88，作为 policy evaluator 比之前的通用 video WM 实用得多，下游用 DSRL 配合冻结骨干微调直接拿 65% 的提升。

主要 Limitation 论文自己提了：仍然不能彻底消 hallucination，在 open-loop rollout 长 horizon 下 control mode 不一致还是会累积错误；以及目前都是受控实验室设定，跨场景 / 跨 embodiment 怎么平衡 play 数据没解决。这两个问题不解决，“WM as evaluator”距离真正取代真机评测还有距离。整体是这一波 WM-VLA 工作里相对少见地把”训练数据分布偏置”作为根因来攻的，方向值得跟。

推荐指数：

DexHiL#

Arxiv ID 2603.09121

幻觉翻译 2603.09121

HIL DAgger 协同纠正"臂 + 灵巧手"的灵巧操作微调

DexHiL 的关心点是：HG-DAgger / HIL-SERL / Sirius 这些 HIL 方法都只对 parallel gripper 工作，DexGrasp-VLA 这类做了灵巧手但是把手单独拉出来用一个独立 grasping 网络，arm 和 hand 是分开纠正的。DexHiL 把”臂 + 灵巧手”作为一个整体系统在 DAgger loop 里同时接受人类干预。具体做法是 ArUco 标记追踪 + 动捕手套混合的轻量 teleop 接口（policy 跑 20Hz、teleop 30-90Hz 异步），手部 retarget 走两阶段——先非拇指四指反 pinch-like 姿态、再加 thumb residual + 几何正则；训练上用 intervention-aware reweighting 把 50% 的 batch 集中在干预样本上，并且只保留干预后的 recovery 段（不要纠正过程那段）。Ablation 显示主要 driver 就是这个 reweighting，不只是数据量增加。

最大的 Limitation 是 scalability：DAgger loop 本质上要求人类持续在线，论文 claim 的 35% 人力降低相对的还是 HIL 流程，绝对的人力门槛仍然很高，不适合大规模扩展。但是在”既要 dex hand 又要在线纠错”这个设定下，DexHiL 把 arm + hand 真正联合起来在 HIL 框架里这一点是直接而合理的。

推荐指数：

CORAL#

Arxiv ID 2603.09298

幻觉翻译 2603.09298

冻结基模 + 每任务一个 LoRA + 语言决定路由的多任务 VLA

CORAL 做的就是 EAI8 在批 MergeVLA 时讲的那个”人间正道”的具体实现：先把 embodiment-aware 基模训好然后整体冻结，每个新任务再训一个 r=16 的小 LoRA（VLM encoder 和 action head 的 attention 都注），推理的时候直接根据 language instruction 决定加载哪个 LoRA，整个 routing 是 deterministic 的没有 learned gating，loaded LoRA 还会被 fold 进底模权重所以 zero FLOPs overhead。这条路对比 MoRE / HiMoE-VLA 这种 learned-gating MoE 的 VLA 是更干净的取舍，对比 MergeVLA 那种把 LoRA 互相 merge 的故事则更直接——既然多任务有冲突，那就 parameter-level isolation，不要硬 merge。

但是论文自己也点出了真正的核心问题：CORAL 只做了参数级隔离，feature representation 仍然来自共享冻结骨干，语义 / 视觉冲突在表征层并没有被解决。等到任务数量上百、底模又没在足够 diverse 的数据上预训过，per-task LoRA 拼不出来的时候，瓶颈就会暴露在底模本身，而不是在路由策略上。换句话说 CORAL 是”在底模够强的前提下”才成立的方案。

推荐指数：

DiT4DiT#

Arxiv ID 2603.10448

幻觉翻译 2603.10448

抽 Video DiT 中间 denoising 特征作为 Action DiT 条件的双 DiT VLA

DiT4DiT 是 Video WM + VLA 这条线的又一变体，差异化点在”不取最终生成帧、而是取 video DiT denoising 中间步的 hidden feature 作为 Action DiT 的条件”。具体是 Cosmos-Predict2.5-2B 当 Video DiT、GR00T-N1 当 Action DiT，跨注意力把 video 特征和 robot state 喂给 action 端。训练上有个 Tri-Timestep 设计：video 用全程均匀 timestep、特征抽取固定在某个 deterministic timestep（保证条件稳定）、action 用 Beta 分布偏向关键控制阶段，三个时间轴解耦。

和 Cosmos Policy “直接拿视频模型当策略 + 把 action encode 成 latent frame”的极简思路相比，DiT4DiT 走了相反方向——保留独立的 Action DiT，但是让它去吃 video DiT 中间状态。问题是消融里揭示这个方案”对 denoising step 数极其敏感”，性能随中间抽取步数变化是单调掉，部署时 A100 上只剩 6Hz（GR00T 同条件 13Hz）。换言之这个 mid-denoising feature 的 trick 一旦超出训练时设定的窄区域就不稳，是 design choice 自带的脆性，而不是工程没调好。

推荐指数：

Embodied AI Paper Reading

ALOE#

DM0#

RynnBrain#

FUTURE-VLA#

DreamZero#

EgoScale#

HALO#

LeRobot#

WoG#

ACE-Brain-0#

MEM#

SkillVLA#

RoboCasa365#

UltraDexGrasp#

AtomicVLA#

AtomVLA#

PlayWorld#

DexHiL#

CORAL#

DiT4DiT#