

Paper Reading: Embodied AI 10
从一些 Embodied AI 相关工作中扫过。
ALOE#
Action chunk 级 TD Bootstrap 的 VLA Offline RL

ALOE 针对 VLA 常用的 action chunk 输出做 offline RL,核心是在 chunk 粒度做 TD bootstrap 而不是只看最终任务成败。从流程上来说还是比较简单的,还是先进行 warmup,然后 rollout 一些数据,之后训练 critic。本身这里 RL 的方式其实就是用 Reward 去给 Action 信号的监督进行了加权,也就是类似于 Diffusion-NFT 的做法。里面还有一些 trick,值得一看。
DM0#
多 Stage CoT Pi-like VLA

DM0 本身的思路如图所示,其实就是接受 VL 输入之后进行多轮推理,然后之后输出 Action;另外一种模式就是不推理。本身 DM0 在训练的时候会 Co-training,并且有很多的 VQA 以及各种数据拼盘,本身在他们自家 RoboChallenge Benchmark 上面性能也还算不错。
RynnBrain#
2B / 8B / 30B 的具身时空 VLM 基础模型

RynnBrain 是一个 open-source 具身时空 VLM 基础模型,提供 2B / 8B / 30B 三个档位,覆盖 ego 理解、空间时间定位、物理推理、物理感知规划四件事。属于 RoboBrain 2.5 / Thinker 同一类基础模型。相关论文评分按照惯例,具体细节可以看论文内容。
FUTURE-VLA#
同时预测 Action 和 Visual Token 的 OpenVLA-like VLA

FUTURE-VLA 主要实现的是 AR 来 unified 预测未来以及 action,同时对于 encoder 进行了一些压缩,使得可以接受比较长的历史输入。然后对于输出,对于 Action 使用 FAST token,对于 Visual 使用 TiTok 的 Token,然后进行 AR。本身思路上比较清晰,但是选择 Qwen 而不是一些 UMM,本身感觉还是比较迷惑的,可能还是从拟合以及基模性能的角度来理解会合理一些。
DreamZero#
DiT 预测世界 + 动作的 World Action Model

DreamZero 本身是和 Cosmos Policy 同思路的 WM-VLA 模型,也就是俗称的 WAM。本身的思路比较类似,但是预测的内容更加收敛,直接使用 14B DiT 预测 Future Frame 以及 Action,没有像是 Lingbot-VA 一样解耦 IDM 出来而是直接端到端,并且使用 teacher forcing 训练。本身里面还包括了一些加速的处理以及其他细节,值得一看。本身模型可以在一定程度上实现了 Zero-shot,虽然说动作依然不是特别丝滑,但是未来可期。
EgoScale#
20K 小时 Ego 视频预训 + 两阶段迁移到 22DoF 灵巧手

EgoScale 用 20,854 小时带 action 标注的 ego 视频预训一个 VLA,再用轻量的人-机对齐 mid-training 迁到 22 DoF 灵巧手,mid 冻结视觉-语言主干网络,仅更新视觉编码器和 DiT 动作专家,之后可以直接后训练。本身的模型结构和 GR00t 比较类似,并且对于不同的本体使用不同的 MLP 来适配。效果上还算不错,作为利用 Ego Video 的工作很值得参考。
HALO#
文本 CoT / 视觉 subgoal / 动作三专家 MoT VLA

HALO 是 MoT 架构,把 textual reasoning、visual subgoal 预测、action 预测分给三个 expert。和 InternVLA-A1、Motus、F1-VLA 以及 BagelVLA 等在思路上同质。
LeRobot#
HuggingFace LeRobot 技术报告

LeRobot 是 HuggingFace 侧的开源机器人学习栈官方技术报告,覆盖从底层电机控制 middleware 到数据集采集 / 管理以及多种 SOTA 算法的集成。究其根本,LeRobot 数据集还是比较流行的,但是似乎其他部分的完善度有所欠缺,社区也并没有在广泛使用。不过还是值得一看。
WoG#
在 condition space 里做世界建模的 VLA

WoG 本身是 Pi-like 的模型,大的框架依然是 VLM 生成潜在表示,并且作为 DiT 输入,然后之后用 Q-former 将未来的 Visual Feature(使用 DINOv2 和 Wan VAE)作为 Condition 也加进去,作为第一阶段训练;之后在第二阶段,将潜在表示与 Visual Feature 对齐,并且生成动作。本身 WoG 的两阶段还是比较类似于课程学习的风格,同时尝试利用了一些人类数据,大概可以提升 10 个点左右。本身思路还算有趣,值得一看。
ACE-Brain-0#
三段式训练的空间智能基础模型
ACE-Brain-0 想一统驾驶 / 机器人 / UAV 三域,用 Scaffold-Specialize-Reconcile 三段式:先建共享空间 foundation,再训领域专家,最后无数据模型合并。依然是具身大脑,按照惯例评分,详细可以见论文内容。
MEM#
短时视频记忆 + 长时文本记忆的多尺度具身记忆
MEM 用视频做短时记忆、文本做长时记忆,目标是支撑 10 分钟量级的长程任务(厨房清理、做三明治)。长程任务里 VLA 基本靠 memory 支撑,这种分 horizon 切模态的方式比单一 context window 更合理。
SkillVLA#
双臂单臂技能可左右重组的 Skill 解耦 VLA
SkillVLA 关注双臂的 Skill Reuse 问题:传统训练里左右臂是绑死的,组合新 left-right pair 几乎全挂。论文通过解耦单臂技能避免跨臂 entangle,将组合成功率从 0 拉到 51%。这是一个挺实际的问题和清晰的解法。
RoboCasa365#
365 家务任务 + 2500 厨房场景的大规模家用 Benchmark
RoboCasa365 把 RoboCasa 的规模再拉大:365 个家务任务 × 2500 厨房场景,配 600+ 小时人类演示和 1600+ 小时合成数据。对研究任务 diversity 与 policy scaling、lifelong learning 的人而言是一个 reproducible 的大型基准。
UltraDexGrasp#
2000 万帧合成的双臂灵巧抓取数据集 + 零样本 sim2real
UltraDexGrasp 生成规模 2000 万帧的双臂灵巧抓取合成数据集,结合 optimization-based 合成和 planning-based demo 生成,训出来的策略零样本 sim2real 真机成功率 81.2%。双臂灵巧抓取大规模合成数据集目前还不多,有价值。
AtomicVLA#
原子技能分解 + SG-MoE 的长程 VLA
AtomicVLA 把长程任务拆成 atomic skill,用 Skill-Guided MoE 让每个 expert 负责一个原子技能,新技能通过灵活 routing encoder 做 continual learning。属于 skill-based + MoE 这一类,和 Uni-Skill、SkillVLA 是同一趋势的变体。
AtomVLA#
LLM 拆原子子任务 + 潜空间 WM 给 action chunk 打分的 GRPO
AtomVLA 和前面那篇 AtomicVLA 名字像但是路子完全不同。这里关心的是 VLA 训练时只见到粗粒度任务指令,长程任务上的中间监督信号缺失,错误会累积。做法是先用 LLM 把高层 demo 拆成一串原子子任务,再用一个预训的 latent world model 把候选 action chunk 投到 latent 空间和子任务目标做匹配打分,然后用 GRPO 做 offline post-training,绕开真机 / 仿真在线 rollout。本质上是用 latent WM 当 dense reward 实现 chunk 级 credit assignment,这一点比 ALOE 那种 chunk-TD 的思路又往前推了一步——奖励信号不是任务终点而是子任务对齐度。
LIBERO 上 97% 但是 LIBERO-PRO 上掉到 48% 已经把 limitation 写在脸上:所谓 atomic 拆解依赖 LLM,LIBERO-PRO 这种带扰动的版本上一旦 LLM 的拆解和实际 trajectory 对不上,subtask reward 就会失真。整体方向是 VLA RL 里值得跟一下的”子任务 reward shaping”流派,但是 LLM 拆解的鲁棒性是这条路绕不过的瓶颈。
PlayWorld#
机器人自主"play"采集 + 课程学习训接触丰富 World Model
PlayWorld 的核心 insight 是大多数 Video / Action WM 都训在人类 demo 上,而 demo 几乎都是成功轨迹,contact 失败、滑掉、碰撞这些 long-tail 动力学覆盖率极低,于是模型一旦遇到接触场景就 hallucinate。论文的解法是”让机器人自己玩”:VLM 当 task proposer 自动生成自然语言指令,VLA 当 executor 在真机/仿真里跑出 30+ 小时无监督交互数据,天然包含失败模式。然后用 SVD 作为视频骨干,结合一种”distance-to-success”的课程:从冻结 CLIP embedding 抽人类 demo 的成功 centroid,按和这些 centroid 的距离把 play 轨迹分成由易到难的若干 rank,再渐进式调整采样分布,让模型先学 free-space 转移再学 contact-rich 转移。
和 Cosmos Policy / DreamZero / World-VLA-Loop 这种以”video diffusion 大基模 + scale data”为路线的 WM 工作相比,PlayWorld 的差异化是非常具体的:不靠 human supervision,不靠 reward-driven exploration,直接靠 play 自动覆盖失败分布;并且专门构造了一个 500+ clip 的 interaction-centric 评测集,把 missed grasp / slip / deformation 这些失败类型明确标出。在这个评测上 18 个不同策略的 predicted-vs-real success 相关性能到 0.88,作为 policy evaluator 比之前的通用 video WM 实用得多,下游用 DSRL 配合冻结骨干微调直接拿 65% 的提升。
主要 Limitation 论文自己提了:仍然不能彻底消 hallucination,在 open-loop rollout 长 horizon 下 control mode 不一致还是会累积错误;以及目前都是受控实验室设定,跨场景 / 跨 embodiment 怎么平衡 play 数据没解决。这两个问题不解决,“WM as evaluator”距离真正取代真机评测还有距离。整体是这一波 WM-VLA 工作里相对少见地把”训练数据分布偏置”作为根因来攻的,方向值得跟。
DexHiL#
HIL DAgger 协同纠正"臂 + 灵巧手"的灵巧操作微调
DexHiL 的关心点是:HG-DAgger / HIL-SERL / Sirius 这些 HIL 方法都只对 parallel gripper 工作,DexGrasp-VLA 这类做了灵巧手但是把手单独拉出来用一个独立 grasping 网络,arm 和 hand 是分开纠正的。DexHiL 把”臂 + 灵巧手”作为一个整体系统在 DAgger loop 里同时接受人类干预。具体做法是 ArUco 标记追踪 + 动捕手套混合的轻量 teleop 接口(policy 跑 20Hz、teleop 30-90Hz 异步),手部 retarget 走两阶段——先非拇指四指反 pinch-like 姿态、再加 thumb residual + 几何正则;训练上用 intervention-aware reweighting 把 50% 的 batch 集中在干预样本上,并且只保留干预后的 recovery 段(不要纠正过程那段)。Ablation 显示主要 driver 就是这个 reweighting,不只是数据量增加。
最大的 Limitation 是 scalability:DAgger loop 本质上要求人类持续在线,论文 claim 的 35% 人力降低相对的还是 HIL 流程,绝对的人力门槛仍然很高,不适合大规模扩展。但是在”既要 dex hand 又要在线纠错”这个设定下,DexHiL 把 arm + hand 真正联合起来在 HIL 框架里这一点是直接而合理的。
CORAL#
冻结基模 + 每任务一个 LoRA + 语言决定路由的多任务 VLA
CORAL 做的就是 EAI8 在批 MergeVLA 时讲的那个”人间正道”的具体实现:先把 embodiment-aware 基模训好然后整体冻结,每个新任务再训一个 r=16 的小 LoRA(VLM encoder 和 action head 的 attention 都注),推理的时候直接根据 language instruction 决定加载哪个 LoRA,整个 routing 是 deterministic 的没有 learned gating,loaded LoRA 还会被 fold 进底模权重所以 zero FLOPs overhead。这条路对比 MoRE / HiMoE-VLA 这种 learned-gating MoE 的 VLA 是更干净的取舍,对比 MergeVLA 那种把 LoRA 互相 merge 的故事则更直接——既然多任务有冲突,那就 parameter-level isolation,不要硬 merge。
但是论文自己也点出了真正的核心问题:CORAL 只做了参数级隔离,feature representation 仍然来自共享冻结骨干,语义 / 视觉冲突在表征层并没有被解决。等到任务数量上百、底模又没在足够 diverse 的数据上预训过,per-task LoRA 拼不出来的时候,瓶颈就会暴露在底模本身,而不是在路由策略上。换句话说 CORAL 是”在底模够强的前提下”才成立的方案。
DiT4DiT#
抽 Video DiT 中间 denoising 特征作为 Action DiT 条件的双 DiT VLA
DiT4DiT 是 Video WM + VLA 这条线的又一变体,差异化点在”不取最终生成帧、而是取 video DiT denoising 中间步的 hidden feature 作为 Action DiT 的条件”。具体是 Cosmos-Predict2.5-2B 当 Video DiT、GR00T-N1 当 Action DiT,跨注意力把 video 特征和 robot state 喂给 action 端。训练上有个 Tri-Timestep 设计:video 用全程均匀 timestep、特征抽取固定在某个 deterministic timestep(保证条件稳定)、action 用 Beta 分布偏向关键控制阶段,三个时间轴解耦。
和 Cosmos Policy “直接拿视频模型当策略 + 把 action encode 成 latent frame”的极简思路相比,DiT4DiT 走了相反方向——保留独立的 Action DiT,但是让它去吃 video DiT 中间状态。问题是消融里揭示这个方案”对 denoising step 数极其敏感”,性能随中间抽取步数变化是单调掉,部署时 A100 上只剩 6Hz(GR00T 同条件 13Hz)。换言之这个 mid-denoising feature 的 trick 一旦超出训练时设定的窄区域就不稳,是 design choice 自带的脆性,而不是工程没调好。