Axi's Blog
Paper Reading: Embodied AI 10Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

ALOE#

Arxiv ID 2602.12691
幻觉翻译 2602.12691

Action chunk 级 TD Bootstrap 的 VLA Offline RL

Image

ALOE 针对 VLA 常用的 action chunk 输出做 offline RL,核心是在 chunk 粒度做 TD bootstrap 而不是只看最终任务成败。从流程上来说还是比较简单的,还是先进行 warmup,然后 rollout 一些数据,之后训练 critic。本身这里 RL 的方式其实就是用 Reward 去给 Action 信号的监督进行了加权,也就是类似于 Diffusion-NFT 的做法。里面还有一些 trick,值得一看。

推荐指数:

DM0#

Arxiv ID 2602.14974
幻觉翻译 2602.14974

多 Stage CoT Pi-like VLA

DM0 本身的思路如图所示,其实就是接受 VL 输入之后进行多轮推理,然后之后输出 Action;另外一种模式就是不推理。本身 DM0 在训练的时候会 Co-training,并且有很多的 VQA 以及各种数据拼盘,本身在他们自家 RoboChallenge Benchmark 上面性能也还算不错。

推荐指数:

RynnBrain#

Arxiv ID 2602.14979
幻觉翻译 2602.14979

2B / 8B / 30B 的具身时空 VLM 基础模型

Image

RynnBrain 是一个 open-source 具身时空 VLM 基础模型,提供 2B / 8B / 30B 三个档位,覆盖 ego 理解、空间时间定位、物理推理、物理感知规划四件事。属于 RoboBrain 2.5 / Thinker 同一类基础模型。相关论文评分按照惯例,具体细节可以看论文内容。

推荐指数:

FUTURE-VLA#

Arxiv ID 2602.15882
幻觉翻译 2602.15882

同时预测 Action 和 Visual Token 的 OpenVLA-like VLA

Image

FUTURE-VLA 主要实现的是 AR 来 unified 预测未来以及 action,同时对于 encoder 进行了一些压缩,使得可以接受比较长的历史输入。然后对于输出,对于 Action 使用 FAST token,对于 Visual 使用 TiTok 的 Token,然后进行 AR。本身思路上比较清晰,但是选择 Qwen 而不是一些 UMM,本身感觉还是比较迷惑的,可能还是从拟合以及基模性能的角度来理解会合理一些。

推荐指数:

DreamZero#

Arxiv ID 2602.15922
幻觉翻译 2602.15922

DiT 预测世界 + 动作的 World Action Model

Image

DreamZero 本身是和 Cosmos Policy 同思路的 WM-VLA 模型,也就是俗称的 WAM。本身的思路比较类似,但是预测的内容更加收敛,直接使用 14B DiT 预测 Future Frame 以及 Action,没有像是 Lingbot-VA 一样解耦 IDM 出来而是直接端到端,并且使用 teacher forcing 训练。本身里面还包括了一些加速的处理以及其他细节,值得一看。本身模型可以在一定程度上实现了 Zero-shot,虽然说动作依然不是特别丝滑,但是未来可期。

推荐指数:

EgoScale#

Arxiv ID 2602.16710
幻觉翻译 2602.16710

20K 小时 Ego 视频预训 + 两阶段迁移到 22DoF 灵巧手

Image

EgoScale 用 20,854 小时带 action 标注的 ego 视频预训一个 VLA,再用轻量的人-机对齐 mid-training 迁到 22 DoF 灵巧手,mid 冻结视觉-语言主干网络,仅更新视觉编码器和 DiT 动作专家,之后可以直接后训练。本身的模型结构和 GR00t 比较类似,并且对于不同的本体使用不同的 MLP 来适配。效果上还算不错,作为利用 Ego Video 的工作很值得参考。

推荐指数:

HALO#

Arxiv ID 2602.21157
幻觉翻译 2602.21157

文本 CoT / 视觉 subgoal / 动作三专家 MoT VLA

Image

HALO 是 MoT 架构,把 textual reasoning、visual subgoal 预测、action 预测分给三个 expert。和 InternVLA-A1、Motus、F1-VLA 以及 BagelVLA 等在思路上同质。

推荐指数:

LeRobot#

Arxiv ID 2602.22818
幻觉翻译 2602.22818

HuggingFace LeRobot 技术报告

Image

LeRobot 是 HuggingFace 侧的开源机器人学习栈官方技术报告,覆盖从底层电机控制 middleware 到数据集采集 / 管理以及多种 SOTA 算法的集成。究其根本,LeRobot 数据集还是比较流行的,但是似乎其他部分的完善度有所欠缺,社区也并没有在广泛使用。不过还是值得一看。

推荐指数:

WoG#

Arxiv ID 2602.22010
幻觉翻译 2602.22010

在 condition space 里做世界建模的 VLA

Image

WoG 本身是 Pi-like 的模型,大的框架依然是 VLM 生成潜在表示,并且作为 DiT 输入,然后之后用 Q-former 将未来的 Visual Feature(使用 DINOv2 和 Wan VAE)作为 Condition 也加进去,作为第一阶段训练;之后在第二阶段,将潜在表示与 Visual Feature 对齐,并且生成动作。本身 WoG 的两阶段还是比较类似于课程学习的风格,同时尝试利用了一些人类数据,大概可以提升 10 个点左右。本身思路还算有趣,值得一看。

推荐指数:

ACE-Brain-0#

Arxiv ID 2603.03198
幻觉翻译 2603.03198

三段式训练的空间智能基础模型

ACE-Brain-0 想一统驾驶 / 机器人 / UAV 三域,用 Scaffold-Specialize-Reconcile 三段式:先建共享空间 foundation,再训领域专家,最后无数据模型合并。依然是具身大脑,按照惯例评分,详细可以见论文内容。

推荐指数:

MEM#

Arxiv ID 2603.03596
幻觉翻译 2603.03596

短时视频记忆 + 长时文本记忆的多尺度具身记忆

MEM 用视频做短时记忆、文本做长时记忆,目标是支撑 10 分钟量级的长程任务(厨房清理、做三明治)。长程任务里 VLA 基本靠 memory 支撑,这种分 horizon 切模态的方式比单一 context window 更合理。

推荐指数:

SkillVLA#

Arxiv ID 2603.03836
幻觉翻译 2603.03836

双臂单臂技能可左右重组的 Skill 解耦 VLA

SkillVLA 关注双臂的 Skill Reuse 问题:传统训练里左右臂是绑死的,组合新 left-right pair 几乎全挂。论文通过解耦单臂技能避免跨臂 entangle,将组合成功率从 0 拉到 51%。这是一个挺实际的问题和清晰的解法。

推荐指数:

RoboCasa365#

Arxiv ID 2603.04356
幻觉翻译 2603.04356

365 家务任务 + 2500 厨房场景的大规模家用 Benchmark

RoboCasa365 把 RoboCasa 的规模再拉大:365 个家务任务 × 2500 厨房场景,配 600+ 小时人类演示和 1600+ 小时合成数据。对研究任务 diversity 与 policy scaling、lifelong learning 的人而言是一个 reproducible 的大型基准。

推荐指数:

UltraDexGrasp#

Arxiv ID 2603.05312
幻觉翻译 2603.05312

2000 万帧合成的双臂灵巧抓取数据集 + 零样本 sim2real

UltraDexGrasp 生成规模 2000 万帧的双臂灵巧抓取合成数据集,结合 optimization-based 合成和 planning-based demo 生成,训出来的策略零样本 sim2real 真机成功率 81.2%。双臂灵巧抓取大规模合成数据集目前还不多,有价值。

推荐指数:

AtomicVLA#

Arxiv ID 2603.07648
幻觉翻译 2603.07648

原子技能分解 + SG-MoE 的长程 VLA

AtomicVLA 把长程任务拆成 atomic skill,用 Skill-Guided MoE 让每个 expert 负责一个原子技能,新技能通过灵活 routing encoder 做 continual learning。属于 skill-based + MoE 这一类,和 Uni-Skill、SkillVLA 是同一趋势的变体。

推荐指数:

AtomVLA#

Arxiv ID 2603.08519
幻觉翻译 2603.08519

LLM 拆原子子任务 + 潜空间 WM 给 action chunk 打分的 GRPO

AtomVLA 和前面那篇 AtomicVLA 名字像但是路子完全不同。这里关心的是 VLA 训练时只见到粗粒度任务指令,长程任务上的中间监督信号缺失,错误会累积。做法是先用 LLM 把高层 demo 拆成一串原子子任务,再用一个预训的 latent world model 把候选 action chunk 投到 latent 空间和子任务目标做匹配打分,然后用 GRPO 做 offline post-training,绕开真机 / 仿真在线 rollout。本质上是用 latent WM 当 dense reward 实现 chunk 级 credit assignment,这一点比 ALOE 那种 chunk-TD 的思路又往前推了一步——奖励信号不是任务终点而是子任务对齐度。

LIBERO 上 97% 但是 LIBERO-PRO 上掉到 48% 已经把 limitation 写在脸上:所谓 atomic 拆解依赖 LLM,LIBERO-PRO 这种带扰动的版本上一旦 LLM 的拆解和实际 trajectory 对不上,subtask reward 就会失真。整体方向是 VLA RL 里值得跟一下的”子任务 reward shaping”流派,但是 LLM 拆解的鲁棒性是这条路绕不过的瓶颈。

推荐指数:

PlayWorld#

Arxiv ID 2603.09030
幻觉翻译 2603.09030

机器人自主"play"采集 + 课程学习训接触丰富 World Model

PlayWorld 的核心 insight 是大多数 Video / Action WM 都训在人类 demo 上,而 demo 几乎都是成功轨迹,contact 失败、滑掉、碰撞这些 long-tail 动力学覆盖率极低,于是模型一旦遇到接触场景就 hallucinate。论文的解法是”让机器人自己玩”:VLM 当 task proposer 自动生成自然语言指令,VLA 当 executor 在真机/仿真里跑出 30+ 小时无监督交互数据,天然包含失败模式。然后用 SVD 作为视频骨干,结合一种”distance-to-success”的课程:从冻结 CLIP embedding 抽人类 demo 的成功 centroid,按和这些 centroid 的距离把 play 轨迹分成由易到难的若干 rank,再渐进式调整采样分布,让模型先学 free-space 转移再学 contact-rich 转移。

和 Cosmos Policy / DreamZero / World-VLA-Loop 这种以”video diffusion 大基模 + scale data”为路线的 WM 工作相比,PlayWorld 的差异化是非常具体的:不靠 human supervision,不靠 reward-driven exploration,直接靠 play 自动覆盖失败分布;并且专门构造了一个 500+ clip 的 interaction-centric 评测集,把 missed grasp / slip / deformation 这些失败类型明确标出。在这个评测上 18 个不同策略的 predicted-vs-real success 相关性能到 0.88,作为 policy evaluator 比之前的通用 video WM 实用得多,下游用 DSRL 配合冻结骨干微调直接拿 65% 的提升。

主要 Limitation 论文自己提了:仍然不能彻底消 hallucination,在 open-loop rollout 长 horizon 下 control mode 不一致还是会累积错误;以及目前都是受控实验室设定,跨场景 / 跨 embodiment 怎么平衡 play 数据没解决。这两个问题不解决,“WM as evaluator”距离真正取代真机评测还有距离。整体是这一波 WM-VLA 工作里相对少见地把”训练数据分布偏置”作为根因来攻的,方向值得跟。

推荐指数:

DexHiL#

Arxiv ID 2603.09121
幻觉翻译 2603.09121

HIL DAgger 协同纠正"臂 + 灵巧手"的灵巧操作微调

DexHiL 的关心点是:HG-DAgger / HIL-SERL / Sirius 这些 HIL 方法都只对 parallel gripper 工作,DexGrasp-VLA 这类做了灵巧手但是把手单独拉出来用一个独立 grasping 网络,arm 和 hand 是分开纠正的。DexHiL 把”臂 + 灵巧手”作为一个整体系统在 DAgger loop 里同时接受人类干预。具体做法是 ArUco 标记追踪 + 动捕手套混合的轻量 teleop 接口(policy 跑 20Hz、teleop 30-90Hz 异步),手部 retarget 走两阶段——先非拇指四指反 pinch-like 姿态、再加 thumb residual + 几何正则;训练上用 intervention-aware reweighting 把 50% 的 batch 集中在干预样本上,并且只保留干预后的 recovery 段(不要纠正过程那段)。Ablation 显示主要 driver 就是这个 reweighting,不只是数据量增加。

最大的 Limitation 是 scalability:DAgger loop 本质上要求人类持续在线,论文 claim 的 35% 人力降低相对的还是 HIL 流程,绝对的人力门槛仍然很高,不适合大规模扩展。但是在”既要 dex hand 又要在线纠错”这个设定下,DexHiL 把 arm + hand 真正联合起来在 HIL 框架里这一点是直接而合理的。

推荐指数:

CORAL#

Arxiv ID 2603.09298
幻觉翻译 2603.09298

冻结基模 + 每任务一个 LoRA + 语言决定路由的多任务 VLA

CORAL 做的就是 EAI8 在批 MergeVLA 时讲的那个”人间正道”的具体实现:先把 embodiment-aware 基模训好然后整体冻结,每个新任务再训一个 r=16 的小 LoRA(VLM encoder 和 action head 的 attention 都注),推理的时候直接根据 language instruction 决定加载哪个 LoRA,整个 routing 是 deterministic 的没有 learned gating,loaded LoRA 还会被 fold 进底模权重所以 zero FLOPs overhead。这条路对比 MoRE / HiMoE-VLA 这种 learned-gating MoE 的 VLA 是更干净的取舍,对比 MergeVLA 那种把 LoRA 互相 merge 的故事则更直接——既然多任务有冲突,那就 parameter-level isolation,不要硬 merge。

但是论文自己也点出了真正的核心问题:CORAL 只做了参数级隔离,feature representation 仍然来自共享冻结骨干,语义 / 视觉冲突在表征层并没有被解决。等到任务数量上百、底模又没在足够 diverse 的数据上预训过,per-task LoRA 拼不出来的时候,瓶颈就会暴露在底模本身,而不是在路由策略上。换句话说 CORAL 是”在底模够强的前提下”才成立的方案。

推荐指数:

DiT4DiT#

Arxiv ID 2603.10448
幻觉翻译 2603.10448

抽 Video DiT 中间 denoising 特征作为 Action DiT 条件的双 DiT VLA

DiT4DiT 是 Video WM + VLA 这条线的又一变体,差异化点在”不取最终生成帧、而是取 video DiT denoising 中间步的 hidden feature 作为 Action DiT 的条件”。具体是 Cosmos-Predict2.5-2B 当 Video DiT、GR00T-N1 当 Action DiT,跨注意力把 video 特征和 robot state 喂给 action 端。训练上有个 Tri-Timestep 设计:video 用全程均匀 timestep、特征抽取固定在某个 deterministic timestep(保证条件稳定)、action 用 Beta 分布偏向关键控制阶段,三个时间轴解耦。

和 Cosmos Policy “直接拿视频模型当策略 + 把 action encode 成 latent frame”的极简思路相比,DiT4DiT 走了相反方向——保留独立的 Action DiT,但是让它去吃 video DiT 中间状态。问题是消融里揭示这个方案”对 denoising step 数极其敏感”,性能随中间抽取步数变化是单调掉,部署时 A100 上只剩 6Hz(GR00T 同条件 13Hz)。换言之这个 mid-denoising feature 的 trick 一旦超出训练时设定的窄区域就不稳,是 design choice 自带的脆性,而不是工程没调好。

推荐指数:
Paper Reading: Embodied AI 10
https://axi404.github.io/blog/paper-reading-eai10
Author 阿汐
Published at February 5, 2026
Comment seems to stuck. Try to refresh?✨