Axi's Blog
Paper Reading: Embodied AI 9Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

Cosmos Policy#

Arxiv ID 2601.16163
幻觉翻译 2601.16163

直接把 Cosmos-Predict2 后训成 Policy 的 WM-VLA

The pipeline of Cosmos Policy

Cosmos Policy 使用 Cosmos 作为预训练的模型,然后直接让其同时预测不同的内容,除了之前就需要预测的 frame,也包括预测 Value 以及 Action 的信息。本身从实现上来说感觉没什么问题,做法也比较简单粗暴,从实际上来说作者们也承认这基于 Cosmos 可以直接建模 Action 这个假设,而这个假设大概率是不成立的。不过总归我们需要这样一个一股脑梭哈的模型,从而才可以在和其他精心设计的模型的对比中寻找真正关键的 insight,本身做的也比较干净,值得一读。

推荐指数:

BayesianVLA#

Arxiv ID 2601.15197
幻觉翻译 2601.15197

Bayesian 分解防止 VLA 把语言当冗余输入

The main figure of BayesianVLA

BayesianVLA 貌似重命名为了 Langforce,本身的思路就是有两组的 input,一组是 NTP 的 V+A+L 而另一组是 V+L+A,然后建立两组 L 之间的相似度损失,类似于说让一组主要基于图像,一组则基于语言,从而 force 模型基于语言来建模,后面接 DiT。本身思路其实合理,故事讲得通,中规中矩。

推荐指数:

LingBot-VLA#

Arxiv ID 2601.18692
幻觉翻译 2601.18692

20K 小时 9 平台双臂数据 + 高效代码库的 Pi-like VLA

The overview of LingBot-VLA

LingBot-VLA 架构上依然是 Qwen2.5-VL + Flow Matching 的 MoT Pi-like 范式,更多是做了 Infra 以及大规模的 Pre-training,其中的 Depth 相关内容更是可有可无。一方面从效率上确实可圈可点,虽然说实际上他们和 starVLA 的比较存在着明显的问题,后面测试下来其实 starVLA 比 Lingbot-VLA 标注的速度要快一些,但是基于 VeOmni 去做 fsdp 也很合理。从大规模数据集预训练之后的效果来看,效果也不错。

推荐指数:

Shallow-π\pi#

Arxiv ID 2601.20262
幻觉翻译 2601.20262

把 Pi-like 的 VLM 与 Action Head 同步蒸到 6 层

The diagram of Shallow-π

Shallow-π\pi 做的就是 Pi-like VLA 的压缩部署:把 VLM Backbone 和 Flow Matching Action Head 都从 18 层蒸到 6 层,Loss 是 task + KD + cross-attention 对齐(只对 action token 的 attention)。工作相对还算干净,没什么问题。

推荐指数:

LingBot-VA#

Arxiv ID 2601.21998
幻觉翻译 2601.21998

MoT + Causal AR Diffusion 的 Co-training WM-VLA

The framework of Causal World Modeling

LingBot-VA 提出了一种简洁优雅地 WM-VLA 范式,通过显式的预测 Frame 以及 IDM,在 MoT 中把 video frame 与 action 交替自回归,保持严格 causal 依赖,十分合理。同时,LingBot-VA 利用了 WM 天然的 KV-cache 抗长时序漂移的特性,可以完成本来需要 Memory 的 Long horizon 的任务,非常值得一读。

推荐指数:

Green-VLA#

Arxiv ID 2602.00919
幻觉翻译 2602.00919

5 阶段课程 + 3000h 数据 + RL 对齐的 Pi-like VLA

The pipeline of Green-VLA

Green-VLA 是一份偏工程的 VLA 全栈,走 L0 VLM → L1 多模态基础 → R0 多 embodiment 预训练 → R1 单 embodiment 适应 → R2 RL 对齐的 5 阶段课程学习,并且使用了 3000 小时数据,最后部署到 Green humanoid 上,本身就是 Pi-like 的模型。本身先使用 GigaChat 做任务分解,L1 就是用 Web 数据训练一个具身大脑的路数,性能并不显著,然后在 R0 的时候用类似 RDT 的 Uni Action Space 来预训练,其中用 DinoV3 特征量化了数据多样性,这个可能还有点价值。之后有一个流引导阶段,流引导也是目前学界比较常见的技术,可以不训练 Diffusion 从而对其造成影响,但是似乎意义没有特别大。最后在 RL 阶段,本身包括了两种 RL:其一,训练了一种 Q 函数,可以对于生成好的 Action 做优化,来优化轨迹,最后把优化完轨迹的数据放到训练集回流;另一个是源分布优化,这里就和主要还是训练了一个 RM,然后有一个小模型根据 Condition 来给出原始的噪声分布,这个做的和 GR-RL 一样,可以直接做 RL。

推荐指数:

StreamVLA#

Arxiv ID 2602.01100
幻觉翻译 2602.01100

Lock-and-Gated 触发慢思考 + 目标图做时间不变 anchor 的双系统 VLA

The overview of StreamVLA

StreamVLA 的核心机制是 Lock-and-Gated:只在检测到 subtask 转换时才触发慢系统生成 text instruction 和 goal image,而这个转换则是以 goal image 和实际的 Obs 的 diff 需要小于一定的阈值,这样子来形成一个闭环,从而可以在大多数时候跳过 system2 的环节,而是只运行 system1。本身模型依然是基于一个 Pi-0.5 like 的 VLA 来做的,作为双系统来说思路还算合理,但是确实假如说 goal image 不是很合理的话,可能也会有问题,不过确实这样子肯定有效率了。

推荐指数:

FD-VLA#

Arxiv ID 2602.02142
幻觉翻译 2602.02142

从图像 + 状态蒸馏出 force token 的无传感器力感知 VLA

The overview of FD-VLA

FD-VLA 用一个 learnable query token 以视觉观测和机器人状态为条件去预测力 token,训练期对齐真实 F/T 信号的 latent,推理时不需要力传感器。本身思路也比较好理解,就是用 learnable query 从视觉中来蒸馏出来力的表征,过几层 Transformer 之后就和 Force 来对齐。模型本身还是 Pi-like 的 VLA 模型。比较 counter-intuitive 也比较有意思的结论是:蒸馏出的 force token 性能居然比直接用真实 F/T 测量还好,估计是因为 distilled representation 天然与视觉 / state 对齐,而 raw 力信号在 fusion 时反而带噪。对走 Force-aware VLA 路线的人来说这是一个值得参考的数据点。

推荐指数:

RDT2#

Arxiv ID 2602.03310
幻觉翻译 2602.03310

7B VLA + 10K 小时 embodiment-agnostic UMI 数据的 Pi-like VLA

The pipeline of RDT2

RDT2 作为 RDT 系列续作,走的是数据 + Scale 路线:7B 底模,10K+ 小时的 embodiment-agnostic UMI 数据,也算是不错。第一步是首先训练 VLM 模型,本身就是用 RVQ 以及 CNN 将 Action 离散化,然后训练 VLM;第二步冻结 VLM 训练后面的 DiT;最后将 DiT 做了蒸馏,蒸成了单步的生成器。从效果上来说确实速度很快,而且 demo 看上去质量挺好的。

推荐指数:

World-VLA-Loop#

Arxiv ID 2602.06508
幻觉翻译 2602.06508

VLA 失败 rollout 反哺 WM,再闭环 RL VLA 的互迭代

Image

World-VLA-Loop 用 VLA 的 failure rollout 精炼 WM、再让 WM 作为 Simulator 跑 RL 训 VLA,形成互迭代。思路合理,仅靠训练集分布训 WM 有 bias,加入 rollout 可以覆盖更接近推理分布的数据,算是一定程度上解决了本身只用成熟数据集训练训练 WM 可能有的 Bias 问题(这个问题之前讨论过)。然后具体的做法上,本身模型也是 OpenVLA,可以直接上 RL,然后 WM 的 Latents 切出来用一个 Head 来预测 reward,这样 reward 可以是 dense 的(虽然说不一定靠谱就是了),可以直接 GRPO。值得一看。

推荐指数:

Humanoid Manipulation Interface#

Arxiv ID 2602.06643
幻觉翻译 2602.06643

人形版 UMI

Image

HuMI 就是人形版的 UMI,用便携硬件在没有机器人在场的情况下采集人的全身动作数据,然后通过分层 pipeline 转成人形可执行的技能。不过其实看上去做的比较粗糙,主要还是用 Tracker 以及手柄来采集数据,本身也没有很考虑比如说这个姿态是不是真的机器人可以保持平衡,感觉像是把 VRChat 这边已经成熟的技术直接套过来了,不过看上去在 DP 的训练也算够用,还可以。

推荐指数:

DreamDojo#

Arxiv ID 2602.06949
幻觉翻译 2602.06949

44K 小时 Ego 视频训出的基础 World Model

Image

DreamDojo 用 44K 小时 egocentric 视频训一个通用 WM,依然通过类似于 LAPA 的方式来提取 continuous latent action,将这个 action 作为 condition 可以做到一个正常的预训练。如果需要部署到具身,之后在后训练的时候,部署的时候还是直接接一个 MLP 然后预测动作。整体来说是很不错的预训练模型,本身然后模型是一个预训练 WM,VLA 并不是完全的主题。

推荐指数:

RLinf-USER#

Arxiv ID 2602.07837
幻觉翻译 2602.07837

RLinf 的真机 RL 基建

Image

RLinf-USER 是 RLinf 系的新分支,把物理机器人和 GPU 一样当作”一等公民”调度,提供云-边通信、分布式机器人协调、异步训练等基建能力,算是 RLinf 的最新组件,拓展 RL 到了真机 RL,看上去没什么问题,很合理。

推荐指数:

BagelVLA#

Arxiv ID 2602.09849
幻觉翻译 2602.09849

基于 Bagel 的 MoT VLA

Image

BagelVLA 是基于 Bagel 做的 VLA 的续作,从 Bagel 进行初始化,然后加入了 Actor Expert,以及设计了不同的降噪策略。本身结果上中规中矩,意料之中的 Paper。

Image

本身比较有意思的是这里比较了不同的降噪策略,分别是,分别降噪,协同降噪,以及让 Image 降噪一步之后开始降噪 Actor,这里面同时对于 Action 的降噪可以从以以前的 Action 为均值的分布来采样,算是一种残差策略。很有意思。

推荐指数:

VLA-JEPA#

Arxiv ID 2602.10098
幻觉翻译 2602.10098

JEPA 风格的 latent 未来预测预训 VLA

Image

VLA-JEPA 把 JEPA 搬到 VLA 侧:target encoder 看未来帧、student 只看当下,学的是 latent 空间的动力学而不是 pixel 重建,所以对外观 / 相机抖动更鲁棒。预训后接 action head 微调即可。相较 pixel-based WM 预训有一定好处,和之前 LAPA / CARE 这种 latent action 预训类工作类似,只是监督信号换成了”latent frame 预测”。作为 JEPA 在 VLA 的自然延伸是一个数据点。

推荐指数:

EgoHumanoid#

Arxiv ID 2602.10106
幻觉翻译 2602.10106

Ego 视频 + 少量真机,视角 + 动作两向对齐训人形

EgoHumanoid 用大量 egocentric 人类数据搭配少量真机数据训人形,关键是两个 alignment:view alignment 处理 head cam 位置不同带来的视觉 domain shift,action alignment 把人类 motion 映射到机器人可执行的控制空间。和 Being-H0.5、HumanX 是同一条线上的不同切法,主要关注 locomotion + manipulation 的联合场景。

推荐指数:

ST4VLA#

Arxiv ID 2602.10109
幻觉翻译 2602.10109

空间 grounding 预训 + 空间提示引导动作后训的双系统 VLA

ST4VLA 两阶段:先用 web + robot 数据做 point / box / trajectory 这种 spatial grounding 的预训,再做 spatially guided action post-train。走的是”VLM 先学空间再学动作”的常见范式,和 RoboBrain 2.5、VIPA-VLA 思路相近。

推荐指数:

LAP#

Arxiv ID 2602.10556
幻觉翻译 2602.10556

直接把动作表示为自然语言的 VLA,跨 embodiment 零样本

LAP 的想法很直接:不再给动作单独设 token 或 head,而是直接用自然语言描述动作(数字、单位等都是 text),让 VLM 原生格式就能做 action prediction。直接收获是跨 embodiment 零样本能到 50%+。这种 “Action as Language” 的方式避开了 tokenizer 和 embodiment-specific head,作为 OpenVLA-like 的替代范式值得关注,代价是精度会受 text generation 粒度限制。

推荐指数:

Vista-WM#

Arxiv ID 2602.10983
幻觉翻译 2602.10983

WM 生成 subgoal image 指导 VLA 执行的分层框架

Vista-WM 让大 WM 先把任务分解成一串 subgoal image 再交给 VLA 执行,14% → 69% 的提升主要靠 goal image 补充 OOD 场景的视觉细节。走的是和 SuSIE 同款”WM 想象 subgoal image”路线,做了很多次的思路,本身难有新 insight。

推荐指数:

BeyondMimic#

Arxiv ID 2508.08241
幻觉翻译 2508.08241

人类 demo + Latent Diffusion + Classifier Guidance 的人形技能组合

BeyondMimic 用紧凑的 motion-tracking 先把一堆高动态技能(cartwheel、kick)学下来,再用 latent diffusion + classifier guidance 做技能组合和 unseen 任务泛化,支持 motion editing、teleop、避障,零样本部署到真机。Classifier guidance 在动作空间做 composition 的思路对做 Humanoid 组合技能的方向有启发。

推荐指数:

SONIC#

Arxiv ID 2511.07820
幻觉翻译 2511.07820

42M 参数 + 100M 动捕帧的人形 Motion Tracking 基础模型

SONIC 把 Humanoid motion tracking 按 Scaling 思路往上拉到 42M 参数 / 1 亿动捕帧量级,通过统一 token space 支持 VR 遥操作、人类视频、VLA 等多种输入。可以看成 Humanoid WBC 的基础模型侧尝试,和 FRoM-W1、BeyondMimic 是同一个大方向上的不同切法。

推荐指数:

HoloBrain-0#

Arxiv ID 2602.12062
幻觉翻译 2602.12062

把相机参数与 URDF 作为 embodiment prior 注入的 VLA

HoloBrain-0 的核心 insight 是把多视角相机参数和 URDF 这种 embodiment prior 显式注入 VLA,用来加强 3D 空间推理和跨 embodiment 适配,同时提供 0.2B 的端侧版本。相比把 embodiment 完全交给模型隐式学,直接喂 URDF 是一个合理的工程取舍,对多 embodiment 混训的场景有用。

推荐指数:
Paper Reading: Embodied AI 9
https://axi404.github.io/blog/paper-reading-eai9
Author 阿汐
Published at January 3, 2026
Comment seems to stuck. Try to refresh?✨