

Embodied AI Paper List
Paper Reading 之后,重走 EAI。
前言#
在经历了去年以及今年大量的论文阅读之后,因为事务的繁忙,导致我并没有很多的时间去将那些我阅读的论文全都记录下来,从而伴随着累积的论文越来越多,到了 6 月初的时候居然已经积压了 100 多篇。事实上,伴随着对于领域理解的越发深入以及领域的发展,在具身智能领域中,大量的论文内容其实是几乎雷同的,只有少数论文包含了一些可参考的方案。如果从论文阅读的角度,那些事实上有些平庸,但是解法正因为平庸而显得规矩的论文,也是需要加入到阅读列表中,并且如实记录下来,这样才是对于读者的负责的态度。不过,这显然就极大地增加了我写作的压力。
如果我们将这些论文的差异进行比较的话,我们会发现几篇论文之间的差异可能是微小的。但是如果单从一篇论文的提出方法来看,则又需要介绍很多。在往期的论文阅读中,事实上已经有了类似的现象,我们准确归纳了一些词汇,比如 Pi-like 的模型,或者经典的 MoT 设计。在每一篇论文的阅读介绍中,我们几乎要不厌其烦的重复这些话很多遍,而甚至从本质上来说,几篇论文之间都可以用同样一句话进行归纳,这显然是对于精力和时间的浪费。
就像之前将自己的周记改为月记一样,某种程度上也是我打算再偷一次懒,而对于读者来说,或许也是一件好事。在本文中,我们不再会对于每一篇论文进行甚至算不上精读的介绍,而是将顺着整体的具身发展的脉络,将全部的论文串联起来,并且分为几个我所感兴趣的模块,一方面,我们会看到这些模块中不同的论文的交互之下,它们的区别以及是如何发展的。当然,值得一提的是,这些内容中不可避免会有一些所谓左右脑互搏的观点。具身智能依然是一个发展为时尚浅的学科,一些实验的不充分导致不同的论文或许会给出不同的结论,我们会将它们全都整理起来,以供参考。
VLA 模型#
作为一切的开始以及具身智能中最核心的概念,VLA 显然是最重要的章节。按照更加泛化的定义,所谓 VLA 模型指的是接受 Vision 以及 Language 输入,并且输出包含 Action 的大模型。通常我们认为它们会经过一定程度上的预训练,无论是基于以前的 LLM 或者 VLM 的先验知识,还是现有一些初创公司所闭源训练的,以及未来可能会存在的开源的原生 VLA 模型。
VLM-VLA#
所谓 VLM-VLA,也就是我们常讲的狭义上的 VLA 模型,往往是基于一个经过预训练的 VLM 或者 LLM 作为 backbone 进行设计,并且在 Robot Data 上进行后训练。
RT-2 以及 OpenVLA 是比较经典的早期 VLA 模型,都是使用预训练的 LLM 作为 Backbone,自己接入了 Visual Encoder,对于动作进行分箱处理,作为 Token 使用,并且直接以 Next Token Prediction 的方式进行训练。

则是继 OpenVLA 这一范式之后的又一经典。 除了本身的预训练效果取得了不错的成果,论证了预训练的模型可以获得更好的性能(在 VLA 领域中,暂时不存在所谓的 Zero-shot 能力,但是预训练往往可以帮助模型在后训练时获得更好的性能),并且在后续作为了经典的 Baseline。同时, 一次性引入了多个在后续被广泛使用的 Setting,当然,这些内容一开始的出处在这里不作考证,包括使用 MoT 进行 LLM 以及 Actor 的交互(见 Bagel),使用 Flow Matching Loss 训练 Actor。

对于 有启发的工作包括 TinyVLA 以及 CogACT 等,他们都使用了 VLM 和 Actor 分离的设计,来避免后训练中对于 VLM 能力的灾难性破坏。在此之后 是 的一个 Follow-up,引入了更加系统的设计,使用 Web VLM Data 以及离散动作进行预训练,并且在后训练中也包括 sub goal prediction 的环节,并且具有了一些 Zero-shot 能力。其中比较值得考虑的是在预训练阶段引入离散的 Action Token,这一设计在后面的工作被 Follow-up。

与此同时另外一些值得参考的论文如下,他们均探讨了 VLM 与 Actor 的连接方式:
| 论文 | 主要贡献 |
|---|---|
| TinyVLA | 首次提出 VLM + Actor 设计,使用 VLM 的 embedding 作为 Condition |
| CogACT | 使用类似于 BERT 的 CLS Token 的 Cog Token 作为 Condition ![]() |
| RoboDual | 快慢系统设计,慢系统预测离散 Action 作为 Condition ![]() |
| ChatVLA-2 | 使用 Dynamic MOE |
GR00t 是 NVIDIA 出品的另一系列的 VLA 模型,本身使用 Cosmos VLM 的 Hidden State 作为 Condition,提供给下游的 Actor。相较于之前的 系列模型,除了连接方式上的差异,GR00t 引入了 Latent Action,即通过 VAE 的方式从视频中提取的一种动态特征,可表征 Action 类似的含义,作为预训练的组成部分。

LAPA 较为早期提出了 FDM 和 IDM 模型的设计以及概念,一个 Encoder 输入 以及 预测 ,Decoder 输入 以及 预测 ,从此我们认为其中的 可以表征一种动态信息,或者说其实本身就是预测光流的表示。

不过 LAPA 的设计存在一些问题,这些画面的变化不止包括动作本身,还有其他因素,因此后续也存在一些 Follow-up 来解决这一问题:
| 论文 | 主要贡献 |
|---|---|
| UniVLA | 提出了一种两阶段的训练来更好地提取 Latent Action ![]() |
在发展的过程中,包括 Sub Goal Prediction 的任务设计,使得一些研究者认为需要 Reasoning 以及 Planning 的能力聚合在 VLA 中,其中一种方案是让模型学习一种 Interleave 的模式。
| 论文 | 主要贡献 |
|---|---|
| OneTwoVLA | 使用 Token(BOR & BOA)在 Reason 以及 Action 之间切换 |
| CoT-VLA | 先预测 Future Obs 作为 CoT ![]() |
同时, 使用的预训练中包含多种不同的机器人数据,使得一些研究者开始研究如何进行跨本体的预训练,这其中 使用比较直接的 Zero-Padding 的方案,于此同时一些其他的研究如下:
| 论文 | 主要贡献 |
|---|---|
| RDT-1B | 使用 Unified Action,即将不同的本体的动作分配到一个很长的 Space 上的不同位置 |
另外,在 中所探索的,在预训练中使用 Action Token,使得一些研究者开始探索动作离散化的方案,这其中 系列中使用的是同样出自 PI 的 FAST Tokenizer:
| 论文 | 主要贡献 |
|---|---|
| FASTer | 使用 action patchifier 以及 RVQ Tokenizer |
| Actioncodec | 定义了一些合理的 Training Objective 并且设计了对应的结构 |
Policy 模型#
站在 VLA 模型的对立面,policy 则是我们对于另外一种模型的名称概括。通常来说,这些模型的参数量较小,具有着某种来自于计算机视觉领域较早时期的风格,它们往往基于一些 Transformer block 以及一定的 encoder 进行设计,并且论文的创新点或许也主要集中在对于模型结构内特征交互的改进。
ACT 是最为经典的 Policy 模型,虽然在 23 年提出,但是在如今大量的机器人公司的 Demo 调试中依然被广泛使用,大多数时候因为 Demo 需要鲁棒的过拟合,ACT 的设计显然是非常适合的。本身 ACT 使用了 CVAE 来预测 Action,是一种直接且有效的方案。本身 ACT 提出了 Action Ensemble,即将预测的 Action 进行 EMA 平滑。

RT-1 是谷歌团队基于他们自己采集的数据集训练的 Policy 模型,即 Robot Transformer,虽然在此之后很快,RT-2 就成为了 VLA 的范式,但是本身这篇论文依然比较经典。

另外比较经典的就是 Diffusion Policy,也就是直接使用 Diffusion 来预测 Action,并且用 Obs 作为 Condition,这一方法在后续得到了大量 Policy 论文的 Follow-up,有必要注意的是 3D Diffusion Policy,其本身输入的内容变为点云,使得在其他工作的应用中,可以通过仿真或者其他无法生成可靠贴图,但是存在可靠点云的数据中进行训练。




