Paper Reading: Embodied AI 7

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

Embodied AI Paper Reading

VITA-E#

Arxiv ID 2510.21817

幻觉翻译 2510.21817

VLM+VLA 的双系统框架，讨论了交互模式

VITA-E 如图所示，这篇工作提出了一个标准的双系统，其中一个是 VLM，在一般情况下待机，用户交互的时候有可能输出 [act] token 并且让 VLA 进行推理。从性能上来说，VITA-E 的性能低于 GR00t，硬要说的话，可能算是某种产品设计。

如上所示，给出了一些不同的交互模式，大概这就是这篇的全部。

推荐指数：

OmniDexGrasp#

Arxiv ID 2510.23119

幻觉翻译 2510.23119

使用图像生成以及其他的基模组成的 DexGrasp Modular Framework

OmniDexGrasp 的内容如图所示，基本的方法就是使用图片生成模型以及图转 Human DexPose 的模型，来对于当前的任务生成 Grasp pose，之后转到 Dex Grasp，并且使用 GPT 预测力的大小来进行所谓的 Force-Aware Adaptive Grasping。事实上大多数 Modular Framework 都具有不灵活的 Limitation 并且包含了大量的调试才获得 Demo，这个方法依然如此，甚至 Limitation 到了几乎 Grasp。同时，这里所谓的 Force-Aware Adaptive Grasping，引入 GPT 似乎也没有必要，给一个比较小的力就好了，就不会出现论文插图中捏爆物品的 Case。

推荐指数：

Dexbotic#

Arxiv ID 2510.23511

幻觉翻译 2510.23511

VLA 工具箱

Dexbotic 是 Dexmal 的 VLA 工具箱，包括了数据、模型以及测试部分，从仓库居然还在更新而不是弃用来看，还是有一定决心的。本身 Dexmal 还是想要做 all in one 的，不过在这里主要说一下 Limitation。一方面就是仓库做的又大又满，做的一些抽象也不是很恰当，导致用户需要写大量的内容；另一方面就是其中复现了很多论文，显示了使用 Toolbox 带来的性能提升，但是问题是，假如说就是普通的复现，为什么每一个模型都会有性能提升，这是什么原理？假如说是原来模型的训练代码有 Bug，那么也可以指出，但是假如说只是使用一套 Infra（而且似乎底层的优化不多），性能提升从何而来？有的时候这似乎并不一定是一件好事，反而引人担忧。

推荐指数：

RobotArena $\infty$ #

Arxiv ID 2510.23571

幻觉翻译 2510.23571

使用 Framework 从视频中恢复仿真场景并使用 VLM/Human in the loop 的 VLA 测评

RobotArena $\infty$ 的内容如图所示，基本的方法就是使用 Framework 从视频中恢复仿真场景，大概就是经典的 Depth 估计以及 3D 生成模型，之后生成一些物理参数，做出来仿真场景（事实上这个场景可以预料，loop 里面还是有相当多的 Human 在里面的）。本身论文通过这种方法从几个经典的数据集中生成了大量的 Benchmark，然后使用 VLM/Human in the loop 对 VLA 进行测评。事实上我并不认为这种方法对于当下是恰当的，当然效仿 LMArena 的想法是很有趣的，因此值得一个赞扬。Limitaion 主要在于，对于当下的 VLA，绝大多数任务的评价标准都是绝对的，比如说是否完成这种事情，在仿真中利用特权信息直接判断是绝对准确的，完全没有必要引入 VLM 或者 Human 进行评价，至于操作是否稳定作为标准，肉眼可见的很长时间内并非是社区的关注点。

推荐指数：

World-Env#

Arxiv ID 2509.24948

幻觉翻译 2509.24948

使用 VLA Rollout 训练 WM Simulator，使用 WM Reward 来 RL 训练 VLA

World-Env 的内容如图所示，基本的方法就是使用 VLA 在仿真器或者现实中的 Rollout 以及一些采集的数据，训练 WM Simulator；之后使用 WM Simulator 以及 Reward 来 RL 训练 VLA。World-Env 给出了十分清晰的框架，并且肉眼可见是 Scalable 的，相较于一开始就各种叠 Buff 的 WM-Simulator-RL-VLA 类型的工作，这篇毫无疑问值得一读。

为数不多的问题可能依然在于 Reward 问题，也是 WM Simulator 笔者认为比较明显的问题，即存在 Bias。假如说从 Rollout 里面均匀采样，多半 Simulator 倾向于输出失败信号；从训练数据里面学习，最后 Simulator 都会输出成功信号。二者联合起来不知道能否在一定程度上解决这个问题，还是说需要一个精心设计的动态 Dataloader 来 balance 这一切。整体这篇底子不错，剩下的就只需要基模提升以及范式继续 Scale up 了。

推荐指数：

DUST#

Arxiv ID 2510.27607

幻觉翻译 2510.27607

Joint Diffusion 的 Pi-like VLA

DUST 本身的设计就是常见的 Pi-like 模型，但是有趣的地方在于进行了 WM 的建模，并且是通过 Joint Diffusion 的方式来进行的。具体来说，就是 VLM 的 Condition 给到 DiT，然后 FM 部分是 MMDiT + 各自的一小段 DiT 组成的，在训练的时候进行协同优化。其中包括一些有趣的细节，比如说之前有研究证明每种模态使用独立的噪声注入，就可以将两种模态扩散的联合目标分解为单峰值扩散损失之和，运用这一点，就可以直接将 Loss 加在一起；还比如说，因为 Image 按理来说 Diffusion Step 数量应该多一些（因为需要更多迭代才可以高质量），因此两者可以频率不同进行推理，类似于图片推四步而 Action 推一步；当然，还有比较经典的，WM 部分预测 hidden state 而非 Pixel。本身工作是相当有趣的，一个引人思考的点在于，这样子是否相当于引入了一个 WM，那么引入一个预训练的 WM 会不会有好处。

推荐指数：

$\pi_{RL}$ #

Arxiv ID 2510.25889

幻觉翻译 2510.25889

两种在 Pi-like 模型中引入 RL 的范式

对于 RL 方法来说，一般来说都需要获得到 $\log(\pi(a|s))$ 的值，从而进行诸如 GRPO 的内容，但是在 FM 里面，因为涉及多轮迭代，这一过程并不容易计算，因此论文提出了两种方法，Flow-Noise 以及 Flow-SDE 来解决这个问题。首先，对于 Flow-Noise，将降噪阶段建模为离散 MDP，可以直接计算 logits；对于 Flow-SDE，则是在最后构建了一个两层的 MDP，这些细节都可以在论文中看到。

同时对于 Critic 模型，也有两种方案，也就是从 VLM 里面构建以及从 FM 里面构建，可以说都是进行了全面的探索。本身论文是 RLinf 他们做的，基于 RLinf，可以说对于 VLA RL 进行了十分 Solid 的探索。

推荐指数：

RobustVLA#

Arxiv ID 2511.01331

幻觉翻译 2511.01331

在 RL 流程里面引入扰动来增强 VLA 鲁棒性

RobustVLA 这篇论文比较好理解，如图所示，就是在 RL 流程里面引入扰动来增强 VLA 的鲁棒性。主要的 Limitation 在于几点，首先，在训练 RL 的流程中引入噪声，这显然就是之前的 Locomotion 的常见做法，从创新性上几乎没有；其次，试验中明显也是对于自己添加 Randomized 的方向进行测试；最后，本身通过此类干扰是不能真正让模型鲁棒以及泛化的，不同于 Locomotion 在现实中因为电机等问题的 Sim2Real，因此在力方面需要有大量的训练，VLA 更多的问题在于指令以及视觉特征的泛化，显然 RobustVLA 在这方面具有相当大的局限，也是为什么从 Locomotion 直接照搬方法显得如此不恰当。

推荐指数：

Cosmos-Predict 2.5#

Arxiv ID 2511.00062

幻觉翻译 2511.00062

Nvidia 的 World Model 技术报告

Cosmos-Predict2.5 是 Nvidia 的最新 World Model 技术报告，如图所示，主要就是对前作进行了升级，包括了更加丰富的数据集以及更加全面的训练。本身模型基于 FM 构建，将 Text2World、Image2World 和 Video2World 统一集成于单一模型中，并利用物理 AI 视觉语言模型 [Cosmos-Reason1] 提供更丰富的文本基础与更精细的世界仿真控制。论文里面还介绍了包括说各种数据管线，以及一些下游用法。从性能上似乎不如 Wan2.2。

推荐指数：

PLD#

Arxiv ID 2511.00091

幻觉翻译 2511.00091

使用残差强化学习收集数据重新训练 VLA

The pipeline of PLD

本文提出了 Probe, Learn, Distill (PLD) 框架，通过残差强化学习实现视觉-语言-动作模型的自我改进。该方法分三个阶段：探测基础模型的薄弱环节、收集恢复轨迹数据、将样例蒸馏回模型。从本质上来说 PLD 就是一种强化学习思路，大概就是用一个残差网络来学习 VLA 的残差，并且进行强化学习，之后强化学习完成的数据可以去回流，然后模型重新 SFT。这种思路看上去是很有趣的，按理来说对于主模型来说是存在的一种 offline RL，并且可以收集更多的数据来进行 cross-task co-training，这是传统 VLA-RL 不太擅长的。

不过论文的一些问题也比较显然。看似 PLD 提出了一种数据飞轮，但是实际上只是一种数据增强，毫无疑问的是，PLD 既然是残差学习，因此一定依赖本身的主模型具有一定的性能，也就需要主模型具有一定的后训练数据（在当下的模型泛化能力的视角上来看），因此本身 PLD 从数据角度来看，更多地还是引入了如恢复以及更多的多样性，从而让模型的性能更好，同时可以无限 rollout。另一方面，一些疑惑在于，比如说残差学习和直接 VLA-RL 来 rollout 的区别如何，RL + 数据回流的故事是合理的，但是残差在这里面的效果有多大，似乎也并没有很多的阐述。不过总体而言还是很有意思的论文。

推荐指数：

PixelVLA#

Arxiv ID 2511.01571

幻觉翻译 2511.01571

引入视觉 prompt 作为提示的 OpenVLA-OFT like VLA

The pipeline of PixelVLA

本文提出 PixelVLA，通过增强像素级场景理解和视觉提示能力来改进机器人控制。该模型结合了多尺度像素感知编码和自动生成的 Pixel-160K 数据集（包含像素级标注）。本身 PixelVLA 的结构就是一个 Llama 后面跟上 MLP 来输出 Action，之后输入 vision + text + visual prompt。本身似乎没什么特别的地方，大概是意料之中的模型，中规中矩。

推荐指数：

RL-100#

Arxiv ID 2510.14830

幻觉翻译 2510.14830

Real World RL 的实践案例

The pipeline of RL-100

本文提出 RL-100 框架，将基于扩散的视觉运动策略与强化学习相结合用于机器人控制。通过 PPO 风格目标统一模仿学习和强化学习，大概和 $\pi_{RL}$ 使用类似的思路，都是将降噪描述为 MDP 来构建公示。另一个 Trick 是使用一致性蒸馏将多步扩散压缩为单步控制。本身的思路就是对于一个 Task 分为三个环节，先 IL，之后 offline RL，然后 online RL。本身内容没有开源，但是还是挺有意思的。

推荐指数：

TWIST2#

Arxiv ID 2511.02832

幻觉翻译 2511.02832

全身遥操作的数据收集系统

The pipeline of TWIST2

本文提出 TWIST2，一个可扩展、便携且全面的人形机器人数据收集系统。该系统利用 VR 技术结合定制机器人颈部实现第一人称视角，无需运动捕捉设备即可进行全身控制。本身 TWIST2 就是一个采集系统，大概还是用一个通用运动跟踪 RL 控制器来控制全身，PICO 以及两个腿部 Tracker 来获得位姿。然后用称之为 Holistic Retargeting 的内容来进行重定位，大概就是上半身只对齐了旋转，进行了一些工程妥协。同时似乎还加入了脖子的自由度，对于成功率有帮助。算是还可以的数据采集的 infra 内容。

推荐指数：

iFlyBot-VLA#

Arxiv ID 2511.01914

幻觉翻译 2511.01914

同时使用 Fast Token 以及 Latent Action Token 的 Pi-like VLA

The pipeline of iFlyBot-VLA

本文介绍 iFlyBot-VLA。本身 iFlyBot-VLA 算是全缝了，也取得了不错的效果。其中 Latent Action 就是 LAPA 故事下的内容，获得 Latent Action，同时使用了 Fast Token，然后以及 Language 的输出，之后用 MoT 的方式接到 Actor 上面（一个细节是不加入 Fast 相关的 KV 部分）。不过还是很好奇不包括 Fast 的原因，似乎本身没有很多的消融。

推荐指数：

Isaac Lab#

Arxiv ID 2511.04831

幻觉翻译 2511.04831

Isaac Lab 仿真平台

本文介绍 Isaac Lab，作为 Isaac Gym 的继任者，本身是在 Isaac Sim 的基础上搭建的。这篇论文算是一些技术报告相关的内容，介绍了很多的 Feature，包括了很多的实现，以及讲了一些将来的规划，不再赘述。

推荐指数：

PhysWorld#

Arxiv ID 2511.07416

幻觉翻译 2511.07416

Image to Video to Data 的数据孪生管线

The pipeline of PhysWorld

本文提出 PhysWorld，结合视频生成与物理世界重建用于机器人学习。本身的方法也是比较显式的，就是用图片生成视频，以及重建出来一个仿真场景，然后本身用 RL rollout 来生成数据，RL 的 reward 是 follow 操作物体的轨迹，也算是一种 dense reward，算是偏 paper 向的数据管线，本身可以 sim2real。

推荐指数：

How Do VLAs Effectively Inherit from VLMs?#

Arxiv ID 2511.06619

幻觉翻译 2511.06619

VLA 如何有效继承 VLM 的知识的 Know How

本文探讨了视觉-语言-动作模型（VLA）如何有效继承视觉-语言模型（VLM）的知识用于具身智能控制。本身你论文里面设置了一个很有意思的任务，大概就是 touch emoji 的图片，因为本身 emoji 需要 VLM 的先验以及理解能力，所以说可以很好地进行 study。一些结论在论文中的实验部分给出了，可以详见论文中。在这里概括一些。首先 VLM 的先验是有必要的，毕竟本身上面的任务就需要这种先验，而且本身不然的话，这么大的随机权重也很难 tune 起来；然后 LoRA 或者 Frozen VLM 虽然可以提升 SR，但是容易欠拟合，尽量还是要一起训练；一起训练的问题在于灾难性遗忘，因此 co-training 在里面被验证是有效的。LAPA 类型的 Latent Token 相较于离散 Token 对于训练效果更好。非机器人相关的 VLM 数据也可以 benefit VLA。这些内容基本上也和比如说 InternVLA-M1 的一些结论很一致。算是我很喜欢的类型的论文了，非常不错的 study 类型的 paper。

推荐指数：

UMIGen#

Arxiv ID 2511.09302

幻觉翻译 2511.09302

UMI + DemoGen 的数据采集管线

The pipeline of UMIGen

本文提出了 UMIGen，包括 Cloud-UMI 手持数据采集设备（无需视觉 SLAM 技术即可捕获点云和动作对）以及专为自我中心 3D 观察设计的优化机制，在采集了数据之后就可以使用 DemoGen 一样的方式进行数据的大量扰动（也可以称之为生成），之后用于训练。类点云尤其是类 DemoGen 的数据很大的问题就在于依赖 3D 表征，因此难以 leverage VLM 的能力（要不然就需要重新 FT），大概都是以使用 DP3D 作为模型为主，不过本身方法还算是有意义的 A+B。

推荐指数：

RoboCOIN#

Arxiv ID 2511.17441

幻觉翻译 2511.17441

多平台数据集

The overview of RoboCOIN

本文介绍了一个面向双臂机器人学习的综合多平台数据集，包含来自15个不同机器人平台的超过18万个演示数据。研究团队开发了分层标注体系，涵盖轨迹概念、分段子任务和帧级运动学，并构建了CoRobot处理框架和机器人轨迹标记语言(RTML)用于质量控制和统一数据管理。实验表明该数据集在不同模型架构和机器人系统上均能提升性能，所有资源已向研究社区开源。本身 RoboCOIN 算是一个新时代的 OXE，提供了大量的数据集。当然这其中实验其实有一些问题，比如说我们其实更想要看到一些更加直观的预训练效果，但是似乎论文没有直观回答这个问题，而只是比较了 w/HAI 的提升。同时，RTML 是一个可以评估数据质量的体系，具有参考价值。

推荐指数：

AdaptPNP#

Arxiv ID 2511.11052

幻觉翻译 2511.11052

古早的 modular framework 思路

The pipeline of AdaptPNP

AdaptPNP 本身还是一个 Modular Framework 类型的内容，也就是类似于 OmniManip 的工作。从本质来说，AdaptPnP 并不比 OmniManip 多什么东西，因此在这里简单说一下内容。本身方法设置了若干的原子技能，比如说 Pick（调用 AnyGrasp）以及 MoveTo，然后交给 VLM 进行调度，同时方法是闭环系统，因此可以不断地尝试，从而提高成功率。相对来说和 MOKA 相比引入了 Digital Twin 从而可以处理 3D 的一些操作，但是可以预料的是依然鲁棒性不高。意料之中的 Modular Framework 工作。

推荐指数：

RynnVLA-002#

Arxiv ID 2511.17502

幻觉翻译 2511.17502

基于 Chameleon 的 VLM + WM + Actor VLA

The overview of RynnVLA-002

本文提出将视觉-语言-动作能力与世界模型相结合的统一系统，世界模型组件根据动作和图像预测未来视觉状态，VLA组件从视觉输入生成动作。RynnVLA-002 本身基于 Chameleon 这个 Unify 模型训练，也就是可以直接端到端生成图片的 VLM 模型，之后加入了 Action。模型本身同时输出离散 Action，并且 VLA Token 过一个 Transformer 直接输出连续的 Action Chunk，与此同时还预测图片。总体来说算是利用 Unify Model 来训练的意料之中的工作，实验结果中观察到各种预训练（其实就是利用预训练权重）带来的增益，但是本身自己的训练还是局限于后训练，没有给出太多的 insight（其中一些，比如说离散动作加速收敛，结论看上去给的相当草率）。模型本身的性能似乎不高，与之前的 001 似乎也不是在一条故事线上。不过对于想要了解如何将 Unify Model + VLA 走通，似乎是一个可以看一看的工作。毕竟本身相较于视频 WM，Unified 模型可以提供更好的一些 hidden state，这应该是对于整体的性能有好处的。

推荐指数：

Motus#

Arxiv ID 2512.13030

幻觉翻译 2512.13030

VLM + WM + Actor 的 Pi-like MoT VLA

Motus 提出了一个统一的机器人学习框架，将感知、视频预测和控制整合到单一系统中。本身 Motus 做的事情和包括 F1-VLA 以及 InternVLA-A1 相当类似，也就是使用一个 MoT 将 VLM、WM 以及 Actor 一起作为 MoT 去使用。Motus 也使用了比如说 Latent Action 在内的内容，并且构建了自己的数据金字塔，并且有一套自己的训练范式，确实在更广泛的数据上进行了预训练，并且在 RoboTwin2 的 Benchmark 上面结果不错。当然其中还是有一些 Tricky 的点，比如说做低了大多数模型的在 RoboTwin2 的性能，因此只限制到了 40k step，对于他们的训练 Setting，即使用全部的 Clean + Random 数据，甚至跑不完 0.2 个 Epoch，而 Motus 本身的预训练数据中就已经包含了 RoboTwin 的数据，因此获得了更多的训练机会，显然是不公平的。但是总的来说，我其实一直看好 F1-VLA Like 的工作的进一步探索（虽然我不知道为什么他们没有 cite），因为 VLM + WM + Actor 理论上可以 Leverage 到尽可能多的数据，之前 F1-VLA 没有进行这方面的探索，被 Motus 补齐了，而且伴随着不同的 stage 的训练，模型性能还是获得了提升的。总体来说是瑕不掩瑜的佳作。

推荐指数：

WholeBodyVLA#

Arxiv ID 2512.11047

幻觉翻译 2512.11047

上下肢分离并使用 LAM 的全身 Manipulation

WholeBodyVLA 针对人形机器人全身控制提出了统一的视觉-语言-动作框架。本身还是 follow 了 LAM 的思路，训练了两个 LAM，一个在静止环境，一个在移动操作环境，从大量低成本的无动作视频中联合进行运动–操作学习，然后从而让 VLM 输出 Latent Action，再由 decoder 变为上肢的 Joint Position 以及下肢的动作信号，动作信号大概就是行为级别，需要过一个 LMO 的 RL Policy 才可以变成正常的移动。本身算是比较合理的实现思路，但是并不是大家意料中的，所谓 WholeBody 是一个模型直接高频控制全身。

推荐指数：

NORA-1.5#

Arxiv ID 2511.14659

幻觉翻译 2511.14659

Pi-like VLA + WM DPO RL 的 VLA

The pipeline of NORA-1.5

本文提出了 NORA-1.5，一个使用世界模型和基于动作的偏好奖励训练的视觉-语言-动作模型。本身模型训练一共有三个 Stage，首先训练 VLM 输出 Fast Token，之后接一个 FM 然后输出连续 Token 以及 VLM 输出 Fast Token 来 co-training，然后用 DPO 来训练模型。这里的 DPO 的 Reward 包括和 GT Action 的距离，以及 V-JEPA-2-AC 预测下一帧图像来和 GT 图像的距离。NORA-1.5 算是比较少见使用 DPO 的方法，好处是可离线并行生成 preference，也带来了部分的性能提升。

推荐指数：

InternData A1#

Arxiv ID 2511.16651

幻觉翻译 2511.16651

大规模仿真数据管线以及数据集

本文展示了大规模合成数据可以达到与真实机器人数据相当的视觉-语言-动作模型性能。InternData-A1 数据集包含超过 63 万条轨迹和 7,433 小时的数据，覆盖 4 种实体、18 项技能、70 个任务和 227 个场景，包括刚性、铰接、可变形和流体操作。本身 InternData-A1 还是为社区提供了大量优质的数据作为一个数据集，同时还有一个很好的仿真合成管线，这个管线有开源计划。

A1 的数据本身做了两个很不错的 milestone，一个是预训练在一些 Benchmark 上面击败了 Pi0，另一个则是实现了完全的 sim2real 单任务后训练，可以不使用真机数据就有不错的效果。更多的内容我其实专门写过一篇博客，见这里。总体的结论来说，仿真数据依然展现出来了比较明显的边际效益，A1 大概将其推到了一个不错的 limit，但是继续更进一步也就需要更多的努力了。不过也期待社区后续的 follow up。

推荐指数：

Embodied AI Paper Reading

VITA-E#

OmniDexGrasp#

Dexbotic#

RobotArena ∞\infty∞#

World-Env#

DUST#

πRL\pi_{RL}πRL​#

RobustVLA#

Cosmos-Predict 2.5#

PLD#

PixelVLA#

RL-100#

TWIST2#

iFlyBot-VLA#

Isaac Lab#

PhysWorld#

How Do VLAs Effectively Inherit from VLMs?#

UMIGen#

RoboCOIN#

AdaptPNP#

RynnVLA-002#

Motus#

WholeBodyVLA#

NORA-1.5#

InternData A1#

RobotArena $\infty$ #

$\pi_{RL}$ #