Axi's Blog
Paper Reading: Embodied AI 4Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

4D-VLA#

Arxiv ID 2506.22242
幻觉翻译 2506.22242

Memory Bank + 4D 信息的 VLA

4D-VLA 本身的 VLM 主干是 InternVL-4B,使用投影到世界或者机器人坐标系下对齐的深度图以及视觉图一起编码成 Visual token 输入 VLM,之后后面接一个 Action head。

其中 4D 的体现就是使用了 Memory Bank,这个 Bank 里面采样出来的帧之间的区别要尽可能大,这个思想也比较好理解,毕竟需要保证输入给模型的帧需要有尽可能大的信息量,自然需要差异。本身各种设计都还算挺有意思的。4D-VLA 里面另一个关键,也就是其中的 3D 部分,通过将深度图提供给 VLM 来表征三维信息,则是一个需要思考的话题。本身深度图是否要提供给 VLM 一直是一个有争议的问题,因为新训练的 Visual Encoder 需要 VLM 经过一定的 pre/post-train 去适应,以及进行对齐,而在这些训练过程中,则可能以损失模型本身的泛化能力为代价。从结果上来看,貌似这篇只和 OpenVLA 进行了比较,不知道带来的增益能否抵消这种适应带来的难度。

推荐指数:

D(R,O) Grasp#

Arxiv ID 2410.01702
幻觉翻译 2410.01702

使用 DexHand 与 Object 的距离作为一种表征的 DexGrasp

D(R,O) Grasp 提取灵巧手以及物体的点云的 Feature,然后用 CVAE 预测距离矩阵,然后进行优化,因为优化可以并行,所以性能很高也很快。

推荐指数:

InstructVLA#

Arxiv ID 2507.17520
幻觉翻译 2507.17520

双阶段训练的 MOE 的 VLA

InstructVLA 本身还是 pi-like 的架构,其中 VLM 是一个 MOE,两个阶段去训练,使用了构建的大量的数据。

本质上 InstructVLA 强调了多 Stage 的训练,第一阶段直接进行动作数据的预训练,这部分在文章的 setting 下也就是使用了 OXE,然后第二阶段冻结 DP,梯度回传到 VLM,去训练 MOE 以及 LoRA。InstructVLA 是近期开始讲 Generalist 故事的论文之一,是否有必要将模型的多模态泛化能力完全在 VLA 中保持,这一点依然是个问号。

包括 InstructVLA 在内的一系列模型证明了训练 in-domain 的推理任务,可以在推理内容上从泛化角度具有一定的外拓,也就是训练了 将猩猩爱吃的食物(香蕉)放到盘子里 之后大概率可以泛化到 将海边比较常见的热带水果(椰子)放到盘子里。结果上来看,InstructVLA 也具有一定的 zero-shot 能力,还算是令人印象深刻。

推荐指数:

Fast-in-Slow#

Arxiv ID 2506.01953
幻觉翻译 2506.01953

快慢系统 VLA

FiS-VLA 算是比较意料之中的架构,一个 VLM 作为慢系统,本身 AR 输出 Language,然后一个 DP 作为快系统,Vision Encoder 的输出和 VLM 的输出 concat 并且作为 DP 的 condition。

这里面有意思的一点在于,这种架构说明在 DP 中确实可以引入异步,DP 比 VLM 快一定的速度,而同时 DP 的 condition 也可以不只是 VLM 的输出,也可以和别的内容 concat 在一起,也就给加入诸如 3D Encoder 了空间。毕竟从第一性原理考量,VLA 需要 VLM 的能力越多越好,那么就尽量不要修改 VLM 的结构,也就不能在 VLM 的前面加入 3D Encoder,那么当整体的模型希望引入更多的 perception 能力的时候,一个合理的设计自然也就是在 DP 中加入新的 embedding 进行 concat 了。

推荐指数:
Arxiv ID 2505.08712
幻觉翻译 2505.08712

DP + 轨迹选择

第一次读 Navigation 的论文,还挺有意思的。

NavDP 本身就是 Transformer 去 Fusion Goal 和 Observation,Observation 本身是 RGB-D 的,然后之后的输出作为 DP 的 condition 来输出一个 chunk 的轨迹,之后轨迹用 1D Conv 压成 Trajectory token 再次输入到同一个 shared weight 的 Transformer 中,这次后面接一个 Critic 来选择轨迹。

这个导航以及对应的任务本身其实非常巧妙,本身感觉这种级别的 Navigation 是并不需要「脑子」,本质上任务是 2D Goal 或者视觉导航,而并没有语义理解的任务难度,作为一个导航领域的 foundation model,加上使用了大量的 simulation render 的数据,完全是 scalable 并且容易 work 的,确实不错,在 solid 的情况下可以成为一些方法的 base model。

总的来说,这篇工作我还是挺喜欢的,在 DP 的范式下做出了一些探索,而且都是必要的,并且证明了一定的 scalable,很好地在自己的 scope 中闭环了。

推荐指数:
Arxiv ID 2508.04598
幻觉翻译 2508.04598

双系统 Navigation

NavA3A^3 是导航中除了如 NavDP 这种 low-level 导航之外的另一种 topic,也就是进行 high-level 的 Navigation。

本身相较于 Manipulation,Navigation 的 System 2 从故事上是更加闭环的,毕竟从一开始 SLAM 开始,一个可以被证实的事情是,导航本身至少在 Local Map 中只需要进行 2D 的规划,并且如 NavDP 这种 policy-based 还是如直接基于点云进行避障,早在很久以前都是已经验证十分有效的方案了。这也就意味着对于 Navigation 的 System 2 来说,已经可以输出最终需要的信息了,也就是最多只有三个自由度的 2D Nav Goal (x, y, yaw)。

读者假如看了之前关于在 Manipulation 中引入 VLM 并且使用各种中间表征的 Paper reading,不难发现,对于 Manipulation 来说,这些表征确实是相对「中间」的,因为 Manipulation 最后的执行是使用 6 自由度的空间的 end-effector pose 进行。这对于模型来说要不然具有极大的难度,对于 VLM 几乎学不出来,要不然则少很多的信息(如 bounding box),或者具有歧义性(如 2D trajectory)。

因此作为一个相对「粗粒度」的任务来说,VLM 确实在导航中进行了很大程度的运用。

回到论文本身,NavA3A^3 的 System 2 是 VLM,System 1 也是 VLM 但是专门训练过 Affordance,因此本身只是构建了数据以及 System 来构建一个导航的 infra system,将不同的组件串联在了一起,这方面没有过多的 highlight。本身 NavA3A^3 似乎复用了 RoboBrain 的 Affordance 的训练数据,输出依然是 Point,并且具有了非常好的效果,之后通过 Point,可以变换到机器人坐标系下,并且进行正常的导航。

推荐指数:

Genie Envisioner#

Arxiv ID 2508.05635
幻觉翻译 2508.05635

Video generation model 一气化三清为 Action model 和 simulation

Genie Envisioner 本身是用 AgiBot 的数据训练了一个 video generation model,或者说 world model,称之为 GE-Base。

GE-Base模型本身就是经典的 DiT 设计,输入是三个视角的视频编码 token + 稀疏历史记忆 + 噪声图 + 文本嵌入,每次输出一个 video chuck。模型在 AgiBot 的数据上进行了预训练,作为了后续一系列设计的一个基石,这其中预训练包括两个环节,一个是在不同帧率的视频上预训练,之后为了对齐 Embodied 这边的频率,在 5Hz 的频率上进行了微调。

另一个设计是将 GE-Base 外接一个相同架构,但是 Hidden state 更小的模型,来改造成一个 Action model,这里就是直接将 hidden state 拿出来作为 Action policy 的 condition。

同时 GE-Base 也可以作为 World Model Simulator,也就是接受 Action condition 来输出视频,作为一个仿真器。

这篇工作本身一气化三清的思路非常有意思,也是充分在 Large scale 的 pre-training 之后充分运用了 world model 的潜力。

推荐指数:

StreamVLN#

Arxiv ID 2507.05240
幻觉翻译 2507.05240

流式记忆模块的 VLM

StreamVLN 本身算是如标题所示,也算是在 Navigation 这个任务中第一次引入这种 Memory bank,类比到 Manipulation 可能有点类似于 4D-VLA 里面的做法。本身模型就是使用 LLaVA-Video 的架构,然后进行连续的多轮自回归生成即可。同时引入了使用 KV-Cache 来进行加速,但是尽管进行了 KV-Cache 的复用,但是显存开销会随着历史长度的增加而线性增长,于是对于 KV-Cache 进行压缩,使用滑动窗口来缓存。同时对于记忆,把每一帧的图像 token 通过深度信息映射到 3D 空间,如果多个帧的 token 落在同一个体素里,就只保留最新的那个,来实现 Memory bank 的采样。

StreamVLN 从思路上还是比较有趣的,不同于 4D-VLA 的 Memory 思路,StreamVLN 的 Memory 看起来更加可解释,类似于每个区域都只能包括最新的记忆,通过 3D 的空间来描述。

推荐指数:

V-JEPA 2#

Arxiv ID 2506.09985
幻觉翻译 2506.09985

自回归训练的 World Model,可以用于 Action model

V-JEPA 2 是 LeCun 的新作,本身还是按照 LeCun 一直在说的 World Model 的范式,使用自回归的范式进行训练,并且在大量的预训练之后支持了图中的动作分类、目标识别、动作预测和视频问答系统等,同时也可以作为一个 action model 来使用。

V-JEPA 2 本身本质上就是如图中左图的自回归范式,也就是将视频变为 token 之后,使用自回归的方式进行训练。如图中所示,其实本质上 V-JEPA 2 做的其实就是掩码降噪生成,也就是使用 DiT 的思路进行降噪。同时用停止梯度和 EMA 避免模型崩掉。模型本身都是 ViT 组成的。

在此基础上,使用 V-JEPA 2 的 world model 做了 V-JEPA 2-AC,可以用于动作生成。这个本质上就是预测未来的 image,并且有一个可以以 Action 为 Condition 的 world model。本身在过程中就是使用交叉熵的方法来优化 action chunk,来确保此时的 action world model 的输出尽可能接近正常 world model 的输出。

V-JEPA 2 在运动视频中理解能力很强,并且里面其实很多诸如约束 Gaussian 分布的内容很讲究,建议读者品读。

推荐指数:

MolmoAct#

Arxiv ID 2508.07917
幻觉翻译 2508.07917

OpenVLA-like 架构的 VLA 家族,引入动作推理数据进行 cotrain

MolmoAct 是 AI2 在 Manipulation VLA 领域中的新作,本身是 follow OpenVLA 的设计,同时包括了经典的 reasoning 以及 VQA 等 VLM cotraining 的任务。

MolmoAct 本身这图长得和 Pi 很像,但是实际上是 OpenVLA-like 的架构,也就是由 VLM 直接输出 Action Token,而并不是使用 DP 来输出。本身 MolmoAct 认为在 VLA 执行过程中有几个点是很关键的,比如说深度感知以及轨迹,因此本身 MolmoAct 在训练以及执行的时候会依次输出三种不同的 token,也就是深度感知 token,轨迹 token 以及 action token。在大量的数据上进行预训练之后,MolmoAct 同样需要构造自己的深度感知 token 以及轨迹 token 来让模型自回归地学习。

其中深度感知 token 是使用 VQVAE 来自回归机器人数据集中使用 Depth-Anything V2 预测的结果,并且将 VQ 中的 codebook 结果作为 token。以及轨迹,直接使用 2D 点来表示。这些东西共同组成了 post training,而预训练依然是经典的各种 grounding 数据一起上。从结果上 MolmoAct 可以提供 in-domain trajectory,并且具有一定的 zero-shot 能力。

推荐指数:

MimicGen#

Arxiv ID 2310.17596
幻觉翻译 2310.17596

mimicgen

MimicGen 本身是经典的数据生成方法,本质上是将轨迹转化为 Object centric 的 grasp pose list,并且进行切片。这里的切片本质上就是将 trajectory 划分为若干的 primitive skill,比如说开抽屉或者抓起来某个物体。那么在新的 Layout 下面,根据当前的仿真可以获得每个物体的 pose,就可以根据 object centric 的 pose list 进行变换得到新的 world frame 下的 pose,并且将不连续的片段的首尾之间使用 motion planner 进行连接,也算是十分好用了。事实上如 GR00T 等模型使用了这类方法来生成数据。

推荐指数:

SpatialVLA#

Arxiv ID 2501.15830
幻觉翻译 2501.15830

输入 semantic depth 信息的 OpenVLA-like 范式

SpatialVLA 本身是十分 Work 的方法,但是这里的图是在不是很直观,简单可以理解为提出了一种将 Spatial 信息编码为 VLM 可以使用的输入,并且使用类 OpenVLA 范式的模型进行 inference。本身的输入包括了 text 的 token 以及 Ego3D visual token。这里的 Token 的获得大概是这样的流程,通过 SigLip 获得 semantic embedding,然后用 ZeoDepth 来获得 Depth,将 semantic 投影到 3D 空间,之后再用 MLP 拿到 Token。

从本质上来说,这种 embedding 的方法综合了 depth 的表征以及本身的 semantic 信息,而不像是一些其他的工作一样,直接使用 Depth encoder 去进行处理,而且本身这里的范式因为引入了 ZeoDepth,算是从 input 上的 depth free 的范式,还是很有意思的,本身的点数也都很高。

推荐指数:

TraceVLA#

Arxiv ID 2412.10345
幻觉翻译 2412.10345

使用 2D Trace 标注作为历史信息提示的 OpenVLA-like 范式

TraceVLA 本身采用了 OpenVLA-like 的范式,如图中所示,不过不同的是加入了一张别的图片,也就是标注了 2D 视觉轨迹的图片。TraceVLA 的故事点在于,OpenVLA 是单帧输入多帧输出的模型,但是 VLA 模型有必要输入历史信息,但是使用 action history 进行输入不是很直观,于是直接计算 2D 视觉轨迹并且标注在图片上,是一个不错的做法。同时因为在图片上进行标注会遮挡本身的图像信息,所以原图也同样输入。

具体来说 Trace 的生成,就是保留一定的历史帧,使用 Co-tracker 来提取轨迹,并且保留运动的点,标注在图片上。从本质上,让 VLA 了解历史信息确实是十分必要的,不然对于单帧输入来说,假如说在 Pick and Place 的过程中前后有相似的动作,那么模型可能就难以分清前后了。标注 Trace 是一个很直接且有效的方法,问题只是在于,这看上去并不是最优雅的方法,会带来额外的计算开销。理论上类似的方案,可以直接使用机械臂的 URDF 的标注以及 Action 信息来直接计算出来这些轨迹点,并且投影到相机的像素坐标系下直接作为轨迹。

当然,有一些有趣的 ablation 其实在论文中并没有体现,但是其实是值得关注的,例如 Trace 的条数能否更少,或者说这个 <SEP> Token(用于在 Trace image 和 Image 之间进行分割)是否必要。

推荐指数:

Hume#

Arxiv ID 2505.21432
幻觉翻译 2505.21432

双系统判断最佳动作候选的 Pi-like 架构

Hume 本身也算是 Pi-like 的架构,直观理解,可以认为将 Pi 的 System 1 部分分为了两个环节,首先生成候选,再在选择的候选的基础上进行进一步的降噪。本身 System2 这里已经是 VLM + Flow Matching 的完整结构,但是在 FM Model 推理的过程中,降噪十步,把十步的输出组成一个十个 Chunk 的候选动作,评价网络从中选择 Best。System1 本身也是一个 Transformer + FM,不过这里更加轻量,同时 FM 在 Best of N Action 的基础上进行继续降噪。这里可以理解为这里的 Transformer 只是作为 fusion 存在。

本身 Hume 算是在 Pi 的基础上创建了类似于快慢系统的设计,不过这里的候选动作确实在一个降噪过程中的不同步,而非不同降噪过程,那么和在降噪过程中直接输入 Fusion 的实时 Obs 信息,如 FiS-VLA 等设计,在某种程度上是类似的,而并非如 NavDP 一样的设计,那么这里所谓的 Best of N 个人感觉并非必要的。

推荐指数:

RICL#

Arxiv ID 2508.02062
幻觉翻译 2508.02062

推荐指数:

OmniVTLA#

Arxiv ID 2508.08706
幻觉翻译 2508.08706

推荐指数:

Spatial Traces#

Arxiv ID 2508.09032
幻觉翻译 2508.09032

推荐指数:

Embodied-R1#

Arxiv ID 2508.13998
幻觉翻译 2508.13998

推荐指数:

RynnEC#

Arxiv ID 2508.14160
幻觉翻译 2508.14160

推荐指数:

TinyVLA#

Arxiv ID 2409.12514
幻觉翻译 2409.12514

推荐指数:

MemoryVLA#

Arxiv ID 2508.19236
幻觉翻译 2508.19236

推荐指数:

RoboRefer#

Arxiv ID 2506.04308
幻觉翻译 2506.04308

推荐指数:

HERMES#

Arxiv ID 2508.20085
幻觉翻译 2508.20085

推荐指数:

Discrete Diffusion VLA#

Arxiv ID 2508.20072
幻觉翻译 2508.20072

推荐指数:

G0#

Arxiv ID 2509.00576
幻觉翻译 2509.00576

推荐指数:
Paper Reading: Embodied AI 4
https://axi404.github.io/blog/paper-reading-eai4
Author 阿汐
Published at July 28, 2025
Comment seems to stuck. Try to refresh?✨