

Paper Reading: Embodied AI 4
从一些 Embodied AI 相关工作中扫过。
4D-VLA#
Memory Bank + 4D 信息的 VLA
本身的 VLM 主干是 InternVL-4B,使用投影到世界或者机器人坐标系下对齐的深度图以及视觉图一起编码成 Visual token 输入 VLM,之后后面接一个 Action head。另外就是使用了 Memory Bank,这个 Bank 里面采样出来的帧之间的区别要尽可能大。本身挺有意思的。深度图是否要提供给 VLM 一直是一个有争议的问题,因为新训练的 Visual Encoder 需要 VLM 经过一定的 pre-train 去适应,貌似这篇只和 OpenVLA 进行了比较,不知道带来的增益能否抵消这种适应带来的难度。
D(R,O) Grasp#
使用 DexHand 与 Object 的距离作为一种表征的 DexGrasp
提取灵巧手以及物体的点云的 Feature,然后用 CVAE 预测距离矩阵,然后进行优化,因为优化可以并行,所以性能很高也很快。
VLA-RL#
Reward model + RL 训练 VLA
训练了一个类似于 OpenVLA 架构的 Reward model,然后使用 RL 来 finetune VLA。
InstructVLA#
双阶段训练的 MOE 的 VLA
还是 pi-like 的架构,其中 VLM 是一个 MOE,两个阶段去训练,使用了构建的大量的数据。本质上 InstructVLA 强调了多 Stage 的训练,以及在训练中持续保持 VQA 能力的重要性。结果上来看,InstructVLA 也具有一定的 zero-shot 能力,还算是令人印象深刻。
Fast-in-Slow#
快慢系统 VLA
FiS-VLA 算是比较意料之中的架构,一个 VLM 作为慢系统,本身 AR 输出 Language,然后一个 DP 作为快系统,Vision Encoder 的输出和 VLM 的输出 concat 并且作为 DP 的 condition。
这里面有意思的一点在于,这种架构说明在 DP 中确实可以引入异步,DP 比 VLM 快一定的速度,而同时 DP 的 condition 也可以不只是 VLM 的输出,也可以和别的内容 concat 在一起,也就给加入诸如 3D Encoder 了空间。毕竟从第一性原理考量,VLA 需要 VLM 的能力越多越好,那么就尽量不要修改 VLM 的结构,也就不能在 VLM 的前面加入 3D Encoder。
NavDP#
DP + 轨迹选择
第一次读 Navigation 的论文,还挺有意思的。本身就是 Transformer 去 Fusion Goal 和 Observation,Observation 本身是 RGB-D 的,然后之后的输出作为 DP 的 condition 来输出一个 chunk 的轨迹,之后轨迹用 1D Conv 压成 Trajectory token 再次输入到同一个 shared weight 的 Transformer 中,这次后面接一个 Critic 来选择轨迹。
这个导航以及对应的任务本身其实非常巧妙,本身感觉这种级别的 Navigation 是并不需要「脑子」,本质上任务是 2D Goal 或者视觉导航,而并没有语义理解的任务难度,作为一个导航领域的 foundation model,加上使用了大量的 simulation render 的数据,完全是 scalable 并且容易 work 的,确实不错,在 solid 的情况下可以成为一些方法的 base model。
Nav#
双系统 Navigation
System 2 是 VLM,System 1 也是 VLM 但是专门训练过 Affordance,感觉是复用了 RoboBrain 的 Affordance 的训练数据,输出依然是点。然后后面可以变换到机器人坐标系下,并且进行正常的导航。
Genie Envisioner#
Video generation model 一气化三清为 Action model 和 simulation
用 AgiBot 的数据训练了一个 Video generation model,输入是 obs, instruction 以及 history,可以输出 Video,或者把 hidden state 拿出来作为 Action policy 的 condition,或者接受 Action condition 来输出视频,作为一个仿真器。
本身一气化三清的思路非常好玩有意思,这里好奇的一点是,AgiBot 的数据集肯定绝大多数的视频都是成功的任务采集,那么在失败和成功是 imbalance 的情况下,有没有可能训练的 simulator 会倾向于输出成功的情况?这个可能需要进一步的实验,paper 里面也没有展开说,不过说回来,本身很有趣。
StreamVLN#
流式记忆模块的 VLM
如题所示,也算是在 Navigation 这个任务中第一次引入这种 Memory bank,类比到 Manipulation 可能有点类似于 4D-VLA 里面的做法。其中 History 的选择也比较自然,选择最近的以及差距最大的。
V-JEPA 2#
自回归训练的 World Model,可以用于 Action model
本质上就是如图中左图的自回归范式,并且可以用于动作生成,这个本质上就是预测未来的 image,并且有一个可以以 Action 为 Condition 的 world model,找到这个的输出和一般预测的最小距离的 Action,大概是这样的含义。V-JEPA 2 在运动视频中理解能力很强,并且里面其实很多诸如约束 Gaussian 分布的内容很讲究,建议读者品读。
MolmoAct#
OpenVLA-like 架构的 VLA 家族,引入动作推理数据进行 cotrain
本身这图长得和 Pi 很像,但是实际上是 OpenVLA-like 的架构,也就是由 VLM 直接输出 Action Token。这里面还进行了别的 Token 的加入,比如说使用 VAE 做出来的深度感知 Token,以及轨迹,这些东西共同组成了 post training,而预训练依然是经典的各种 grounding 数据一起上。
MimicGen#
mimicgen
经典的数据生成方法,本质上是将轨迹转化为 Object centric 的 grasp pose list,并且进行切片,在新的 Layout 下面就可以进行变换,并且将不连续的片段的首尾之间使用 motion planner 进行连接,也算是十分好用了。