Axi's Blog
Paper Reading: Embodied AI 8Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

MergeVLA#

Arxiv ID 2511.18810
幻觉翻译 2511.18810

Merge LoRA 进行多任务学习的 Pi-like VLA

The pipeline of MergeVLA

MergeVLA 本身自己设计了模型结构,减去 self-attention 模块,并且把 tanh gate 改成 sigmoid gate,来让表征更加统一,从而对于 Action 这种不同 Task 之间可能有冲突的内容更加 Cross-task align。本身这些设计都是为了后续 Merge LoRA 做准备。本身对于很多的 Task 训练了很多的 LoRA 之后,可以通过若干 Merge 策略来整合,之后在推理的时候,使用一个 Mask 来选择性激活其中的部分参数,这个 Mask 由本来原生的 Task LoRA 和 Merged LoRA 的方向决定。然而对于 LoRA 相关的内容,问题是显然的,为什么要使用 LoRA 以及为什么要 Merge。毕竟事实上,目前大多数的 VLA 可以直接进行 Co-training,效果上也不错;而假如说我想要某一个 Task 的效果好,我直接训练这一个 Task 的 LoRA 就已经可以了,把不同的 Task 的 LoRA 混合在一起可以 Benefit 本身这一个 Task 的效果吗,论文中没有给出非常充分的解释。使用 LoRA merge 来进行一个类似于可持续学习的故事是说不通的,毕竟人间正道还是训练一个 co-training 基模,之后直接训练小 LoRA,对于多任务,直接手动 Route 加载对应 LoRA 就好。

推荐指数:

Compressor-VLA#

Arxiv ID 2511.18950
幻觉翻译 2511.18950

通过减少计算量和视觉token数量来提高 VLA 效率

The pipeline of Compressor-VLA

Compressor-VLA 本身目的就是削减 Vision Token 输入到类 OpenVLA 模型的数量,从而优化效率。本身通过一种 Language-condition 的方式来选择,且不说这样会不会损失细粒度信息,而只保留语义,从而带来可能得性能开销。这种方法似乎与 VLA 也没什么关系,放到任何模型都可以,思路也没什么意思。

推荐指数:

VIPA-VLA#

Arxiv ID 2512.13080
幻觉翻译 2512.13080

使用人手数据进行空间预训练的 Pi-like VLA

The architecture of VIPA-VLA

VIPA-VLA 如图中所示,还是一个 VLM-VLA 的一个惯用的范式,也就是先使用一些 VQA 的所谓 Grounding 或者空间感知的数据进行预训练,然后之后在机器人数据中进行后训练。本身这里的故事可能偏向于使用 human data,但是确实使用的是 annotated 的数据,并且最后的用法也是作为 VQA 去使用,相对来说的意义就不是特别大。然后说回具体的内容,就是用 Human Data 组成了一些 VQA,之前在 Human 的预训练环节里面,输入人类的轨迹以及 Vision 和 Text,其中 Visual 里面用了一个 Cut3R 的 embedding 来增强一些可能的空间能力,然后和 ViT 进行 Fusion;到了后训练,就是正常的 VLA in A out 的设计。本身中规中矩,并没有给如何利用广大的 human data 一个好思路。

推荐指数:

Openpi Comet#

Arxiv ID 2512.10071
幻觉翻译 2512.10071

如何将 Pi0.5 的 VLA 在 BEHAVIOR 挑战赛上进行工程优化

The pipeline of Openpi Comet

Openpi Comet 是 2025 BEHAVIOR 挑战赛的亚军方案,基于 π0.5\pi_{0.5} 进行了一个工程优化,可以说还是很有 insight 的。本身 BEHAVIOR 挑战赛是一个非常困难的挑战赛,并且第一名使用了一个很复杂的优化,但是相较而言,第二名的方案相当直接,并且很有启发性。具体来说,Comet 本身首先进行了 RFT 的 rollout,所谓 RFT,其实也就是将模型部署在仿真里面,然后闭环 rollout 数据,再用 rollout 的数据来训练,因为本身 bddl 可以检验成功,所以说可以有天然的验证器来筛选成功数据。然后之后的训练的过程中进行了消融,有一些关键结论。首先是对于控制,还是要尽量把每一次的轨迹都执行完,也就是所谓的 Temporal Horizon 的策略,而不要用 Action Ensemble 策略之类的;然后在这个情况下,Action 长度需要适中,因为太短会抖而且监督少不好学,太长的话闭环周期很长;然后输入模态只需要 RGB,不需要点云或者深度;分辨率输入的时候大一些好。本身还是很有意义的报告,很不错。

推荐指数:

Evaluating Gemini Robotics Policies in a Veo World Simulator#

Arxiv ID 2512.10675
幻觉翻译 2512.10675

基于 Veo3 实现的 WM Simulator 方案以进行 VLA 评估

The pipeline of Gemini Veo evaluation

这篇论文由 Gemini 提出,旨在使用 Veo3 作为 WM Simulator 来评估 Gemini 的机器人策略。本身 Veo3 就是一个 Action-WM,之后在机器人数据上进行了一些训练。WM Simulator 很大的问题一直在于,如果本身 WM 在此之前没有经过大量的训练,或者说之后容易灾难性遗忘,那么很难做好诸如精细操作等内容,因为模型的训练数据中大多数的操作都是偏向于成功的,那么很有可能在作为 Simulator 的时候,就容易直接让物体“吸附”在手上从而强行成功。为了某个任务强行采样似乎也是不可持续的,这一现象在此之前的其他论文放出的 Demo 中我们经常可以看到,Veo3 这篇似乎并没有提出解决方案,比较遗憾。当然其还是一贯表现了 WM 的好处,也就是可以 Zero-shot 生成一些 unseen 的场景,并且进行评估。

推荐指数:

1st Place Solution for the 2025 BEHAVIOR Challenge#

Arxiv ID 2512.06951
幻觉翻译 2512.06951

The inpainting diagram of BEHAVIOR 1st Place

该研究提出的视觉-动作策略赢得了 2025 BEHAVIOR 挑战赛冠军,在 50 个家庭任务的光真实感仿真环境中接受评估。在 Pi0.5 框架基础上引入了多项技术改进,包括用于流匹配的相关噪声以提高训练效率和动作平滑度、可学习的混合层注意力、以及 System 2 阶段跟踪以消除歧义。该方法结合了训练时的多样本流匹配与推理时的动作压缩和任务特定校正规则,最终在所有评估任务上达到 26% 的 q-score。

推荐指数:

VideoVLA#

Arxiv ID 2512.06963
幻觉翻译 2512.06963

The overview of VideoVLA

VideoVLA 利用大型视频生成模型作为机器人学习系统的基础,解决机器人操作中的泛化挑战。该方法结合语言指令和图像来同时预测动作序列和预期的视觉结果,采用多模态扩散 Transformer 架构。关键发现表明高质量的想象未来与可靠的动作预测和任务成功相关,验证了视觉预测在机器人学习中的价值。系统展现出跨具身平台的技能迁移和处理未知物体的能力,提出了机器人系统双重预测策略的新范式。

推荐指数:

FASTer#

Arxiv ID 2512.04952
幻觉翻译 2512.04952

The pipeline of FASTer

FASTer 提出了一个提升机器人学习效率的框架,包含两个主要组件:FASTerVQ 将动作块编码为单通道图像以捕获全局时空依赖性并保持高压缩率,以及 FASTerVLA 引入块级解码以提升性能。该工作解决了机器人控制中的核心挑战:在动作标记化时平衡重建质量与推理速度。作者表示该方法在推理速度和任务性能上均超越了此前的最先进 VLA 模型,在仿真和真实世界机器人操作任务中展现出强大的泛化能力。

推荐指数:

Video2Act#

Arxiv ID 2512.03044
幻觉翻译 2512.03044

The framework of Video2Act

Video2Act 提出了一个双系统视频扩散策略框架,通过从视频帧中提取空间边界和运动信息来改进机器人策略学习。该方法采用慢速视频扩散模型与快速扩散变换器动作生成器的协同设计,使机器人能够在接收不频繁更新时仍保持稳定的操作任务。实验结果显示,相比现有方法在模拟环境中提升7.7%,在真实世界任务中提升21.7%的性能,并展现出强大的跨场景泛化能力。

推荐指数:

RoboWheel#

Arxiv ID 2512.02729
幻觉翻译 2512.02729

The pipeline of RoboWheel

RoboWheel 是一个数据引擎系统,能够将人类手-物交互视频转化为可用于不同机器人体态的训练数据。该方法从摄像头视频中重建手部运动,通过强化学习优化确保物理准确性,并将这些动作适配到从简单机械臂到灵巧手和人形机器人的各种机器人类型。研究证明生成的轨迹与遥操作一样稳定,为传统遥操作提供了一个仅需标准摄像头的轻量级替代方案。

推荐指数:

RealAppliance#

Arxiv ID 2512.00287
幻觉翻译 2512.00287

An appliance icon from RealAppliance

RealAppliance 解决了现有家电模拟缺乏真实性且与实际产品手册不符的问题,提供了包含100个具有精确物理和电子机制的详细家电数据集。该工作引入了一个基准测试,评估AI模型在手册页检索、家电部件定位、开环和闭环操作规划等任务上的性能。这项研究旨在缩小机器人系统在家电操作模拟与真实世界之间的差距。

推荐指数:

GR-RL#

Arxiv ID 2512.01801
幻觉翻译 2512.01801

A case study from GR-RL

GR-RL 提出了一个将通用视觉-语言-动作策略转化为复杂机器人任务专用系统的框架,通过强化学习对示范数据进行过滤、增强和强化,而非假设人类示范是最优的。该方法包括使用Q值作为进度指标过滤轨迹、应用形态对称增强以提高泛化能力,以及使用潜在空间噪声预测器进行在线强化学习。该框架实现了基于学习的策略自主系鞋带,成功率达83.3%,这是一项需要长时推理、毫米级精度和与可变形材料交互的复杂任务。

推荐指数:

ManualVLA#

Arxiv ID 2512.02013
幻觉翻译 2512.02013

The pipeline of ManualVLA

ManualVLA 针对视觉-语言-动作模型在处理需要精确规划和执行的长时程机器人任务时的局限性,提出了基于混合变换器架构的统一框架,能够生成包含图像、位置提示和文本指令的中间多模态”手册”。该系统包括规划专家从目标状态创建分步手册,以及基于3D高斯溅射的数字孪生工具包用于自动生成训练数据。在真实世界的乐高组装和物体重排任务中,ManualVLA 的平均成功率比之前的分层SOTA基线高32%。

推荐指数:

SwiftVLA#

Arxiv ID 2512.00903
幻觉翻译 2512.00903

The introduction of SwiftVLA

SwiftVLA 解决了视觉-语言-动作模型通常需要大量参数的问题,通过以最小开销增强轻量级模型的四维时空理解能力。该方法采用预训练的4D视觉几何变换器配合时间缓存,并引入用于未来预测训练的融合令牌,通过掩码-重建训练策略使4D分支在推理时可移除。SwiftVLA 在性能上匹配7倍参数规模的模型,同时推理速度提升18倍,在边缘设备上内存使用减少12倍。

推荐指数:

MM-ACT#

Arxiv ID 2512.00975
幻觉翻译 2512.00975

An example from MM-ACT

MM-ACT 提出了一个统一的视觉-语言-动作模型,将文本、图像和动作集成在共享令牌空间中,并使用并行解码策略跨所有三种模态生成。该系统引入了”上下文共享多模态学习”训练方法,从共享上下文监督所有模态的生成,通过跨模态学习改进动作生成。在LIBERO模拟中达到96.3%成功率,在真实Franka机器人任务中达到72.0%,在双臂RoboTwin2.0任务中达到52.38%,其中跨模态学习额外贡献了9.25%的性能提升。

推荐指数:

VLA-Arena#

Arxiv ID 2512.22539
幻觉翻译 2512.22539

The pipeline of VLA-Arena

本文提出了 VLA-Arena,一个用于评估视觉-语言-动作模型的开源基准框架,包含 170 个任务,分为安全、干扰、外推和长时序四大类别。该框架通过任务结构、语言指令和视觉观察三个维度进行结构化评估,并对语言和视觉扰动进行独立测试以验证模型鲁棒性。评估结果揭示了当前最先进模型的显著局限性:倾向于记忆而非泛化、鲁棒性不均衡、难以处理安全约束,且缺乏组合已学技能完成复杂多步骤任务的能力。

推荐指数:

Robo-Dopamine#

Arxiv ID 2512.23703
幻觉翻译 2512.23703

The pipeline of Robo-Dopamine

本文提出了 Dopamine-Reward,一种基于 3400 多小时数据训练的通用奖励模型,用于解决机器人强化学习中奖励函数设计的难题。该方法通过步进奖励离散化(Step-wise Reward Discretization)实现结构化理解,并通过多视角奖励融合(Multi-Perspective Reward Fusion)克服感知局限性,同时配套提出了 Dopamine-RL 策略学习框架,采用理论可靠的奖励塑形避免优化误导。实验结果显示,该系统在仅用单条专家轨迹适配新任务后,仅需 150 次在线推演(约 1 小时真实机器人交互)即可达到 95% 的成功率,且具有良好的跨任务泛化能力。

推荐指数:

Counterfactual VLA#

Arxiv ID 2512.24426
幻觉翻译 2512.24426

The pipeline of Counterfactual VLA

本文提出了 CF-VLA 框架,使自动驾驶系统能够通过反事实推理在执行前评估和调整计划动作,识别不安全行为。该方法首先生成总结驾驶意图的元动作(meta-actions),然后结合视觉上下文和元动作进行反事实推理,并通过 rollout-filter-label 流程从基线推演中挖掘挑战性场景进行高效训练。实验结果表明,CF-VLA 将轨迹精度提升了 17.6%,安全指标提升了 20.5%,且能够自适应地仅在困难驾驶场景中激活推理机制。

推荐指数:

VLA-RAIL#

Arxiv ID 2512.24673
幻觉翻译 2512.24673

The pipeline of VLA-RAIL

本文提出了 VLA-RAIL 框架,解决视觉-语言-动作模型在机器人执行中出现的抖动、停顿和卡顿问题,实现平滑、连续、高速的机器人运动。该框架采用异步操作机制,包含轨迹平滑器(Trajectory Smoother)和动作块融合器(Chunk Fuser)两大核心组件:前者使用多项式拟合消除单个动作块的噪声,后者在连续动作序列间保持位置、速度和加速度的连续性。在仿真和真实操作任务上的验证表明,VLA-RAIL 显著减少了运动抖动,提升了执行速度和任务完成率,是大规模部署 VLA 模型的关键基础设施。

推荐指数:

UniTacHand#

Arxiv ID 2512.21233
幻觉翻译 2512.21233

An overview of UniTacHand

本文提出了 UniTacHand,通过统一的空间-触觉表示实现从人手到机器人手的技能迁移,解决机器人灵巧操作中触觉数据收集成本高昂的问题。该方法使用 MANO 手部模型作为标准化框架,将人手(通过触觉手套)和机器人手的触觉信号投影到形态一致的 2D 表面空间,并通过对比学习将不同数据源对齐到共享潜在空间(仅需 10 分钟配对数据)。实验结果显示,该方法实现了从人类到真实机器人的零样本触觉策略迁移(即使对于未见物体),且结合人类和机器人训练数据时比仅用机器人数据更高效,为可扩展的灵巧操作触觉学习提供了新路径。

推荐指数:

RoboCade#

Arxiv ID 2512.21235
幻觉翻译 2512.21235

The pipeline of RoboCade

本文提出了 RoboCade,一个通过游戏化远程遥操作平台来扩展机器人演示数据收集的系统,通过排行榜、徽章和进度可视化等元素提升数据采集的参与度和可及性。在三个操作任务上的测试表明,使用游戏化数据训练的策略在标准任务上性能提升了 16-56%,用户研究证实新手用户认为游戏化界面的满意度比非游戏化版本高约 24%。该工作证明游戏化可以作为一种有效且可扩展的方法来收集演示数据集,同时保持用户参与度和积极性。

推荐指数:

StereoVLA#

Arxiv ID 2512.21970
幻觉翻译 2512.21970

The architecture of StereoVLA

本文提出 StereoVLA,通过引入立体视觉系统增强机器人视觉-语言-动作模型的空间感知能力。该方法设计了几何-语义特征提取模块,将双目视差的空间信息与单目语义理解相结合,并添加深度估计组件加速训练。实验表明该方法在动作预测性能上显著优于现有方法,且对相机位置扰动具有良好鲁棒性。

推荐指数:
Paper Reading: Embodied AI 8
https://axi404.github.io/blog/paper-reading-eai8
Author 阿汐
Published at November 23, 2025
Comment seems to stuck. Try to refresh?✨