Axi's Blog
周记 Week64Blur image

这一周可以说是很多的终点,也是很多的起点。从上海回来之后,我确实开始经历严重的 burn out,难以集中注意力,但是在科研上以及学业上还是有着不少的东西需要去做,自然也就只能强打精神去做了。Burn out 的一个严重体现在于我几乎难以集中精力超过四个小时就需要进行一段时间的休息,而且其他时间就只能保持在注意力涣散的状态中,好在目前大多数事情也不需要动脑,不过想必事后我是需要一段时间的休息了。

科研#

这周依然是在做技术报告,而且可以说已经做得相当不错了,至少将一段时间内,我们的努力都进行了一些体现,我这边还是惯例负责图、视频以及网页的打磨。

此时此刻,我们的技术报告,InternVLA-M1 应该放出来了一段时间了,不过目前还没有挂在 arxiv 就是了,现如今还是在 GitHub 的仓库,因为有一些文字表述和其他东西需要进一步润色,不过至少内容就是你看到了这些。我一直会期望我去参与以及投入的事情是必须的,之前的 GenManip 为我提供了可观的数据工厂及闭环验证,尽管现在似乎在技能方面略有欠缺,但这其实本质上只是我是否愿意投入时间而已,而 M1 同样如此。

就像我之前说过的一样,目前的 VLA 发展主要包含两个路线,一条路线更加看重泛化,而另外一条则看重动作能力,新款大家在设计模型的时候想要两者兼得,但从根本思路上来说肯定有所偏好,M1 在其中就更加偏向于泛化。事实上其实这主要是因为受到了设备以及数据的限制,我们并没有进行大量的跨本体实验,而是在最后补充了一个在 aloha 上面的实验,但也就点到为止了,虽是史上这个任务,在我看来完成的相当不错,我们的模型其实也具有在动作能力上进一步研究的潜力。

说回到泛化,在当前的数据规模下,直接获得泛化的模型几乎是不可能的,如何 leverage VLM 的能力到 VLA,可以说是唯一的重要问题以及道路。在此之前的工作实际上已经讨论了不同的训练策略,以及是否对模型进行协同训练,即将 VLM 以及 VLA 的数据在一个阶段的共同作为模型的损失进行监督,我们在这方面用了简洁且有效的方法同样进行实现,而更关键的是,在 large scale 的测试中证明了显著的有效性(比如说 SimplerEnv 上提高了将近 10 个点),同时代码可复用、开源。

当然,显然的事情是,尽管 tech report 正式发布了,但是还有漫长的 polish 需要去做,同时 GenManip 也需要和 M1 一起联动,将我们的 large scale 的 pick and place benchmark 放出去。这里也就是我之前所说的,在 benchmark 这部分,尤其是大家越来越意识到 sim2real gap,以及类似的很多问题之后,真机进行实验明显是更加高效且实用的方法,尽管有的时候公平性难以保证。公平性与可复现性绝非大家使用仿真的原因,那么可能的原因是什么,之前提及过我的思考,这里就是体现,如何测试 large scale 的 instruction following 问题。比如说我们的 benchmark 提供了 200 个 pick and place 任务,包括背景物体在内有 3000 个物体,这种规模是真机难以比拟的。测试自己的模型尚可,但是不同的模型都进行这样的测试,成本肯定太大了。

当然,我们的 report 也会改成 ICLR paper,这部分又是另外的故事了,下一周又要扑在上面。毕竟大多数的 work 已经结束了,剩下的主要是 presentation 的部分,而这部分恰好是我需要更加专注负责的,尽力吧。

生活#

至于生活,还是可以的,依然是正常的学习,以及和乐小姐的二人世界~

周记 Week64
https://axi404.github.io/blog/week-64
Author 阿汐
Published at September 25, 2025
Comment seems to stuck. Try to refresh?✨