

月记·二零二六·三月
2026-03-01 ~ 2026-03-31.
月记
前言#
相较于上一次来说,又是很久以后的一次月记了,因为各种事情太过于繁忙。所以我总是提不起精力来去记录之前做的事情。因为相较于将来要做的事情来说,以前的经历往往是失败的,而且是我不愿意开口去记录的。毕竟俗话说日子总是要往前看,但是出于维护我的博客以及其他的考量,我觉得还是不得不回来聚焦这些我需要去做的事情,以及去回顾一下过去我做了哪些事。
三月初的时候简单地回了学校,似乎并没有什么值得记录的事情,主要还是陪月小姐度过了一段快乐的时光,因此在后面就不继续进行记录了,让我们把内容聚焦在那些真正。长期困扰我的事情上面。
科研#
这个月的科研进度可以说比较顺利。
一方面在实验室的项目,我们之前有做一些数据合成相关的工作,就像我们之前一直在记录的那样。在洋哥的带领之下,我们也成功将它整合为了 InternData Engine,并且进行了发布。
虽然事实上,按照目前的眼光来看,之前做的事情,那些数据合成只不过是在漫长的经历中,一个短暂的分叉而已,而并不是任何所谓的主线。毕竟伴随着真机数采越来越发达,事实上仿真中的那些只有高端人才才能去实现的任务,它的迭代效率会远远慢于那些更加丰富的现实世界的数采任务,而同时仿真合成的数据带来的问题也与日俱增当然。当然这并不妨碍任何的企业都想要去探索仿真作为他们演进技术的一条分支,并且为将来或许可能存在的仿信技术爆发留足可能性,不过这显然就不是我需要考虑的事情了。
站在那时候的时间点来说,我不太好去泼大家一盆冷水,每一个人看上去都还是比较有激情的,并且认为具身中心可以长久地发展。虽然说在不久之后,事情就迎来了转机,并且急转直下。
对于这个从本质上耗时了我们将近一年半的项目来说,可以说是平稳落地。我们发表的数据集获得了广泛的欢迎,但是毕竟整个的代码仓库太过于沉重,也很难有人可以基于这些东西做后续的开发,最后在 GitHub 获得了寥寥一百个 star。
另一方面,我在主要负责进行的测评管线来说,我们的进度可以说也比较顺利。事实上,三月份我在开始逐渐尝试将属于我的那份工作交出去,因为从目前的视角来看,仿真必然不是可以长久发展的事情,而对于一个不会长久发展的项目来说,我可能会选择不再将其作为我需要精细地进行追踪,并且长期 hands on 去处理的一个事项。事实证明,当我有意将一些代码处理的工作交出去之后,工程师也可以胜任一些工作,并且只在关键地方才需要我的介入。
我负责将后续的随机化问题彻底处理掉,在之前的 0.1 版本之后,我们已经有了基础的数据采集任务,但是对于贴图、光照、物体以及指令来说,我们需要加入一些随机化。这些随机化在本身的素材脚本已经存在的基础之上,并不是很难添加,也就是其中的物体可能比较困难,而其他内容只是对于贴图路径的替换,其实并没有很大的开发难度。
在我们彻底的 0.2 版本搭建之后,也就开始了模型训练工作,而这一部分我则进一步的减少了自己的参与度,可能只会负责训练一两个模型,并且在到时候进行发布,以及后续可能存在的论文写作我也会参与。
对于已经亲手搭建了这套管线的评测通信,并且熟练掌握了模型训练技巧的我来说,似乎反复的训练模型并不会为我的技术栈带来太多的提升。同时这个项目大概率不会有第二期了,本来的计划中我们可能会邀请社区一起共建一个更大的Benchmark,但是如今来看。伴随着一些内容的调整,一切可能会落下帷幕,这是最后的我们能做的事情了。
starVLA#
与此同时,对于 starVLA 来说,我们最近做了两篇非常不错的论文。
其中一篇是我们整个代码框架的技术报告。事实上,这个技术报告早应该在去年的时候就发表出来,我们也因此损失了很多的 citations。毕竟,似乎目前我们的谷歌学术里面,之前创立的基于 GitHub 仓库的 citation 并没有成功被索引到,我们可以搜到它被人引用,但它本身并不会构成一个条目,而在搭建了我们的技术报告之后,可能一切会有好转。
本身的技术报告还是从框架的角度进行的,讲述类似于我们如何设计这套代码,并且确保一切是 plug and play 的结构。同时,我们支持了很多不同的 feature,比如说和 VLM 数据一起做训练,又或者是跨本体进行预训练,以及在社区的支持下,我们和 RLinf 进行了合作,并且还可以做 RL。
另外一篇是更加 study 性质的 paper。主要是对于目前的一些模型迭代的结论,进行了大规模的消融实验,并且给出了海量的 takeaways。比如说,对于模型的结构、预训练或者是在跨本体训练的时候的一些不同的设计,这里面我们做了非常多的实验,并且相当的饱满。在当下来看,依然我认为可以算是 2026 年最棒的一批做 study 性质的 VLA 论文。
去留之间#
尽管事实上科研的进展看上去都如此的顺利,但是实际上 3 月份依然发生了不好的事情。因为一些整个实验室层面的调整,可能具身智能中心会发生一些变动,并且有很多人将会离职,其中包括了隔壁组的 mentor 以及整个中心的主任淼哥。在写作这篇文章的 5 月份的当下,这件事情已经发生了。
整个实验室会在未来更加偏向于科学发现这个领域,这事实上是在一定程度上可以预料的。作为 ToG 的实验室来说,需要做出一些实质的科研成果和突破,尤其是那些会让实验室出现在别的研究院或者企业的报告中的成果突破和合作,才能够有更好的交代,并且让实验室长久地发展,这从根本上是非常可以被理解的。
当然,对于以参与到具身智能研究为目的来到实验室的我来说,这显然并不是那么的理想。加上整个实验室大的人员变动。是否要开启一段新的旅程,也一直萦绕在我的心头。
在前面一段时间的思考之后,一件事情是可以确定的。尽管我现在依然处于迷茫中,并且对很多事情都难以有完全的兴趣,但是从探究具身智能本质来说,参与到工业界更加前沿的迭代,一定是最为本质的事情,也是从第一性原理出发的结果。在实验室里进行了长达一年多的远程实习和线下实习之后,这是似乎确实是一个很好的节点,让我出去看一看。
当然,这完全不等于我要退出联培,因为事实上,实验室的环境相较于申请香港或者其他的地方,还是具有一定的区别。我很难找到一个像实验室一样,我比较熟悉,没有过多的毕业要求框定,并且可以给我一定自由度的地方。而且尽管很多我认识的人已经离开,但是还是受到了他们很多的照顾,从情理上来说,我也不想直接从这里退出,并且寻找一些香港的机会。
本身从实验室的联培机制上来说,我依然可以以合理的流程去外出实习,这也意味着我将会开始寻找一些机会,并且做出一些选择。当然,现在事实上已经有了不下 5 种可能的方向,并且我有很大的把握。不过我的选择在目前可能会保持静默,在之后的内容中,或许我们会得到一些有趣的答案。
结语#
相较于两年之前的我来说,现在的我显得是如此的具有能力。我知道很多事情,并且已经了解了在人工智能领域里面绝大多数的知识。那些我不够了解事情应该如何去完成,我应该通过什么样的方式去获得知识,这些事情也已经形成了一套方法论。我似乎仅仅欠缺的就是更多的实践机会,在更大规模的预训练或者更多的迭代中,进一步完善自己的认知,但是从能力上来说,我本质上已经没有过多的欠缺。
这个月里面我又有很多的论文发表,并且在各种项目上也有很不错的进展。但是相较于两年前那个无忧无虑,在中稿了 ECCV 之后便感觉年少得志,春风得意马蹄疾的我来说,现在的我反而可能有了更多的忧虑。如何去确保自己当前的生活水平,在寻找实习的时候可以无缝衔接,让我的生活质量不必太过于下降;如何去往一个可以长期做正确的事情的地方,并且得到重用;如何和每一个我认识的人相处好关系,尽管他们之间可能有一些利益冲突,但是从我的角度来说,我还是愿意做一个老好人,并且让每一个人都开心。
在写作这篇文章的前不久的一段时间,我在整理我的简历,望着上面一行行成果。颇有一种十年磨一剑,霜刃未曾试的感觉,不禁唏嘘以及感慨。就像当初中稿 ECCV 的那天晚上我发的说说一样,一句话再次浮上心头,轻舟已过万重山。