

周记 Week59
2025-08-11 ~ 2025-08-17.
前言#
继上周把全部的 IROS Challenge 相关的内容都做完了之后,这周可以说基本上都恢复了摆烂的节奏,重启了大量的论文阅读,以及 Blog 的构建,同时也正在思考下一个计划,一个能让我做下一个一年的事情。
科研#
所以说还是说回到科研的事情,基本上 IROS 这边已经彻底没有我需要负责的事情了,也就是假如说还有一些 Bug 的修复,或者是一些小功能的添加,我或许可以帮上忙。
这一周重启了大量的论文阅读,读者应该不难看到我的 Blog 里面如今又已经充满了各种的 Paper Reading 的内容,当然,本阶段依然是以 Embodied AI 的领域内容为主,而且主要是 Manipulation,后面应该会逐渐多读一些其他的内容,比如说 MLLM 和 Unified Model 的相关内容,当然还有 GenAI 相关的。当下来看似乎 World Model 很火,应该后面也会有一些想法。
为了加快我的 Paper 阅读的速度,以及浏览的市面上大多数的如 papers.cool ↗ 这样的网站之后,我沮丧地发现了目前貌似大家对于 CS.RO 分区的内容并不是很关注,大家都会推送诸如 CS.AI 以及 CS.CV 的内容,也就能覆盖我需要阅读的 MLLM 的内容,但是除此之外,Robotics 的内容却没有人做。因为之前做过一些 Arxiv 相关统计的内容,加上 Cursor 大显神威,因此我也是再次重启 Vibe Coding,花了几天写好了 Arxiv Reader 这个项目,也就是一个可以使用 GPT API 以及 Gmail 的 SMTP 去每日推送 Paper 邮件的项目,顺带一提,也已经开源,欢迎大家使用。我现在订阅了 CS.AI, CS.CV, CS.RO 三个分区,假如有领域兴趣相同的读者,也可以把自己的 email 发给我,我把大家加入到推送列表中。
Waiting for api.github.com...
当然,顺带一提,因为写 Paper Reading,我一般喜欢附上一些插图,为了保证我本身 Blog 仓库的轻量化,这自然就不可避免需要一个图床,之前基于 Vercel 和 Github 的图床基于 PicX 搭建,但是因为不想滥用公共资源,因此也已经废弃。
Waiting for api.github.com...
于是也是基于 Cloudflare 的 R2 服务搭建了一个自己的图床,毕竟 Cloudflare 的 R2 几乎就是免费,10 GB 的存储加上不限流量而是按照访问次数计算,免费额度巨大,一个月根本用不完。这个项目叫做 astro-r2,我也进行了开源。
Waiting for api.github.com...
同时,Paper reading 的内容目前我感觉还是有一些流水线了,有的东西写的太过于简略,以至于基本上是完全给我自己看的,按照费曼学习法的原理来说,还是更详细地写出来会好一些。
同时我也在写一些更加严肃的博客内容,也就是成主题的自己的思考,目前一个系列应该叫做具身十日谈,第一期讲解了 数据与仿真器,已经写好了,欢迎大家去看。同时下一个选题大概率是 VLM 融入 VLA 的路线之争。这些内容应该也还是会反复打磨。
以及说起来之前的 Isaac 101 系列,现在发现制作起来非常的麻烦,因为有的时候需要引入一些动图,但是本身 Ubuntu 如 PixPin ↗ 一样好用的截图工具并不多,而目前笔记本的小屏幕来回切屏又格外折磨,应该会等到回到西交之后,用更好的设备去制作。
目前算是已经是有了一些初步的 VLA 相关的 Idea,对于仿真中的旅程,主线可能也会暂时停止,相关的看法也可以看我的第一期具身十日谈。简单来说,仿真本身确实很强大,能做到很多的东西,但是我目前所作的,生成泛化的 Pick and Place 数据,已经是能为打通 VLA 的 VLM 与 A 的 Gap 的最好性价比了,进一步的 1 DOF Articulation 数据的泛化生成本身也会完善,但是诸如仿真也可以做软体做叠衣服做流体,但是本身这些内容看上去变得复杂了,不过本身作为 researcher 在编程的时候,本身还是基于诸如 Isaac 的库去搭建,本身并不能帮助我的个人能力更进一步,而是一个庞大的 incremental 工作,应该会借助实验室的资源来慢慢推进了。
现在的问题变成了,我有高质量的数十万 rich annotation 的大量 diverse 的仿真数据,应该如何去利用这些数据,来构建一个更好的 VLA 模型,这应该是一个非常有趣的问题,也是我接下来一段时间的思考方向,甚至说证明 sim2sim 的有效性,而将 real2real 的问题推给业界,在成果足够 solid 的情况下也是可行的,至于自己 sim2real 甚至 (sim+real)2real,也就只能看运气了。目前的 Idea 相当有趣,但是能否妙手偶得之,还未可知也。
发散的思维说回,在工作量上,这周还是挂了一些数据的,并且做好了 grasp pose proposal 更优雅的解决方案,来自同实验室非常厉害的师兄。相较于目前市面上很多使用 GraspNet 或者 AnyGrasp,甚至比如说 NV 的 GraspGen,基本上都是使用模型,而这些模型的 GT,都来自于几个 GraspPose 的数据集,那些 ground truth 的生成方式被复现,并且用于管线,一方面不需要实时运算,一方面 Pose 也可以更加精准。
Waiting for api.github.com...
至于上文提到的 Idea,在和 mentor 聊过之后,打算搭建一套自己的 VLA 框架,而因为 Lab 这边的 InternManip 本身就包含了训练框架,从 GR00T 的代码中解耦而来,因此准备 Diff 一波,确保没有问题之后就开始在 InternManip 里面搭建自己的模型。毕竟 InternManip 在一段时间内还会是中心主推的框架,因此比如说一键测试或者类似的东西,还是可以让我的工作流程加速。假如可以顺手多 contribute 一些代码到 InternManip 里面也是何乐而不为。
Waiting for api.github.com...
生活#
无事发生,依然和乐小姐煲电话粥,我大概还有三周回到学校,完成最后未竟的事业,完成保研流程,想她。