周记 Week59 • Axi's Blog

前言#

继上周把全部的 IROS Challenge 相关的内容都做完了之后，这周可以说基本上都恢复了摆烂的节奏，重启了大量的论文阅读，以及 Blog 的构建，同时也正在思考下一个计划，一个能让我做下一个一年的事情。

科研#

所以说还是说回到科研的事情，基本上 IROS 这边已经彻底没有我需要负责的事情了，也就是假如说还有一些 Bug 的修复，或者是一些小功能的添加，我或许可以帮上忙。

这一周重启了大量的论文阅读，读者应该不难看到我的 Blog 里面如今又已经充满了各种的 Paper Reading 的内容，当然，本阶段依然是以 Embodied AI 的领域内容为主，而且主要是 Manipulation，后面应该会逐渐多读一些其他的内容，比如说 MLLM 和 Unified Model 的相关内容，当然还有 GenAI 相关的。当下来看似乎 World Model 很火，应该后面也会有一些想法。

为了加快我的 Paper 阅读的速度，以及浏览的市面上大多数的如 papers.cool ↗ 这样的网站之后，我沮丧地发现了目前貌似大家对于 CS.RO 分区的内容并不是很关注，大家都会推送诸如 CS.AI 以及 CS.CV 的内容，也就能覆盖我需要阅读的 MLLM 的内容，但是除此之外，Robotics 的内容却没有人做。因为之前做过一些 Arxiv 相关统计的内容，加上 Cursor 大显神威，因此我也是再次重启 Vibe Coding，花了几天写好了 Arxiv Reader 这个项目，也就是一个可以使用 GPT API 以及 Gmail 的 SMTP 去每日推送 Paper 邮件的项目，顺带一提，也已经开源，欢迎大家使用。我现在订阅了 CS.AI, CS.CV, CS.RO 三个分区，假如有领域兴趣相同的读者，也可以把自己的 email 发给我，我把大家加入到推送列表中。

axi404 / ArxivReader

Waiting for api.github.com...

???

?????

当然，顺带一提，因为写 Paper Reading，我一般喜欢附上一些插图，为了保证我本身 Blog 仓库的轻量化，这自然就不可避免需要一个图床，之前基于 Vercel 和 Github 的图床基于 PicX 搭建，但是因为不想滥用公共资源，因此也已经废弃。

XPoet / picx

Waiting for api.github.com...

???

?????

于是也是基于 Cloudflare 的 R2 服务搭建了一个自己的图床，毕竟 Cloudflare 的 R2 几乎就是免费，10 GB 的存储加上不限流量而是按照访问次数计算，免费额度巨大，一个月根本用不完。这个项目叫做 astro-r2，我也进行了开源。

axi404 / astro-r2

Waiting for api.github.com...

???

?????

同时，Paper reading 的内容目前我感觉还是有一些流水线了，有的东西写的太过于简略，以至于基本上是完全给我自己看的，按照费曼学习法的原理来说，还是更详细地写出来会好一些。

同时我也在写一些更加严肃的博客内容，也就是成主题的自己的思考，目前一个系列应该叫做具身十日谈，第一期讲解了数据与仿真器，已经写好了，欢迎大家去看。同时下一个选题大概率是 VLM 融入 VLA 的路线之争。这些内容应该也还是会反复打磨。

以及说起来之前的 Isaac 101 系列，现在发现制作起来非常的麻烦，因为有的时候需要引入一些动图，但是本身 Ubuntu 如 PixPin ↗ 一样好用的截图工具并不多，而目前笔记本的小屏幕来回切屏又格外折磨，应该会等到回到西交之后，用更好的设备去制作。

目前算是已经是有了一些初步的 VLA 相关的 Idea，对于仿真中的旅程，主线可能也会暂时停止，相关的看法也可以看我的第一期具身十日谈。简单来说，仿真本身确实很强大，能做到很多的东西，但是我目前所作的，生成泛化的 Pick and Place 数据，已经是能为打通 VLA 的 VLM 与 A 的 Gap 的最好性价比了，进一步的 1 DOF Articulation 数据的泛化生成本身也会完善，但是诸如仿真也可以做软体做叠衣服做流体，但是本身这些内容看上去变得复杂了，不过本身作为 researcher 在编程的时候，本身还是基于诸如 Isaac 的库去搭建，本身并不能帮助我的个人能力更进一步，而是一个庞大的 incremental 工作，应该会借助实验室的资源来慢慢推进了。

现在的问题变成了，我有高质量的数十万 rich annotation 的大量 diverse 的仿真数据，应该如何去利用这些数据，来构建一个更好的 VLA 模型，这应该是一个非常有趣的问题，也是我接下来一段时间的思考方向，甚至说证明 sim2sim 的有效性，而将 real2real 的问题推给业界，在成果足够 solid 的情况下也是可行的，至于自己 sim2real 甚至 (sim+real)2real，也就只能看运气了。目前的 Idea 相当有趣，但是能否妙手偶得之，还未可知也。

发散的思维说回，在工作量上，这周还是挂了一些数据的，并且做好了 grasp pose proposal 更优雅的解决方案，来自同实验室非常厉害的师兄。相较于目前市面上很多使用 GraspNet 或者 AnyGrasp，甚至比如说 NV 的 GraspGen，基本上都是使用模型，而这些模型的 GT，都来自于几个 GraspPose 的数据集，那些 ground truth 的生成方式被复现，并且用于管线，一方面不需要实时运算，一方面 Pose 也可以更加精准。

internrobotics / internmanip

Waiting for api.github.com...

???

?????

至于上文提到的 Idea，在和 mentor 聊过之后，打算搭建一套自己的 VLA 框架，而因为 Lab 这边的 InternManip 本身就包含了训练框架，从 GR00T 的代码中解耦而来，因此准备 Diff 一波，确保没有问题之后就开始在 InternManip 里面搭建自己的模型。毕竟 InternManip 在一段时间内还会是中心主推的框架，因此比如说一键测试或者类似的东西，还是可以让我的工作流程加速。假如可以顺手多 contribute 一些代码到 InternManip 里面也是何乐而不为。

NVIDIA / Isaac-GR00T

Waiting for api.github.com...

???

?????

生活#

无事发生，依然和乐小姐煲电话粥，我大概还有三周回到学校，完成最后未竟的事业，完成保研流程，想她。