VLA / VLM 入门:让机器人「看着干」的视觉-语言-动作模型
- 分清 VLM(看图理解)和 VLA(看图直接出动作)这两个概念
- 看懂分层式和端到端 VLA 两条技术路线各自的代价和好处
- 知道自己现在能落地哪一层:调现成 VLM 做感知,接到分层控制里
你给机器人摆了个它从没见过的玩意儿——一个奇形怪状的水壶。结果它伸出机械臂,稳稳地把壶拿了起来,倒了杯水。它的程序里根本没写过「水壶」这个词,也没人教过它这个壶的形状。
第一反应是惊讶,第二反应是怀疑:这是不是魔法?是不是提前偷偷训练过?
不是魔法。这背后是这两年最热的一类模型——VLA,视觉-语言-动作模型。它跟我们上一篇讲的「给大模型装上手脚」是同一个大方向(让机器人会「想」),但走的是一条很不一样的路。上一篇里,大模型是个调度员,它输出文字指令,再由你写的传统代码去执行。VLA 更激进:它想跳过「文字指令」这一步,让模型看着画面,直接吐出关节该转多少度。
这篇把 VLM 和 VLA 这两个词拆开讲清楚,再把它们和上一篇的范式摆在一起对比。最后说一件实在的事:这两个词听着像大厂和实验室的玩具,但其中有一层,你现在的 ESP32 项目就能用上。
先分清两个词:VLM 和 VLA
它们长得像,差一个字母,但差的不是一点点。
VLM,视觉语言模型(Vision-Language Model)。 它能同时「看图」和「懂话」。你给它一张机械臂视野里的照片,问「桌上的红色杯子在哪?」,它能回答「在画面偏左的位置,大概在你正前方」。再问「这是什么场景?」,它能说「这像是一张办公桌,上面有键盘、一个马克杯和一盘文件」。
注意——VLM 只负责「理解」,它不动手。它的输出是文字或者坐标,是对画面的描述和判断。你可以把它理解成一双「会说话的眼睛」。
VLA,视觉-语言-动作模型(Vision-Language-Action Model)。 它在 VLM 的基础上往前迈了一大步,多出来的那个 A(Action,动作)是关键。它的输入是图像加上一句指令(比如「把杯子递给我」),输出不再是文字,而是动作本身——机械臂第一个关节转多少度、末端往哪个方向移动多少厘米、夹爪什么时候闭合。
一句话区分:VLM 看完告诉你「杯子在左前方」;VLA 看完直接开始伸手去抓。VLA 是端到端的「看着干」,中间不经过人类能读懂的文字指令。
两条路线:分层式 vs 端到端
理解了 VLM 和 VLA,就能看懂当下机器人「大脑」的两条技术路线。它们的分歧,本质上是「要不要把任务拆开」。
路线一:分层式(也就是上一篇的范式)。
把一个任务切成两层。高层负责「想」:用大模型或 VLM 做规划和感知,决定「现在该去抓那个杯子」。低层负责「做」:用传统的控制代码(PID、逆运动学那一套)把「抓杯子」翻译成具体的关节运动。两层之间,传递的是清晰的、人能看懂的指令。
这条路线的好处很实在:
- 可解释。出了错你能定位——是大模型规划错了,还是底层控制没执行到位?每一层都能单独检查。
- 好调试。某一层有问题,单独修那一层,不用动整个系统。
- 你现在就能做。高层那个「会看」的部分,可以直接调用现成的云端 VLM;低层执行用你的 ESP32 跑舵机控制完全够用。算力压力全在云端,本地只管执行。
路线二:端到端 VLA。
不分层。一个大模型从头管到尾——图像和指令进去,关节动作出来,中间没有「文字指令」这道关卡。模型自己在内部把「看到什么」和「该怎么动」打通了。
这条路线诱人的地方在于泛化。分层式系统里,「抓杯子」「抓水壶」「抓那个奇形怪状的东西」往往要分别处理逻辑;而一个训练得足够好的 VLA,理论上见过足够多的抓取场景后,遇到没见过的物体也能合理地伸手——就像开头那个水壶。它学到的不是「水壶的程序」,而是「抓取这件事大概怎么做」。
代价同样实在:
- 要海量数据。VLA 不是写出来的,是「喂」出来的。得有大量「图像 + 指令 + 正确动作」的真实操作数据去训练,这种数据极贵、极难采集。
- 算力大。这种模型动辄几十亿参数,跑起来要好显卡,ESP32 连边都摸不到。
- 黑盒。它做错了,你很难知道为什么错。不像分层式能一层层查,端到端的决策藏在几十亿个参数里。
所以现状很清楚:端到端 VLA 现在主要活在实验室和大厂的研究里,是前沿、是热点,但还没到普通开发者随手能用、能稳定干活的程度。
为什么 VLA 这么热,现实差距又在哪
热的理由很简单:它指向一个所有人都想要的未来——机器人摆脱「写死的程序」。
传统机器人的尴尬在于,它只会做你明确教过的事。换个环境、换个物体、换个光线,可能就抓瞎。而 VLA 描绘的是「像人一样泛化」:你小时候学会了拿杯子,长大后遇到任何形状的杯子都会拿,没人一个个教过你。VLA 想让机器人也拥有这种能力。
但「想要」和「做到」之间隔着三道现实的坎:
- 数据。人类的泛化靠几十年的真实世界经验。机器人要这种经验,就得有海量真实操作数据,而采集机器人操作数据比采集文本和图片难太多了——每一条都得真的用机械臂操作一遍。
- 算力。能泛化的模型都很大,部署成本高。在云端跑得动,但要放到一个移动机器人身上实时运行,又是另一回事。
- 可靠性。黑盒模型偶尔会做出离谱的动作,而机器人是会真的撞坏东西、伤到人的。在你的桌面机械臂上抓飞一个杯子是趣事,在工厂或家里就是事故。可靠性这关,比聊天模型偶尔胡说八道严重得多。
我的判断:VLA 是真趋势,不是炒作,但它现在更像是「方向」而不是「工具」。指望明年就能买个跑 VLA 的家用机器人,不现实;但说这条路走不通,也是看走眼了。
普通人现在能用的那一层
说了半天大厂和实验室,回到你身上。作为一个用 ESP32 搭机械臂的人,VLA 这套东西里有没有你现在就能吃到的部分?
有,而且很实在——调用现成的 VLM 做感知。
你不用自己训练任何模型。把机械臂摄像头拍到的画面,发给一个现成的多模态大模型(市面上有不少能看图的云端模型),问它「画面里有什么?目标物体在哪个位置?」,它给你回答。这个回答接到你的分层控制里,作为「高层感知」那一环。
这就是分层式路线在今天最舒服的落地姿势:
- 感知(认物体、读场景)= 调现成 VLM,云端算力,你不操心;
- 规划(决定下一步干啥)= 大模型或你自己写的逻辑;
- 执行(转关节、夹东西)= 你的 ESP32 + 传统控制。
你拿到了「会看会认」的能力,却不需要承担训练 VLA 的数据和算力成本。这是当前阶段性价比最高的玩法。想把摄像头这一环接进来,L4 边缘 AI 这一章和 ESP32-CAM 实战正好是基础。
你应该理解了什么
- VLM 是「会说话的眼睛」——看图、懂话,输出理解和判断,但不动手。
- VLA 多了个 A(动作)——看图加指令,直接输出关节动作,端到端「看着干」。
- 分层式(上一篇)把任务拆成感知/规划/执行,可解释、好调试、你现在能做;端到端 VLA 一个模型管到底,泛化强但要海量数据、大算力,还是个黑盒,目前在实验室和大厂。
- VLA 热在「让机器人像人一样泛化」,但卡在数据、算力、可靠性三道坎上。
- 你现在能落地的:调现成 VLM 做感知,接进你的分层控制。不用训练,不用大显卡。
常见误解
| 说法 | 对不对 | 一句话 |
|---|---|---|
| VLA 就是 VLM | 不对 | VLA 比 VLM 多一个「动作」输出,VLM 只理解不动手 |
| 端到端 VLA 现在就能拿来用 | 不对 | 目前主要在实验室和大厂研究,离普通开发者稳定可用还有距离 |
| ESP32 能跑 VLA | 不能 | VLA 动辄几十亿参数要好显卡,ESP32 连感知模型都跑不动,得放云端 |
| 用 VLM 得自己训练 | 不用 | 直接调现成的云端多模态模型,喂图片问问题就行 |
| 这跟上一篇的 Agent 是一回事 | 不全是 | 上一篇是分层式(大模型调函数),VLA 是另一条端到端路线,理念不同 |
延伸一步
第一步,把 VLM 接进你已有的分层控制。 你上一篇做的「大模型当大脑、调用函数干活」的架构,现在给它加一只眼睛:在每次规划前,先让 VLM 看一眼摄像头画面,告诉系统「桌上现在有什么、目标在哪」。规划部分拿到这个感知结果,决策会准得多。这一步不改你的执行层,只是给高层补了感知。
第二步,留意「数据采集」这个词。 如果你以后真想碰端到端这条路,绕不开的第一道坎就是数据——你得有办法记录「画面 + 指令 + 你让机械臂做的动作」这样的成对数据。哪怕现在用不上,搭机械臂时顺手把这些数据记下来,将来想做点训练实验就有原料了。这个话题以后单独展开。
动手挑战
不用写代码,先在纸上设计一个最小的「VLM 感知 + 规则执行」方案:
- 假设你的机械臂摄像头能拍到桌面,桌上可能有红、蓝、绿三个方块,位置随机。任务是「把红色方块推到桌子右边」。
- 想清楚:哪一步交给 VLM?(提示:让它回答「红色方块在画面的什么位置」)
- 想清楚:哪一步用你自己写的规则?(提示:拿到位置后,怎么换算成机械臂的移动方向和距离,这部分是确定的数学,不需要大模型)
- 画出数据流:摄像头 → VLM → 位置坐标 → 你的换算逻辑 → 关节动作。
能把这条链画清楚,你就真正理解了「分层式」这条路线为什么现在最可落地——聪明的部分外包给 VLM,确定的部分自己用规则控制得死死的。
小结·下一步
VLM 是会看会说的眼睛,VLA 是看着就动手的端到端模型。两条路线里,端到端 VLA 是激动人心的未来,但现在更适合远观;分层式才是你今天能上手的——把感知这一环交给现成 VLM,规划和执行留在自己手里。
理解了「大模型怎么想」和「VLM 怎么看」之后,下一篇我们把视角收回到本站的硬件上,看看小智这类设备怎么把「想」和「看」落到真实的运动控制上——让前面这些抽象的大脑,真的驱动起电机和舵机。