VLA / VLM 入门：让机器人「看着干」的视觉-语言-动作模型

最后更新 2026-06-20

⏱ 约 11 分钟 🟢 软件/低风险

你将学到

分清 VLM（看图理解）和 VLA（看图直接出动作）这两个概念
看懂分层式和端到端 VLA 两条技术路线各自的代价和好处
知道自己现在能落地哪一层：调现成 VLM 做感知，接到分层控制里

你给机器人摆了个它从没见过的玩意儿——一个奇形怪状的水壶。结果它伸出机械臂，稳稳地把壶拿了起来，倒了杯水。它的程序里根本没写过「水壶」这个词，也没人教过它这个壶的形状。

第一反应是惊讶，第二反应是怀疑：这是不是魔法？是不是提前偷偷训练过？

不是魔法。这背后是这两年最热的一类模型——VLA，视觉-语言-动作模型。它跟我们上一篇讲的「给大模型装上手脚」是同一个大方向（让机器人会「想」），但走的是一条很不一样的路。上一篇里，大模型是个调度员，它输出文字指令，再由你写的传统代码去执行。VLA 更激进：它想跳过「文字指令」这一步，让模型看着画面，直接吐出关节该转多少度。

这篇把 VLM 和 VLA 这两个词拆开讲清楚，再把它们和上一篇的范式摆在一起对比。最后说一件实在的事：这两个词听着像大厂和实验室的玩具，但其中有一层，你现在的 ESP32 项目就能用上。

先分清两个词：VLM 和 VLA

它们长得像，差一个字母，但差的不是一点点。

VLM，视觉语言模型（Vision-Language Model）。 它能同时「看图」和「懂话」。你给它一张机械臂视野里的照片，问「桌上的红色杯子在哪？」，它能回答「在画面偏左的位置，大概在你正前方」。再问「这是什么场景？」，它能说「这像是一张办公桌，上面有键盘、一个马克杯和一盘文件」。

注意——VLM 只负责「理解」，它不动手。它的输出是文字或者坐标，是对画面的描述和判断。你可以把它理解成一双「会说话的眼睛」。

VLA，视觉-语言-动作模型（Vision-Language-Action Model）。 它在 VLM 的基础上往前迈了一大步，多出来的那个 A（Action，动作）是关键。它的输入是图像加上一句指令（比如「把杯子递给我」），输出不再是文字，而是动作本身——机械臂第一个关节转多少度、末端往哪个方向移动多少厘米、夹爪什么时候闭合。

一句话区分：VLM 看完告诉你「杯子在左前方」；VLA 看完直接开始伸手去抓。VLA 是端到端的「看着干」，中间不经过人类能读懂的文字指令。

两条路线：分层式 vs 端到端

理解了 VLM 和 VLA，就能看懂当下机器人「大脑」的两条技术路线。它们的分歧，本质上是「要不要把任务拆开」。

路线一：分层式（也就是上一篇的范式）。

把一个任务切成两层。高层负责「想」：用大模型或 VLM 做规划和感知，决定「现在该去抓那个杯子」。低层负责「做」：用传统的控制代码（PID、逆运动学那一套）把「抓杯子」翻译成具体的关节运动。两层之间，传递的是清晰的、人能看懂的指令。

这条路线的好处很实在：

可解释。出了错你能定位——是大模型规划错了，还是底层控制没执行到位？每一层都能单独检查。
好调试。某一层有问题，单独修那一层，不用动整个系统。
你现在就能做。高层那个「会看」的部分，可以直接调用现成的云端 VLM；低层执行用你的 ESP32 跑舵机控制完全够用。算力压力全在云端，本地只管执行。

路线二：端到端 VLA。

不分层。一个大模型从头管到尾——图像和指令进去，关节动作出来，中间没有「文字指令」这道关卡。模型自己在内部把「看到什么」和「该怎么动」打通了。

这条路线诱人的地方在于泛化。分层式系统里，「抓杯子」「抓水壶」「抓那个奇形怪状的东西」往往要分别处理逻辑；而一个训练得足够好的 VLA，理论上见过足够多的抓取场景后，遇到没见过的物体也能合理地伸手——就像开头那个水壶。它学到的不是「水壶的程序」，而是「抓取这件事大概怎么做」。

代价同样实在：

要海量数据。VLA 不是写出来的，是「喂」出来的。得有大量「图像 + 指令 + 正确动作」的真实操作数据去训练，这种数据极贵、极难采集。
算力大。这种模型动辄几十亿参数，跑起来要好显卡，ESP32 连边都摸不到。
黑盒。它做错了，你很难知道为什么错。不像分层式能一层层查，端到端的决策藏在几十亿个参数里。

所以现状很清楚：端到端 VLA 现在主要活在实验室和大厂的研究里，是前沿、是热点，但还没到普通开发者随手能用、能稳定干活的程度。

为什么 VLA 这么热，现实差距又在哪

热的理由很简单：它指向一个所有人都想要的未来——机器人摆脱「写死的程序」。

传统机器人的尴尬在于，它只会做你明确教过的事。换个环境、换个物体、换个光线，可能就抓瞎。而 VLA 描绘的是「像人一样泛化」：你小时候学会了拿杯子，长大后遇到任何形状的杯子都会拿，没人一个个教过你。VLA 想让机器人也拥有这种能力。

但「想要」和「做到」之间隔着三道现实的坎：

数据。人类的泛化靠几十年的真实世界经验。机器人要这种经验，就得有海量真实操作数据，而采集机器人操作数据比采集文本和图片难太多了——每一条都得真的用机械臂操作一遍。
算力。能泛化的模型都很大，部署成本高。在云端跑得动，但要放到一个移动机器人身上实时运行，又是另一回事。
可靠性。黑盒模型偶尔会做出离谱的动作，而机器人是会真的撞坏东西、伤到人的。在你的桌面机械臂上抓飞一个杯子是趣事，在工厂或家里就是事故。可靠性这关，比聊天模型偶尔胡说八道严重得多。

我的判断：VLA 是真趋势，不是炒作，但它现在更像是「方向」而不是「工具」。指望明年就能买个跑 VLA 的家用机器人，不现实；但说这条路走不通，也是看走眼了。

普通人现在能用的那一层

说了半天大厂和实验室，回到你身上。作为一个用 ESP32 搭机械臂的人，VLA 这套东西里有没有你现在就能吃到的部分？

有，而且很实在——调用现成的 VLM 做感知。

你不用自己训练任何模型。把机械臂摄像头拍到的画面，发给一个现成的多模态大模型（市面上有不少能看图的云端模型），问它「画面里有什么？目标物体在哪个位置？」，它给你回答。这个回答接到你的分层控制里，作为「高层感知」那一环。

这就是分层式路线在今天最舒服的落地姿势：

感知（认物体、读场景）= 调现成 VLM，云端算力，你不操心；
规划（决定下一步干啥）= 大模型或你自己写的逻辑；
执行（转关节、夹东西）= 你的 ESP32 + 传统控制。

你拿到了「会看会认」的能力，却不需要承担训练 VLA 的数据和算力成本。这是当前阶段性价比最高的玩法。想把摄像头这一环接进来，L4 边缘 AI 这一章和 ESP32-CAM 实战正好是基础。

你应该理解了什么

VLM 是「会说话的眼睛」——看图、懂话，输出理解和判断，但不动手。
VLA 多了个 A（动作）——看图加指令，直接输出关节动作，端到端「看着干」。
分层式（上一篇）把任务拆成感知/规划/执行，可解释、好调试、你现在能做；端到端 VLA 一个模型管到底，泛化强但要海量数据、大算力，还是个黑盒，目前在实验室和大厂。
VLA 热在「让机器人像人一样泛化」，但卡在数据、算力、可靠性三道坎上。
你现在能落地的：调现成 VLM 做感知，接进你的分层控制。不用训练，不用大显卡。

常见误解

说法	对不对	一句话
VLA 就是 VLM	不对	VLA 比 VLM 多一个「动作」输出，VLM 只理解不动手
端到端 VLA 现在就能拿来用	不对	目前主要在实验室和大厂研究，离普通开发者稳定可用还有距离
ESP32 能跑 VLA	不能	VLA 动辄几十亿参数要好显卡，ESP32 连感知模型都跑不动，得放云端
用 VLM 得自己训练	不用	直接调现成的云端多模态模型，喂图片问问题就行
这跟上一篇的 Agent 是一回事	不全是	上一篇是分层式（大模型调函数），VLA 是另一条端到端路线，理念不同

延伸一步

第一步，把 VLM 接进你已有的分层控制。 你上一篇做的「大模型当大脑、调用函数干活」的架构，现在给它加一只眼睛：在每次规划前，先让 VLM 看一眼摄像头画面，告诉系统「桌上现在有什么、目标在哪」。规划部分拿到这个感知结果，决策会准得多。这一步不改你的执行层，只是给高层补了感知。

第二步，留意「数据采集」这个词。 如果你以后真想碰端到端这条路，绕不开的第一道坎就是数据——你得有办法记录「画面 + 指令 + 你让机械臂做的动作」这样的成对数据。哪怕现在用不上，搭机械臂时顺手把这些数据记下来，将来想做点训练实验就有原料了。这个话题以后单独展开。

动手挑战

不用写代码，先在纸上设计一个最小的「VLM 感知 + 规则执行」方案：

假设你的机械臂摄像头能拍到桌面，桌上可能有红、蓝、绿三个方块，位置随机。任务是「把红色方块推到桌子右边」。
想清楚：哪一步交给 VLM？（提示：让它回答「红色方块在画面的什么位置」）
想清楚：哪一步用你自己写的规则？（提示：拿到位置后，怎么换算成机械臂的移动方向和距离，这部分是确定的数学，不需要大模型）
画出数据流：摄像头 → VLM → 位置坐标 → 你的换算逻辑 → 关节动作。

能把这条链画清楚，你就真正理解了「分层式」这条路线为什么现在最可落地——聪明的部分外包给 VLM，确定的部分自己用规则控制得死死的。

小结·下一步

VLM 是会看会说的眼睛，VLA 是看着就动手的端到端模型。两条路线里，端到端 VLA 是激动人心的未来，但现在更适合远观；分层式才是你今天能上手的——把感知这一环交给现成 VLM，规划和执行留在自己手里。

理解了「大模型怎么想」和「VLM 怎么看」之后，下一篇我们把视角收回到本站的硬件上，看看小智这类设备怎么把「想」和「看」落到真实的运动控制上——让前面这些抽象的大脑，真的驱动起电机和舵机。

内容有错、看不懂、或想看下一期？告诉我们 →

本文为公开资料的学习整理，非亲测。涉接线/花钱/合规的步骤请结合实物与官方最新资料验证，风险自负。见免责声明。