← 返回教程库

什么是边缘 AI / TinyML:让 AI 跑在芯片上

最后更新 2026-06-20
L4 · AI 赋能 / AIoT ⏱ 约 17 分钟 🟢 软件/低风险
你将学到
  • 说清云端 AI 和边缘 AI 到底差在哪:延迟、隐私、联网、成本
  • 理解 TinyML 是什么——把很小的神经网络塞进单片机本地跑
  • 知道 ESP32 这类芯片真能跑什么、绝对跑不了什么
  • 看懂模型怎么"变小":量化和裁剪在干嘛
  • 知道 Edge Impulse、TFLite Micro 这些工具链各自管哪一段

上一节里,硬件的"大脑"是放在云端的——板子只管收发,重活全甩给服务器。这一节反过来:把 AI 直接塞进芯片本地跑,不联网也能"识别"东西

想象一个场景。一颗指甲盖大的板子,没插网线、没连 Wi-Fi,安静地待在那。你拍两下手,它亮灯;你说"开灯",它开灯;机器轴承的振动一旦不对劲,它立刻报警。这一切判断都在那颗芯片里完成,没有一个字节发到云端。这不是科幻,这是边缘 AI(Edge AI),落到单片机这种小芯片上,它有个专门的名字:TinyML

会写代码的你,多半已经在云端调过模型 API。这一节要建立的是另一种直觉:AI 不一定非得在大服务器上跑,一个几块钱、几百 KB 内存的芯片,也能跑一个"够用"的神经网络。读完你会知道它能干到哪、到哪为止——而不是停在"AI 上芯片好厉害"的兴奋里。

📌 说明

这一节讲概念和判断,不讲具体训练步骤。目的是让你在动手前先有一张地图:知道边缘 AI 适合解什么问题、ESP32 这类芯片的天花板在哪。真要落地一个具体应用,后面的 ESP32-CAM 图像识别 会带你走一遍完整流程。


云端 AI vs 边缘 AI:同一个判断,两个地方做

上一节的语音助手,判断在云端;这一节的拍手开灯,判断在芯片。同样是"AI 在做决定",放哪做,差别巨大。四笔账,一笔笔算。

延迟:云端按秒,边缘按毫秒

云端走一圈要"录音 → 上传 → 模型思考 → 下发",端到端常见 1~3 秒。边缘不一样——数据不出芯片,省掉了整个网络往返,识别一个关键词、判断一次动作,通常在几十到几百毫秒就出结果。要做"喊一声立刻关灯"这种实时反应,边缘是唯一答案,云端那一两秒的等待会让人抓狂。

隐私:边缘的数据根本不出门

云端方案里,用户说的话、拍到的画面,都得离开设备才能被处理。边缘把这件事彻底绕开了:麦克风采到的声音、摄像头看到的画面,在芯片里就地处理完、当场丢掉,一个字节都不上传。对涉及隐私的场景(家里、身上、医疗),这不是加分项,是能不能做的前提。

联网:边缘断网照样干活

云端方案断网就成砖——够不着大脑,整个设备瘫痪。边缘 AI 的模型就在芯片里,没网也照常工作。装在地下室、田里、机器内部这些信号差甚至没信号的地方,边缘是唯一能用的。

成本:边缘是一次性的,云端是按次累加

云端大模型按量付费,设备用得越多账单越涨,量产成千上万台一直在线的设备,这是一笔持续流血的账。边缘把推理放在你已经买了的那颗芯片上,跑一次和跑一万次,电费之外不多花一分钱,也省掉了服务器和带宽。

一句话收口:要快、要私密、要离线、要省持续成本,往边缘挪;要强、要复杂推理、要跟得上最新大模型,留在云端。 现实里好的产品常常两头都用——简单判断在芯片秒回,复杂对话才上云。


什么是 TinyML:把很小的神经网络塞进单片机

"边缘 AI"是个大词,从手机、到车载、到智能音箱都算。落到 ESP32 这种单片机这一层,它叫 TinyML——Tiny Machine Learning,微型机器学习。

定义很朴素:在算力以 MHz 计、内存以 KB 计、功耗以毫瓦计的微控制器上,跑一个训练好的神经网络做推理。 注意是"推理"不是"训练"——模型在你的电脑或云端用大量数据训好,再把训练成果(一个很小的模型文件)烧进芯片,芯片只负责"拿来用":输入一段传感器数据,输出一个判断。

打个比方。训练像是花几个月教会一个学徒认零件,这事在工厂(你的电脑/云)完成;推理像是学徒上岗后看一眼就报出零件名,这事在现场(芯片)发生。TinyML 干的是把"上岗后的本事"压缩到能装进一颗小芯片里。

为什么这事现在才热起来?因为两边同时进步了:一边是模型压缩技术让神经网络能瘦到几十 KB;另一边是 ESP32 这类芯片便宜到几块钱、还带了点算力。两边一碰头,"AI 跑在芯片上"才从论文变成你能买元件复现的东西。


ESP32 真能跑什么——以及绝对跑不了什么

这是最容易被带偏的地方。网上一吹"AI 上芯片",新手就以为能在 ESP32 上跑个聊天机器人。不能。把能跑的和跑不了的,分清楚。

能跑的:四类"小而确定"的任务

  • 关键词识别:听几个固定的词,比如"开灯""停止""小智"。这正是 唤醒词 的底层——一个常驻的小模型一直听,只在听到特定词时触发。
  • 简单图像分类:在很低分辨率下,分辨"有人/没人""猫/狗""零件合格/不合格"这种少数几个类别。别想着识别上千种物体,几个类别是它的舒适区。
  • 动作识别:接个加速度计,判断设备此刻是"静止/走路/跑步/跌倒",或一个手势画了什么。这类数据维度低,特别适合 TinyML。
  • 异常检测:学会机器"正常时"的振动、声音、电流长什么样,一旦偏离就报警。工业预测性维护最常用这招,而且它连"异常长什么样"都不用提前知道。

这四类的共同点:输入是低维传感器数据、输出是少数几个类别、判断逻辑相对确定。

跑不了的:别抱幻想

  • 跑不了大语言模型。 ChatGPT 那种模型动辄几十上百亿参数、要几十 GB 内存,ESP32 的内存以几百 KB 计,差了好几个数量级。想要对话能力,老老实实走 上一节 的云端路线。
  • 跑不了高精度、多类别的复杂识别。 几百上千个类别的精细图像识别,远超它的算力和内存。
  • 跑不了在芯片上训练。 训练极吃算力和数据,老老实实在电脑或云端训,芯片只管推理。
🚧 避坑

新手最大的坑,是把"边缘 AI"理解成"在 ESP32 上跑一个缩小版 ChatGPT"。这条路根本不存在。 边缘 AI 的正确打开方式是:挑一个小而明确的任务(听几个词、分几个类、判断动没动),用一个几十 KB 的小模型把它做到够用。想要大模型的能力,那是云端的活,别在芯片上硬憋。


模型怎么"变小":量化和裁剪

一个正常训出来的神经网络,往往有几 MB 到几十 MB,塞不进 ESP32。让它瘦到几十 KB,靠的是两类手段,了解概念就够,细节工具会替你做。

量化:把高精度数字换成低精度

原始模型里的参数通常是 32 位浮点数(占 4 个字节,精度高但占地方)。量化就是把它们换成更省地方的低精度表示——常见是换成 8 位整数(1 个字节)。

直觉上:原来每个参数用一把能量到小数点后好多位的精密尺子记,量化后改用一把刻度粗一点的尺子。模型体积直接砍掉一大块,运算还更快(整数运算比浮点快、还更省电)。代价是精度略降——但对"分几个类"这种任务,往往降得几乎感觉不到。量化是 TinyML 里最关键、最常用的一步。

裁剪:把没用的连接剪掉

训练出来的神经网络里,有相当一部分连接的权重很小、对结果几乎没影响。**裁剪(剪枝)**就是把这些"基本没用"的连接直接删掉,让网络变稀疏、变小。

直觉上:像给一棵长疯了的树修枝,剪掉不结果的枝条,树更精瘦但该结的果一个不少。裁剪之后通常再训练一下"找补"回来,进一步压体积。

💡 提示

量化和裁剪你多半不用手写——后面要讲的工具链会把这些做成几个选项,你勾一下、它替你压。现在你只要建立一个判断:一个模型能不能塞进 ESP32,很大程度看它量化之后有多大。看到"INT8 量化模型"这种字眼,知道它说的就是这件事,就够了。


工具链概览:各管一段,别搞混

从"我有一堆传感器数据"到"芯片里跑着一个模型",中间有训练、压缩、转换、部署好几段。有两个真实存在、用得很广的工具,各管不同的段。

Edge Impulse:从数据到部署的一条龙平台

Edge Impulse 是一个面向 TinyML 的在线平台,特点是把整条流程串成了图形界面:采集/上传数据 → 在网页上设计和训练模型 → 自动量化压缩 → 一键导出成能烧进 ESP32 的代码。对第一次做边缘 AI 的人,它把最难的"模型怎么训、怎么压"这段大幅简化了,你不写一行训练代码也能跑出一个分类器。

TensorFlow Lite Micro:跑模型的那个引擎

TensorFlow Lite Micro(TFLite Micro)是另一层的东西——它是一个专为微控制器设计的推理引擎,负责在芯片上真正把那个小模型"跑起来"。很多平台(包括 Edge Impulse 导出的代码)底层就是靠它在芯片上执行推理。你可以把它理解成"模型在芯片里的运行时"。

两者关系:Edge Impulse 偏"帮你训练和打包"的平台,TFLite Micro 偏"在芯片上执行"的引擎,常常一起出现在同一条链路里。

📌 说明

这两个工具的具体 API、菜单、参数会随版本变,这里只给你它们各自管哪一段的认知地图,不背具体调用——真要用,以它们官网当下的文档为准。先有"哪段用哪个"的判断,比记住某个函数名重要得多。


端侧 vs 云侧:怎么分工

看完两边,别急着站队。成熟的 AI 硬件几乎都是两头配合,关键是把每个判断放在对的地方。

一个好用的分法:

  • 高频、简单、要快、涉隐私的判断 → 放端侧。 唤醒词、动作识别、异常报警这类,本地秒回、不上云、断网也行。
  • 低频、复杂、要强推理的判断 → 放云侧。 听懂一句没预设过的人话、复杂对话、需要最新知识,交给云端大模型。

最典型的组合就是 上一节 的语音助手:唤醒词在芯片本地跑(端侧 TinyML),听到了再把后续对话送上云(云侧大模型)。端侧当"门卫",省电、保隐私、不误触云端账单;云侧当"大脑",负责真正复杂的理解。这套分工,是 AI 硬件的主流形态。


避坑:算力和内存是硬天花板

边缘 AI 翻车,八成栽在对芯片家底的误判上。三条记牢。

  • 内存是第一道墙。 ESP32 的 RAM 以几百 KB 计,模型本身、运行时、还有你程序的其他部分都要挤在里面。模型量化后多大、推理时要多少缓冲,上手前先估,别等烧进去才发现装不下、板子一跑就重启。
  • 算力决定能跑多复杂。 任务越复杂、输入维度越高(比如高分辨率图像),推理越慢越吃力。把任务往"小而明确"的方向收,是边缘 AI 的核心功夫,不是退而求其次。
  • 别想一步上端侧大模型。 这是开头那个 pitfall 的回声,但值得再说一遍:端侧的本分是"小任务做扎实",不是"把大模型缩小"。方向选错,后面怎么调都是白费力气。

动手挑战:用 Edge Impulse 训一个简单分类器(思路版)

别只看。这里给一条完整的思路链,让你心里有谱——具体一步步操作,留到 ESP32-CAM 那一节 带你实做,这里先把"要做哪几件事"想清楚。

  1. 定一个小到不能再小的任务:比如用加速度计分辨设备"静止 / 摇晃"两种状态。两个类别,是边缘 AI 最友好的起点。
  2. 采数据:让设备分别在"静止"和"摇晃"时各录一批加速度数据,打好标签。数据是模型的全部底气,两类各多采一些、多样一些。
  3. 在 Edge Impulse 里训练:上传数据,按它的引导设计一个小模型、训练、看准确率。
  4. 量化导出:让平台把模型量化压缩,导出成能烧进 ESP32 的格式。这一步你能直观看到模型被压到了多小。
  5. 烧进芯片验证:把模型部署到板子,实际摇一摇,看它能不能当场认出来——全程不联网。

跑通这一条,你就亲手验证了这一节所有的概念:模型在电脑/云端训、压缩后塞进芯片、芯片离线推理。把这个最小闭环走一遍,比读十篇概念都顶用。


小结 · 你现在掌握了什么

  • 你能说清云端 AI 和边缘 AI 的四笔账:边缘快、私密、能离线、长期省成本;云端强、能复杂推理。
  • 你知道 TinyML 是把一个训好的小神经网络塞进单片机做推理——训练在外、推理在芯片。
  • 你分得清 ESP32 能干什么(关键词、简单图像分类、动作识别、异常检测)、绝对干不了什么(大语言模型、复杂多类识别、芯片上训练)。
  • 你理解了模型靠量化和裁剪"变小",也知道 Edge Impulse 管"训练打包"、TFLite Micro 管"芯片上执行"。
  • 你认清了端云分工的主流形态:端侧当门卫、云侧当大脑。

边缘 AI 的内核,是"把对的判断放在对的地方"。把这个判断练出来,你再看任何一个 AIoT 产品,都能一眼看出它哪部分在芯片、哪部分在云。

下一步:把概念落到一个看得见的应用——用 ESP32-CAM 做图像识别,亲手走一遍"采数据 → 训练 → 量化 → 烧进芯片 → 离线识别"的完整流程。如果你更想从传感器数据入手,传感器 + AI 那条路会更顺手。

📄 来源 / 自校链接

本文为公开资料整理,非亲测。关键参数与代码请结合实物与下列官方来源验证。

内容有错、看不懂、或想看下一期?告诉我们 →

本文为公开资料的学习整理,非亲测。涉接线/花钱/合规的步骤请结合实物与官方最新资料验证,风险自负。见免责声明