L4 AI 赋能 / AIoT｜器赋开物

L4

AI 赋能 / AIoT

接大模型 · 语音全栈 · 边缘 AI · 自建后端 · 机器人入口

01

让硬件会说话：ESP32 调用大模型 API

把一颗 ESP32 接上大模型，它就从"按固定逻辑反应"变成"能听懂人话、能对答"。这是 AI 时代硬件最大的不一样，也是小智这类项目的内核。
02

Function Calling：让大模型调用你的硬件函数

大模型不只会生成文字，它还能决定"该调哪个函数、传什么参数"。把这套机制接到 ESP32 上，你说"开灯"，它真的去开。这是硬件从"会聊天"进阶到"会动手"的那道分水岭。
03

MCP 协议：用标准方式让 AI 控制硬件

每接一个新硬件动作就要重写一套对接，太累。MCP 把"工具/能力"标准化，像给 AI 接硬件配了个 USB 口。这篇讲清它是什么、解决什么问题、在小智里怎么用。
04

麦克风与音频采集：I2S 是怎么回事

想做会听会说的硬件，第一关是把声音干净地搬进芯片、再把声音送出去。这一节讲清 I2S 这条数字音频总线，以及为什么语音 AI 几乎都用数字麦克风。
05

离线唤醒词：让硬件"听到名字才醒"

你喊一声"小智"，它才睁眼——这一步必须在板子本地完成，不能把声音一直往云上送。这一节讲清楚唤醒词为什么要离线、本地小模型在判断什么，以及在 ESP32 上用乐鑫的方案大致怎么落地。
06

流式 ASR 与 TTS：把语音转文字、把文字变语音

唤醒之后，硬件要把你的话变成模型能读的文字、再把模型的回答说出来。这一节把 ASR 和 TTS 这两道"声音与文字的翻译"讲透，以及为什么必须"流式"。
07

什么是边缘 AI / TinyML：让 AI 跑在芯片上

不联网，一颗几块钱的单片机也能"识别"声音、动作、异常——这就是边缘 AI。这一节把 TinyML 讲透：它能干什么、跑不了什么、模型怎么塞进芯片，以及别一上来就想跑大模型。
08

ESP32-CAM 摄像头入门：给硬件装上"眼睛"

几十块钱，就能给你的项目加一个能联网的摄像头。这一节带你认清 ESP32-CAM 的坑、跑通官方实时画面、再讲清"硬件能看见"之后能做什么、做不到什么。
09

用 AI 给传感器数据做判断：从采集到理解

传感器读回来一堆数字，谁来判断"这正常吗""该报警吗"？这一节讲清写死的阈值为什么不够用，以及用 AI 让数据从"被采集"到"被理解"的三种思路。
10

自建 AI 后端：把"大脑"放回自己手里

用现成服务能让小智开口，但数据、成本、模型都不在你手上。这一节讲为什么以及怎样用开源的 xiaozhi-esp32-server 自己起一套后端，把整条 AI 链路收回自己掌控。
11

从智能硬件到机器人：一张全景导览

会感知、会联网、会思考的硬件，再加上"会动"，就成了机器人。这一节带你俯瞰机器人的全貌——它比智能硬件多了什么、由哪几块拼成、你已经会的招怎么用上，然后把你送进机器人专题卷。