做一个 AI 语音助手，需要哪些硬件？（选型清单）

最后更新 2026-06-20

⏱ 约 12 分钟 🟢 软件/低风险

你将学到

搞清做 AI 语音助手需要哪几类硬件
知道主控/麦克风/喇叭/屏幕各该怎么选
拿到一份带预算的入门 BOM

刷到那个会聊天的小盒子，你也想做一个

你大概在 B 站或者朋友手里见过这玩意：一个巴掌大的小盒子，喊它一声它就应，能跟你扯闲篇、查天气、定闹钟，回答还挺机灵——不是那种"对不起我没听懂"的智障音箱，是真能接上大模型聊起来的。这就是开源圈火起来的小智（xiaozhi-esp32），一个几十块成本就能复刻、社区把固件和后端都开源了的 AI 语音助手。

看着心痒，想自己做一个。但点开别人的项目一看，立马卡住：要买啥？主控是哪块板子？麦克风随便插一个行不行？喇叭怎么响起来？要不要屏幕？一堆名词糊在一起，连第一颗料该买什么都不知道。

这篇就把这件事掰开。一个 AI 语音助手，本质就是"听得见、想得明白、说得出来"三件事落到硬件上：麦克风负责听、主控把声音送上云端让大模型想、喇叭负责说。围着这三件事，再补上电源、屏幕、外壳。下面逐类讲清每一类该选什么、为什么，最后给你一张能直接照着下单的 BOM 和两档预算。想先看整个小智项目长什么样，去 /project/xiaozhi-overview/ 把全貌过一遍再回来。

主控：为什么是 ESP32-S3，几乎没有别的选

主控是这台小盒子的大脑板，所有零件都插在它身上。做 AI 语音助手，主控这一项基本没得选——就是 ESP32-S3，理由很硬：

带 Wi-Fi。语音助手要把你的话传到云端跑大模型，没网就是个哑巴。ESP32-S3 自带 Wi-Fi，不用额外加模块。
算力够跑音频处理。它是双核 240MHz，还带向量指令，能在本地做唤醒词检测、音频编解码这些活，不至于把声音原样上传卡死。
PSRAM 大。语音要缓存一段音频再上传，普通 ESP32 内存太小会爆。S3 常见带 8MB PSRAM 的版本，缓冲音频绰绰有余。这是它比老款 ESP32 强的关键一点。
原生 USB。S3 自带 USB-OTG，一根线供电加烧录加调试，省掉一颗 USB 转串口芯片。

为什么不用更便宜的老 ESP32 或者 ESP32-C3？老 ESP32 内存和算力勉强、PSRAM 配置麻烦；C3 是单核、性能弱，跑音频吃力。S3 是这个价位里"刚好够、又不浪费"的那一块。这几款的具体差别，esp32-model-compare 那篇按内存、核心、外设排了张对比表，纠结型号就去看它。

买的时候认准 ESP32-S3 且带 PSRAM 这两个字，别买到阉割版。开发板形态推荐直接上官方的 ESP32-S3-DevKitC，或者后面会讲的 S3-BOX 套件。

麦克风：用 I2S 数字麦，别碰模拟麦

麦克风是"听"这一环。这里有个新手最容易踩的坑：用 I2S 数字麦克风，不要用那种带三个引脚的模拟麦克风模块。

模拟麦（比如常见的驻极体麦克风模块）输出的是模拟电压，要靠主控的 ADC 去采样，噪声大、采样率上不去、还容易被电源干扰，录出来的声音糊成一团，唤醒词都识别不准。而 I2S 数字麦克风内部自带 ADC，直接吐出干净的数字音频流，主控读进来就是规整的数据，信噪比高得多。

具体型号推荐 INMP441——这是 AI 语音项目里的标配麦，便宜、好买、社区例程多、音质够用。它走 I2S 接口，三根信号线（时钟、帧、数据）接到 ESP32-S3 上就能用。这颗麦的引脚定义、接线和读音频的代码，/sensor/inmp441/ 讲得很细。I2S 这个音频协议本身怎么回事、为什么数字音频要用它，看 /guide/l4-i2s-audio/。

进阶一点想做"远场拾音"（隔几米喊也能听清），可以上双麦甚至麦克风阵列做波束成形，但入门一颗 INMP441 完全够了，先把单麦跑通。

喇叭 + 功放：喇叭不能直接接主控

"说"这一环要两个东西：喇叭，加一颗功放。新手常以为喇叭直接接主控引脚就能响——不行。主控引脚输出的电流太小，直接驱动喇叭要么没声音、要么声音细若蚊蝇，还可能把引脚拉坏。中间必须加一颗功放把信号放大。

推荐 MAX98357 I2S 功放模块。它好就好在：一头吃 I2S 数字音频（和麦克风同一套协议，主控处理起来顺手），一头直接驱动 4Ω 或 8Ω 小喇叭，板载、便宜、接线简单。配一个 3W、4Ω 或 8Ω 的小喇叭就行，盒子小不用追求大功率，3W 在桌面上已经够吵了。

接线上 MAX98357 同样走三根 I2S 线接主控，喇叭两根线拧到模块的喇叭端子。注意喇叭要选带外壳或者纸盆完整的，裸喇叭直接贴在塑料壳上会嗡嗡共振。

屏幕：可选，但加了就有灵魂

屏幕不是必需的——纯语音盒子没屏照样能聊。但加块屏，体验立刻不一样：能显个表情、显识别出来的文字、显个音量条，小盒子一下有了"脸"。

两种选法：

OLED 小屏（0.96 寸或 1.3 寸，SSD1306）：黑底白字，便宜（几块钱），接 I2C 两根线就亮，适合显简单表情和文字。小智的"眨眼睛"表情很多就是用它做的。怎么点亮 OLED、怎么画东西，看 /guide/l2-oled/。
TFT 彩屏（1.3~2.4 寸）：能显彩色动画表情，效果好看，但贵一些、占引脚多、代码复杂。想做得精致再上。

入门建议先用 OLED，或者干脆第一版不要屏，把语音跑通了再加。别让屏幕拖累你的进度——它是锦上添花，不是地基。

电源：锂电 + 充电管理，注意安全

想让盒子能拔了线随身用，就得带电池。方案是一颗 3.7V 锂电池（18650 或软包锂聚合物），加一块 TP4056 充电管理模块（带 USB-C 输入、能边充边用、有过充过放保护）。ESP32-S3 跑语音 + Wi-Fi 时电流不小，电池容量给到 1000mAh 以上才扛得住一阵子。

锂电是这套料里唯一真能出危险的东西——短路、过充、扎破都可能起火鼓包。务必用带保护板的电池，充电管理模块别省。怎么安全地用锂电、哪些操作绝对不能做，/principle/lithium-safety/ 一定要先看一遍再动手。

如果第一版你只在桌面上玩、一直插着 USB，那电池这一项可以先跳过，直接 USB 供电最省心。

外壳与按键：最后一公里

剩下的是把这堆板子装起来。一个 3D 打印或现成的小外壳（喇叭那面要开孔、麦克风也要留孔，不然声音闷在里面）；一两个轻触按键（一个做唤醒/打断、一个做重置或配网）；几根杜邦线或一小块洞洞板把模块连起来。讲究点的直接画块 PCB 把所有模块集成，但入门用面包板或洞洞板飞线就够。

一张入门 BOM 清单

把上面的东西汇成一张能直接照着买的表（价格为国内电商量级，仅作参考，以实时报价为准）：

部件	推荐型号	作用	价格档(¥)
主控	ESP32-S3 (带8MB PSRAM) 开发板	大脑/联网/音频处理	25-45
麦克风	INMP441 (I2S 数字麦)	听你说话	5-10
功放	MAX98357 (I2S 功放模块)	放大音频驱动喇叭	5-10
喇叭	3W 4Ω/8Ω 小喇叭	发声	3-8
屏幕(可选)	0.96" OLED (SSD1306)	显表情/文字	5-12
电池(可选)	3.7V 1000mAh+ 带保护锂电	便携供电	10-20
充电管理(可选)	TP4056 模块 (USB-C)	充电/保护	2-5
杂项	按键/杜邦线/洞洞板/外壳	连接与封装	10-30

主控加麦克风加功放喇叭这"听-想-说"三件套是必买项，加起来 40-70 块就能让盒子开口。屏幕、电池、外壳是可选的体验升级。怎么用 AI 把这种料表整理成结构化 BOM、估总价、标风险料，aiwf-bom 那篇有现成的工作流，下面还会再提。

两档预算

面包板最简版（约 50-70 元）：ESP32-S3 + INMP441 + MAX98357 + 小喇叭，全部用杜邦线插在面包板上，USB 供电，不要屏不要电池。这一版的目的是"先让它能聊起来"，验证你的接线和固件没问题。丑没关系，能对话就是胜利。

带屏完整版（约 100-150 元）：在最简版基础上加 OLED 屏、锂电 + TP4056、3D 打印外壳，焊到洞洞板上或画块小 PCB。这一版才是能拿出去给人看、能拔了线带走的成品。

差价主要在屏幕、电池和外壳工艺上。建议你一定先把最简版跑通，再升级到完整版——别一上来就追求精致，结果卡在某根线接错上一周都听不到回声。

两条路线：买套件省事 vs 面包板搭懂原理

路线一：买 ESP32-S3-BOX 开发套件（最省事）。乐鑫官方的 S3-BOX / S3-BOX-3 是一体化套件，主控、双麦阵列、屏幕、喇叭、外壳全集成好了，开箱刷个固件就能用。优点是不用接线、不会接错、几分钟出效果；缺点是贵一点（一两百），而且所有东西封在里面，你学不到"哪根线接哪里、为什么这么接"。适合只想要个成品、或者先体验一把的人。

路线二：自己用面包板逐个搭（更懂原理）。按上面 BOM 一颗颗买回来，自己接 I2S 麦、接功放、接屏。优点是每一根线都是你接的，I2S 怎么走、功放怎么放大、PSRAM 怎么缓冲音频，全在动手里搞明白了；缺点是会接错、会调半天。如果你的目标是真学会做 AI 硬件而不只是拥有一个，选这条路。

这两条路不冲突：很多人先买 S3-BOX 玩一把建立信心，再自己面包板搭一遍吃透原理。

软件这边一句话

硬件备齐只是一半，盒子要能聊还得有软件。好消息是基本不用从零写：固件直接用开源的小智（xiaozhi-esp32），刷进 ESP32-S3 就行；后端可以连社区公共服务先跑通，也可以自己搭一套——怎么自建后端看 /guide/l4-self-host/，里面"听懂你的话"用的语音识别（ASR）和"开口说话"用的语音合成（TTS）怎么接，看 /guide/l4-asr-tts/，而中间那个"想明白怎么回答"的大模型脑子，看 /guide/l4-llm/。这套软件全栈是另一个大话题，本篇先把硬件这一头给你备齐。

用 AI 帮你选型和算 BOM

选料这件事本身就能让 AI 搭把手。你可以把需求大白话丢给它："我想做个 ESP32-S3 的 AI 语音助手，要带屏和电池，帮我列一份 BOM，标出哪些是必买、哪些可选，估个总价。"它能很快整理出结构化清单、补上你漏掉的料（比如你忘了功放）、给个成本量级。

但记住一点：AI 给的价格是旧数据，只能看量级，下单前必须到电商查实时价。 它说一颗主控 30 块，实际可能 22 也可能 48。怎么用 AI 系统地生成 BOM、估成本、标风险料，以及它会漏哪些隐性成本（打样费、运费、损耗），aiwf-bom 讲得很完整，照着走一遍，你这台语音助手的料表能省一半填表时间。

常见误区与排查

现象	原因	怎么办
录音糊成一团、唤醒词识别不准	用了模拟麦走 ADC	换 I2S 数字麦（INMP441）
喇叭没声音或声音极小	喇叭直接接了主控、没加功放	中间加 MAX98357 I2S 功放
跑一会儿就重启/死机	主控没 PSRAM 或供电不足	买带 8MB PSRAM 的 S3，电池/USB 供电要稳
上传音频卡顿、缓冲爆内存	算力/内存不够	用 ESP32-S3，别用 C3 或老 ESP32
电池鼓包发烫	锂电无保护板/充电管理缺失	用带保护锂电 + TP4056，先看锂电安全
声音闷、共振嗡嗡	外壳没开孔、裸喇叭贴塑料	喇叭面开孔、喇叭带盆或固定好

动手挑战

别急着下单。先做一件五分钟的事：照着上面的逻辑，为你自己的 AI 语音助手列一份 BOM。

写下来这几行——主控选什么型号、麦克风选什么、功放和喇叭选什么、要不要屏（选哪种）、要不要电池、外壳怎么解决。每一行后面写一句"为什么选它"。然后把单价填上，加出一个总价，给自己定个预算档（最简版还是完整版）。

填完你会发现两件事：一是你已经能独立讲清楚这台机器每个零件干嘛的了；二是哪几颗料你还拿不准——那就是接下来要去查的。把这份单子丢给 AI 让它帮你查漏补缺、估个总价（记得价格只看量级），一份能下单的清单就成了。

小结

做一个 AI 语音助手，硬件就围着"听-想-说"三件事：主控认准带 PSRAM 的 ESP32-S3，麦克风用 I2S 数字麦 INMP441，发声靠 MAX98357 功放加小喇叭——这三样 40-70 块就让盒子开口。屏幕、锂电、外壳是体验升级，可选可后补。两条路线随你：买 S3-BOX 套件最省事，面包板自己搭最懂原理。料表理清、预算定档，剩下就是刷小智固件、把它喂活。

想看这台小盒子从硬件到固件到后端的完整全貌、跟着一步步做出来，回到旗舰项目 /project/xiaozhi-overview/。

内容有错、看不懂、或想看下一期？告诉我们 →

本文为公开资料的学习整理，非亲测。涉接线/花钱/合规的步骤请结合实物与官方最新资料验证，风险自负。见免责声明。