← 返回文章库

做一个 AI 语音助手,需要哪些硬件?(选型清单)

最后更新 2026-06-20
⏱ 约 12 分钟 🟢 软件/低风险
你将学到
  • 搞清做 AI 语音助手需要哪几类硬件
  • 知道主控/麦克风/喇叭/屏幕各该怎么选
  • 拿到一份带预算的入门 BOM

刷到那个会聊天的小盒子,你也想做一个

你大概在 B 站或者朋友手里见过这玩意:一个巴掌大的小盒子,喊它一声它就应,能跟你扯闲篇、查天气、定闹钟,回答还挺机灵——不是那种"对不起我没听懂"的智障音箱,是真能接上大模型聊起来的。这就是开源圈火起来的小智(xiaozhi-esp32),一个几十块成本就能复刻、社区把固件和后端都开源了的 AI 语音助手。

看着心痒,想自己做一个。但点开别人的项目一看,立马卡住:要买啥?主控是哪块板子?麦克风随便插一个行不行?喇叭怎么响起来?要不要屏幕?一堆名词糊在一起,连第一颗料该买什么都不知道。

这篇就把这件事掰开。一个 AI 语音助手,本质就是"听得见、想得明白、说得出来"三件事落到硬件上:麦克风负责听、主控把声音送上云端让大模型想、喇叭负责说。围着这三件事,再补上电源、屏幕、外壳。下面逐类讲清每一类该选什么、为什么,最后给你一张能直接照着下单的 BOM 和两档预算。想先看整个小智项目长什么样,去 /project/xiaozhi-overview/ 把全貌过一遍再回来。

主控:为什么是 ESP32-S3,几乎没有别的选

主控是这台小盒子的大脑板,所有零件都插在它身上。做 AI 语音助手,主控这一项基本没得选——就是 ESP32-S3,理由很硬:

  • 带 Wi-Fi。语音助手要把你的话传到云端跑大模型,没网就是个哑巴。ESP32-S3 自带 Wi-Fi,不用额外加模块。
  • 算力够跑音频处理。它是双核 240MHz,还带向量指令,能在本地做唤醒词检测、音频编解码这些活,不至于把声音原样上传卡死。
  • PSRAM 大。语音要缓存一段音频再上传,普通 ESP32 内存太小会爆。S3 常见带 8MB PSRAM 的版本,缓冲音频绰绰有余。这是它比老款 ESP32 强的关键一点。
  • 原生 USB。S3 自带 USB-OTG,一根线供电加烧录加调试,省掉一颗 USB 转串口芯片。

为什么不用更便宜的老 ESP32 或者 ESP32-C3?老 ESP32 内存和算力勉强、PSRAM 配置麻烦;C3 是单核、性能弱,跑音频吃力。S3 是这个价位里"刚好够、又不浪费"的那一块。这几款的具体差别,esp32-model-compare 那篇按内存、核心、外设排了张对比表,纠结型号就去看它。

买的时候认准 ESP32-S3 且带 PSRAM 这两个字,别买到阉割版。开发板形态推荐直接上官方的 ESP32-S3-DevKitC,或者后面会讲的 S3-BOX 套件。

麦克风:用 I2S 数字麦,别碰模拟麦

麦克风是"听"这一环。这里有个新手最容易踩的坑:用 I2S 数字麦克风,不要用那种带三个引脚的模拟麦克风模块。

模拟麦(比如常见的驻极体麦克风模块)输出的是模拟电压,要靠主控的 ADC 去采样,噪声大、采样率上不去、还容易被电源干扰,录出来的声音糊成一团,唤醒词都识别不准。而 I2S 数字麦克风内部自带 ADC,直接吐出干净的数字音频流,主控读进来就是规整的数据,信噪比高得多。

具体型号推荐 INMP441——这是 AI 语音项目里的标配麦,便宜、好买、社区例程多、音质够用。它走 I2S 接口,三根信号线(时钟、帧、数据)接到 ESP32-S3 上就能用。这颗麦的引脚定义、接线和读音频的代码,/sensor/inmp441/ 讲得很细。I2S 这个音频协议本身怎么回事、为什么数字音频要用它,看 /guide/l4-i2s-audio/

进阶一点想做"远场拾音"(隔几米喊也能听清),可以上双麦甚至麦克风阵列做波束成形,但入门一颗 INMP441 完全够了,先把单麦跑通。

喇叭 + 功放:喇叭不能直接接主控

"说"这一环要两个东西:喇叭,加一颗功放。新手常以为喇叭直接接主控引脚就能响——不行。主控引脚输出的电流太小,直接驱动喇叭要么没声音、要么声音细若蚊蝇,还可能把引脚拉坏。中间必须加一颗功放把信号放大。

推荐 MAX98357 I2S 功放模块。它好就好在:一头吃 I2S 数字音频(和麦克风同一套协议,主控处理起来顺手),一头直接驱动 4Ω 或 8Ω 小喇叭,板载、便宜、接线简单。配一个 3W、4Ω 或 8Ω 的小喇叭就行,盒子小不用追求大功率,3W 在桌面上已经够吵了。

接线上 MAX98357 同样走三根 I2S 线接主控,喇叭两根线拧到模块的喇叭端子。注意喇叭要选带外壳或者纸盆完整的,裸喇叭直接贴在塑料壳上会嗡嗡共振。

屏幕:可选,但加了就有灵魂

屏幕不是必需的——纯语音盒子没屏照样能聊。但加块屏,体验立刻不一样:能显个表情、显识别出来的文字、显个音量条,小盒子一下有了"脸"。

两种选法:

  • OLED 小屏(0.96 寸或 1.3 寸,SSD1306):黑底白字,便宜(几块钱),接 I2C 两根线就亮,适合显简单表情和文字。小智的"眨眼睛"表情很多就是用它做的。怎么点亮 OLED、怎么画东西,看 /guide/l2-oled/
  • TFT 彩屏(1.3~2.4 寸):能显彩色动画表情,效果好看,但贵一些、占引脚多、代码复杂。想做得精致再上。

入门建议先用 OLED,或者干脆第一版不要屏,把语音跑通了再加。别让屏幕拖累你的进度——它是锦上添花,不是地基。

电源:锂电 + 充电管理,注意安全

想让盒子能拔了线随身用,就得带电池。方案是一颗 3.7V 锂电池(18650 或软包锂聚合物),加一块 TP4056 充电管理模块(带 USB-C 输入、能边充边用、有过充过放保护)。ESP32-S3 跑语音 + Wi-Fi 时电流不小,电池容量给到 1000mAh 以上才扛得住一阵子。

锂电是这套料里唯一真能出危险的东西——短路、过充、扎破都可能起火鼓包。务必用带保护板的电池,充电管理模块别省。怎么安全地用锂电、哪些操作绝对不能做,/principle/lithium-safety/ 一定要先看一遍再动手。

如果第一版你只在桌面上玩、一直插着 USB,那电池这一项可以先跳过,直接 USB 供电最省心。

外壳与按键:最后一公里

剩下的是把这堆板子装起来。一个 3D 打印或现成的小外壳(喇叭那面要开孔、麦克风也要留孔,不然声音闷在里面);一两个轻触按键(一个做唤醒/打断、一个做重置或配网);几根杜邦线或一小块洞洞板把模块连起来。讲究点的直接画块 PCB 把所有模块集成,但入门用面包板或洞洞板飞线就够。

一张入门 BOM 清单

把上面的东西汇成一张能直接照着买的表(价格为国内电商量级,仅作参考,以实时报价为准):

部件 推荐型号 作用 价格档(¥)
主控 ESP32-S3 (带8MB PSRAM) 开发板 大脑/联网/音频处理 25-45
麦克风 INMP441 (I2S 数字麦) 听你说话 5-10
功放 MAX98357 (I2S 功放模块) 放大音频驱动喇叭 5-10
喇叭 3W 4Ω/8Ω 小喇叭 发声 3-8
屏幕(可选) 0.96" OLED (SSD1306) 显表情/文字 5-12
电池(可选) 3.7V 1000mAh+ 带保护锂电 便携供电 10-20
充电管理(可选) TP4056 模块 (USB-C) 充电/保护 2-5
杂项 按键/杜邦线/洞洞板/外壳 连接与封装 10-30

主控加麦克风加功放喇叭这"听-想-说"三件套是必买项,加起来 40-70 块就能让盒子开口。屏幕、电池、外壳是可选的体验升级。怎么用 AI 把这种料表整理成结构化 BOM、估总价、标风险料,aiwf-bom 那篇有现成的工作流,下面还会再提。

两档预算

面包板最简版(约 50-70 元):ESP32-S3 + INMP441 + MAX98357 + 小喇叭,全部用杜邦线插在面包板上,USB 供电,不要屏不要电池。这一版的目的是"先让它能聊起来",验证你的接线和固件没问题。丑没关系,能对话就是胜利。

带屏完整版(约 100-150 元):在最简版基础上加 OLED 屏、锂电 + TP4056、3D 打印外壳,焊到洞洞板上或画块小 PCB。这一版才是能拿出去给人看、能拔了线带走的成品。

差价主要在屏幕、电池和外壳工艺上。建议你一定先把最简版跑通,再升级到完整版——别一上来就追求精致,结果卡在某根线接错上一周都听不到回声。

两条路线:买套件省事 vs 面包板搭懂原理

路线一:买 ESP32-S3-BOX 开发套件(最省事)。乐鑫官方的 S3-BOX / S3-BOX-3 是一体化套件,主控、双麦阵列、屏幕、喇叭、外壳全集成好了,开箱刷个固件就能用。优点是不用接线、不会接错、几分钟出效果;缺点是贵一点(一两百),而且所有东西封在里面,你学不到"哪根线接哪里、为什么这么接"。适合只想要个成品、或者先体验一把的人。

路线二:自己用面包板逐个搭(更懂原理)。按上面 BOM 一颗颗买回来,自己接 I2S 麦、接功放、接屏。优点是每一根线都是你接的,I2S 怎么走、功放怎么放大、PSRAM 怎么缓冲音频,全在动手里搞明白了;缺点是会接错、会调半天。如果你的目标是真学会做 AI 硬件而不只是拥有一个,选这条路。

这两条路不冲突:很多人先买 S3-BOX 玩一把建立信心,再自己面包板搭一遍吃透原理。

软件这边一句话

硬件备齐只是一半,盒子要能聊还得有软件。好消息是基本不用从零写:固件直接用开源的小智(xiaozhi-esp32),刷进 ESP32-S3 就行;后端可以连社区公共服务先跑通,也可以自己搭一套——怎么自建后端看 /guide/l4-self-host/,里面"听懂你的话"用的语音识别(ASR)和"开口说话"用的语音合成(TTS)怎么接,看 /guide/l4-asr-tts/,而中间那个"想明白怎么回答"的大模型脑子,看 /guide/l4-llm/。这套软件全栈是另一个大话题,本篇先把硬件这一头给你备齐。

用 AI 帮你选型和算 BOM

选料这件事本身就能让 AI 搭把手。你可以把需求大白话丢给它:"我想做个 ESP32-S3 的 AI 语音助手,要带屏和电池,帮我列一份 BOM,标出哪些是必买、哪些可选,估个总价。"它能很快整理出结构化清单、补上你漏掉的料(比如你忘了功放)、给个成本量级。

但记住一点:AI 给的价格是旧数据,只能看量级,下单前必须到电商查实时价。 它说一颗主控 30 块,实际可能 22 也可能 48。怎么用 AI 系统地生成 BOM、估成本、标风险料,以及它会漏哪些隐性成本(打样费、运费、损耗),aiwf-bom 讲得很完整,照着走一遍,你这台语音助手的料表能省一半填表时间。

常见误区与排查

现象 原因 怎么办
录音糊成一团、唤醒词识别不准 用了模拟麦走 ADC 换 I2S 数字麦(INMP441)
喇叭没声音或声音极小 喇叭直接接了主控、没加功放 中间加 MAX98357 I2S 功放
跑一会儿就重启/死机 主控没 PSRAM 或供电不足 买带 8MB PSRAM 的 S3,电池/USB 供电要稳
上传音频卡顿、缓冲爆内存 算力/内存不够 用 ESP32-S3,别用 C3 或老 ESP32
电池鼓包发烫 锂电无保护板/充电管理缺失 用带保护锂电 + TP4056,先看锂电安全
声音闷、共振嗡嗡 外壳没开孔、裸喇叭贴塑料 喇叭面开孔、喇叭带盆或固定好

动手挑战

别急着下单。先做一件五分钟的事:照着上面的逻辑,为你自己的 AI 语音助手列一份 BOM。

写下来这几行——主控选什么型号、麦克风选什么、功放和喇叭选什么、要不要屏(选哪种)、要不要电池、外壳怎么解决。每一行后面写一句"为什么选它"。然后把单价填上,加出一个总价,给自己定个预算档(最简版还是完整版)。

填完你会发现两件事:一是你已经能独立讲清楚这台机器每个零件干嘛的了;二是哪几颗料你还拿不准——那就是接下来要去查的。把这份单子丢给 AI 让它帮你查漏补缺、估个总价(记得价格只看量级),一份能下单的清单就成了。

小结

做一个 AI 语音助手,硬件就围着"听-想-说"三件事:主控认准带 PSRAM 的 ESP32-S3,麦克风用 I2S 数字麦 INMP441,发声靠 MAX98357 功放加小喇叭——这三样 40-70 块就让盒子开口。屏幕、锂电、外壳是体验升级,可选可后补。两条路线随你:买 S3-BOX 套件最省事,面包板自己搭最懂原理。料表理清、预算定档,剩下就是刷小智固件、把它喂活。

想看这台小盒子从硬件到固件到后端的完整全貌、跟着一步步做出来,回到旗舰项目 /project/xiaozhi-overview/

内容有错、看不懂、或想看下一期?告诉我们 →

本文为公开资料的学习整理,非亲测。涉接线/花钱/合规的步骤请结合实物与官方最新资料验证,风险自负。见免责声明