小智怎么选硬件与配 BOM:三条路和一张清单
本文讲解原理与流程、引用关键片段并注明出处,版权归原作者,遵循其开源协议;一切以上游仓库最新版本为准。
| 器材 | 数量 | 参考 |
|---|---|---|
| ESP32-S3-BOX / BOX-3(开箱即用整机方案) | 1 | —整机方案,以商城标价为准 |
| 或 M5Stack Core / AtomS3R + 语音配件(模块化方案) | 1 | —模块化组合,以商城标价为准 |
| 或 ESP32-S3 开发板(自制方案,须带 PSRAM) | 1 | —以商城标价为准 |
| INMP441 I2S 数字麦克风模块(自制方案用) | 1 | —以商城标价为准 |
| MAX98357 I2S 功放模块 + 小喇叭(自制方案用) | 1 | —以商城标价为准 |
| 小屏(SSD1306 OLED 或 ST7789 LCD,可选) | 0-1 | —可选,以商城标价为准 |
价格随渠道波动,以购买页实时为准。
上一节小智是什么我们把"它是什么、为什么拆它"想清楚了。现在你手痒了,想真正下场。下场第一步不是刷代码,是先有块能跑它的板子。 这一节就干一件事:帮你把硬件选明白,把该买的东西列成一张能照着下单的清单——选错了,后面刷固件、接麦克风每一步都会加倍难受。
先说个让你松口气的前提:小智官方适配 70 多款开源硬件,你不用为它去找什么稀有型号。真正要你拿主意的,是走哪条路。
三条路:你到底想省时间还是想练手
给小智配硬件,摆在你面前的是三条路。它们不是"好中差",而是对应三种不同的你——先看清自己是哪一种,再往下选。
第一条 · 买整机方案,开箱即用。 最省心的一条:直接买一块乐鑫官方的 ESP32-S3-BOX / BOX-3 这类整机开发套件。它出厂就把主控、麦克风阵列、喇叭、屏幕、外壳全焊好装好了——你拿到手,刷进小智固件就能对话,中间不用碰一根杜邦线。小智对这类主流盒子适配得最成熟,社区踩过的坑最多、文档最全。
代价是:贵一些,而且你学不到"怎么把麦克风接到主控"这一段——因为别人替你接好了。适合只想快点看到小智活过来、先建立成就感的人,也适合想把它当成品用、不打算深挖硬件的人。
第二条 · 买模块化方案,搭积木。 中间路线:M5Stack 这类模块化生态。主机(比如 Core 系列、AtomS3R)是一块,麦克风、喇叭、屏幕做成能磁吸或插拔的配件,你像搭积木一样按需拼。它比自制干净(没有飞线),又比整机灵活(能换配件、能加传感器往下扩)。
代价是配件生态有门槛,得先摸清哪块配哪块。适合想动手但不想焊、还想给项目留扩展余地的人。
第三条 · 面包板自制,从零攒。 最硬核也最长知识的一条:买一块光板 ESP32-S3 开发板,自己另配 INMP441 麦克风、MAX98357 功放加喇叭,用面包板和杜邦线一根根接起来。每一根线你都亲手接过,I2S 到底怎么走、哪个脚是时钟哪个脚是数据,你会刻进脑子里。
代价是最容易翻车:接错一根线、配错一个引脚,麦克风就一片噪声、喇叭就不出声,而你还不知道错在哪。适合已经跨过 L1、想把音频链路彻底搞懂的人——它是三条路里最像"真做硬件"的一条。
三条路不是让你选一次定终身,而是可以走完一条再走下一条。 最舒服的进阶节奏是:先用整机方案让小智活过来、尝到甜头,等你想搞懂"它凭什么能听会说",再用自制方案把音频那段亲手接一遍。第一次就上自制、一堆线缠在一起又不出声,是新手最容易被劝退的坑。
核心器件:认清这几块,你就看懂了 BOM
不管走哪条路,小智这台机器的核心器件就那么几块。把每一块是干嘛的、为什么非它不可搞清楚,你再看任何一份 BOM 或任何一款支持板子,都能一眼看穿它的构成。
主控:ESP32-S3,别用低配芯片凑。 小智推荐用 ESP32-S3 当主控。原因很实在:唤醒词要在本地芯片上实时判断、音频要编码要流式收发,这些活儿吃算力也吃内存,S3 的双核和 AI 指令扩展扛得住。虽然小智也适配 C3、P4 等其它型号,但对第一次做的人,S3 是踩坑最少、社区样例最多的稳妥选择。选型的通盘权衡(S3 和别的型号怎么取舍、要不要屏、WiFi 还是 4G)在 L1 选板那节讲得更细,拿不准先去补一课。
PSRAM:这块是硬门槛,缺了直接卡死。 这是新手最容易忽略、也最致命的一条:你选的 S3 板子必须带 PSRAM。PSRAM 是片外扩展的运行内存——小智要缓存音频流、跑唤醒模型、维持网络长连接,芯片自带的那点内存根本不够用,没有 PSRAM 它会因为内存不足直接崩掉或反复重启。买板子时务必确认规格里写着带 PSRAM(常见是 8MB),别贪便宜买没 PSRAM 的版本,这是省不得的钱。
麦克风:INMP441,小智的"耳朵"。 自制方案里的收音器件,标配是 INMP441——一颗 I2S 接口的数字麦克风。为什么不用随手买的三脚模拟麦?因为模拟麦读出来全是噪声嗡嗡声,AI 根本听不清人话;INMP441 在芯片内部就把声音转成了干净的数字信号,沿三根线直接灌进主控。它的接线、引脚、为什么是它,INMP441 图鉴那页拆得很细,配它之前值得先读。整机和 M5 方案里,等价的数字麦已经替你焊好了。
功放加喇叭:MAX98357,小智的"嘴"。 光有喇叭不够——主控吐出的 I2S 数字音频信号很弱,直接接喇叭几乎没声。MAX98357 是一颗 I2S 数字功放:它一边收主控的数字音频,一边把信号放大到能推动小喇叭发声。所以自制方案里,喇叭前面得垫一块 MAX98357。整机和 M5 方案同样已经内置了功放。
屏:可选,不是必需。 小智能在屏上显示一张会变的表情,挺讨喜,但它不是让小智能听会说的必要件。没有屏,小智照样能唤醒、能对话——屏只负责"好看和有反馈"。所以第一次做,屏可以先不上,等对话链路跑通了再加也不迟,别让它拖累你上手。
这里的器件解读是帮你看懂选型逻辑,具体哪些板子、哪些麦克风被官方支持,一律以小智仓库的支持清单为准——上游会持续新增和调整适配,本页讲的是原理和思路,不是替代那份清单。买之前对着仓库最新的支持列表核一遍,最稳妥。
一张能照着下单的 BOM
把上面的器件落到三条路上,就是下面三份清单。价格我不写死具体数字——ESP32 类硬件的价格随渠道和批次浮动,写死了反而误导你,报价一律以你下单的商城标价为准,这里只给你"该买什么、大概什么档位"。
方案 A · 整机开箱(最省心)
- ESP32-S3-BOX / BOX-3 一块(主控、麦克风、喇叭、屏、外壳全含)。
- 就这一件。到手刷固件即可,无需另配。属于三条路里单价最高、但省下最多折腾时间的一档。
方案 B · M5 模块化(可扩展)
- M5Stack 主机一块(Core 系列或 AtomS3R 等,认准带 PSRAM 的 S3 型号)。
- 对应的语音配件(数字麦克风 + 功放喇叭模块)。
- 屏按需,很多主机自带。
- 单价中等,好处是往后想加传感器、换配件都方便。
方案 C · 面包板自制(最练手)
- ESP32-S3 开发板一块,务必带 PSRAM(认准 8MB PSRAM 字样)。
- INMP441 I2S 数字麦克风模块一个。
- MAX98357 I2S 功放模块一个,配一个小喇叭。
- 面包板、杜邦线若干。
- 屏可选(SSD1306 OLED 或 ST7789 LCD)。
- 单价最低,但要自己接线,翻车成本也最高。
BOM 里最贵的坑,往往不是漏买件,而是买错件。 两个高频翻车点:一是买了没 PSRAM 的 S3 板,刷进去反复重启还查不出原因;二是自制时省掉 MAX98357 直接把喇叭接主控,结果喇叭不响或声音极小。下单前对着清单逐条核,尤其把"带 PSRAM""带功放"这两条圈出来重点确认,能帮你省下最冤枉的返工。
给新手最要紧的一句:先买现成的,别急着自制
如果这一节你只记一句话,记这句:第一次做小智,别自制,去买现成的整机或 M5 方案。
道理很简单。自制方案里,你要同时面对两件难事——硬件接线(麦克风、功放、主控的 I2S 线一根不能错)和软件环境(ESP-IDF 工具链、编译烧录,第一次刷固件本身就够折腾)。两件难事叠在一起,一旦不出声,你根本分不清是线接错了还是固件没刷对,排查起来两眼一抹黑,很多人就是卡在这里放弃的。
买现成的,等于先把"硬件接线"这道难关替你消掉了。你只需专心过"刷固件、连网、对话"这一关,先让小智活过来。有了一台能跑的实物当参照,你再回头走自制这条路,心里就有底了——接对了该是什么样、接错了对照着查也快。这也正是我们整套系列一贯的姿势:先求跑起来,再求懂透。
小结 · 下一步
这一节把选硬件讲完了,收束成三点:
- 三条路:整机开箱(最省心)、M5 模块化(可扩展)、面包板自制(最练手)——按"你想省时间还是想练手"来挑,也可以走完一条再走下一条。
- 核心器件:主控认 ESP32-S3 且必须带 PSRAM;自制方案里 INMP441 当耳朵、MAX98357 加喇叭当嘴;屏是可选,不影响能听会说。
- 一句忠告:新手第一台先买现成的,别急着自制——把硬件难关和软件难关拆开过,成功率高得多。
板子和料都备齐了,下一步:去刷固件那节,装好 ESP-IDF 工具链,把小智固件编译烧进板子,让它第一次开机、连网、出现在你眼前。选型上还想再吃透,回看 L1 选板 和 L1 阶梯;想细究那颗麦克风,翻 INMP441 图鉴;需要回到全局,随时看上一节。