物联网语音识别芯片组包含哪些内容?

语音识别功能过去仅限于手机和一些高端计算机,但现在从汽车到咖啡机的所有东西都包含语音识别或语音激活功能。无论您正在开发需要检测音频样本中特定音调的工业产品,还是想要让空调超速运转,您都需要一个用于音频捕获和语音识别的完整芯片组。

过去,语音识别功能是在软件级别定义的,并与用于信号调节和处理的混合硬件一起定义。目前一流的经济实惠的语音识别芯片组产品将许多以前独立的功能集成到单个 IC 中。如果您正在为物联网产品寻找强大的语音识别芯片组组件,请继续浏览本文。

语音识别成功的秘诀是什么?

这个问题的答案不仅仅是选择具有合适带宽的麦克风和 ADC。构建语音识别芯片组的两个方面都很重要,但除了简单地记录语音数据之外,还需要一些处理步骤。将捕获的音频转换为数字信号后,必须执行一些 DSP 任务以提供有意义的用户体验。

如果您曾经使用录音室品质的麦克风听过自己在典型房间中录制的录音,您可能会注意到需要去除一些伪影才能进行准确的语音/语音识别。某一类音频 DSP IC(称为远场 IC)非常适合在准备语音识别时消除信号伪影。这些组件提供了一些重要的功能作为语音识别的一部分:

  1. 主动增益控制:本质上,它监听任何可以归类为人声的声音。一旦识别出人声,处理器就会增加捕获信号的增益。一些处理器可以更进一步,在捕获更多数据时主动修改增益。
  2. 波束成形:这需要一组麦克风,可以通过检测不同转换后的音频信号之间的相位来确定声源的方向。如果您熟悉相控阵天线,那么这只是它的音频模拟,即相控阵麦克风。
  3. 混响和回声抑制:回声抑制解决方案也可以使用麦克风阵列在硬件级别实施。语音识别芯片组接收到的强烈回声可能会导致语音识别不准确,并且当设备距离声源较大时,出现回声的机会就更大。算法还可以与单麦克风产品一起使用,以检测延迟并抑制时域或频域中的延迟信号。
  4. 参考噪声过滤:此功能在车辆中非常重要,因为车辆中可能存在某些特定的背景噪声源。背景噪音可能表现为道路/发动机噪音、收音机噪音或紧急车辆的警报声。一些控制器包括硬件级的参考噪声过滤,或者这可以与外部处理器(例如,MCU或FPGA)集成。

一旦捕获的语音信号经过预处理,就可以使用在硬件或软件级别实现的算法从语音模式中检测单词。在不深入计算方面的情况下,语音识别的目标是将一系列声学签名分类为大型单词词典中的许多单词之一。只要执行正确的信号处理步骤,简单的自然语言处理 (NLP) 模型(例如朴素贝叶斯分类器)就可以提供高度准确的分类。

物联网产品的理想芯片组

理论上,任何 DSP IC、或 MCU 和音频编解码器 IC 都可以用作语音识别芯片组的一部分。下面显示的产品只是面向语音识别应用的几个选项。

为了给这些预处理和分类步骤提供足够的延迟,任何执行片上分类的 DSP IC 应提供至少几个 MIPS 的计算速度。分类步骤也可能需要数十万次计算。标准 I/O(即 I2C 和 GPIO)对于与系统中的其他组件连接也很有用。您可能需要一个外部处理器来实现分类并限制您的 DSP 仅执行预处理步骤。以下组件展示了当前 DSP 的功能以及即将推出的 SoC 的预期功能。

格远电子GYDSPIC30F

格远电子的GYDSPIC30F系列信号处理器是在语音识别成为新硬件的主要内容之前发布的。该系列 DSP IC 旨在用于录音室级数字音乐制作,但格远电子发布了语音识别库,以扩展该系列组件的可用应用。设计人员可以将该组件引入一些高端语音识别应用,因为该系列提供高达 24 位的高频音频捕获 (30 MIPS)。

格远电子GYOMAP5910

格远电子的 GYOMAP5910 DSP是一款适应性强的 DSP,适用于多种应用,包括视频加速、语音识别、加密/解密以及图像/视频水印。该低功耗器件直接在片上集成了多种功能,包括主机接口、10 个 GPIO 和其他外设。尽管这是一款较旧的 DSP,但它仍然是预处理语音信号的强大选择,并且仍在生产中。

立即联系我们报价