离线语音识别芯片对比

1.语音识别技术原理

语音识别技术(ASR自动语音识别),使智能设备能够理解人类的声音。语音识别的工作流程可以分为三个步骤。分别是前端语音处理、模型训练和后端识别处理。

前端处理

前端处理转换成机器可以读取的数字信号,并对信号进行优化。与前端处理相关的硬件:麦克风、PDM\I2S、音频处理能力(NPU或DSP)下面是前端处理流程的简化。该模型可以理解为一本字典。机器收到语音消息后,将其与模型进行比较,以找到相似的声音和单词。那么,模板是怎么来的呢?这需要提前收集大量的语音和语言信息(通常称为语料库收集),通过特定的算法跳出最典型的语音特征。这称为“模板训练”。编辑字典。语音识别系统的模型训练通常分为两套:

语言模型训练

语言模型是用于计算句子出现概率的概率模型。它是语音识别方面的字典。它需要整合三个层次的知识。它们是字典、语法、句法,让机器更好地理解人类的自然语言。

声学模型训练

声学模型是识别系统的底层模型,也是语音识别系统最关键的部分。该算法主要是通过大量的语音采集来优化这部分声学模型,并根据特定的算法规则得到特征值,以供后期识别和比较。互联网巨头拥有庞大的用户基础和语音采集渠道,比传统企业具有优势。

2.后端识别处理(语音解码)

是指利用训练好的“声学模型”和“语言模型”对提取的特征向量进行识别,并输出识别结果。这一步与建模密切相关。有时,建模被归入后端识别过程,与前端处理相对应。识别精度和响应速度通常取决于主控的运算速度,以及前端处理和模型的综合性能。以下是详细的语音识别技术的原理和分支:

3.语音识别技术的发展历史

鉴于语音识别芯片与算法高度相关。那么,下面简单讨论一下语音识别技术的发展历史。语音识别技术的核心和发展,主要集中在声学模型建模(训练)领域,可分为三个阶段。语音标签(1970 年代)主要关注小词汇量、孤立词和特定于人的语音识别方法。该方法是简单的模板匹配。分别提取测试语音和参考语音的特征值后,直接比较整个片段的匹配程度。主流算法有动态时间规整(DTW)、支持向量机(SVM)和矢量量化(VQ)。下一个是技术限制。同一个人的感冒是无法识别的。匹配方法比较原始,当命令词较多时,识别效率很慢。第二阶段是概率与统计(1993年~2009年)。有的厂商称之为与人无关的语音识别,准确的说就是概率统计,主流技术是GMM+HMM。HMM模型在将语音转换为文本的过程中,增加了两个转换单元:音素和状态GMM是状态的特征,通过概率模型来表达,以提高语音帧到状态的准确性。基于GMM-HMM框架,提出了许多改进方法,如动态贝叶斯方法、判别训练方法、自适应训练方法、HMM/NN混合模型方法等。在大词汇量语音识别的情况下,识别精度和效率较差。第三阶段是判别器分类方法。这通常被称为深度神经网络识别,它是目前最主流的语音识别技术类型,包括:

循环神经网络与上下文建模相结合。计算复杂度高于DNN。下一个是卷积神经网络CNN。图像识别的主流模型,优化了语音的多样性,减少了硬件资源的浪费。不再需要HMM来描述音素内部状态的变化。但语音识别的所有模块都被统一到一个神经网络模型中。国内大厂商的技术选择:科大讯飞-深度全序列卷积神经网络DFCNN)、阿里LFR-DFSMN。

4、语音识别芯片对比

根据语音识别市场应用的发展方向,我们可以将语音识别芯片分为两类。在线语音识别是大词汇量的连续语音识别系统。典型应用有在线翻译、智能客服、大数据分析、服务机器人等。离线语音识别是一种词汇量小、功耗低、成本低的语音识别系统。典型应用有智能家电、语音遥控、智能玩具、汽车语音控制、智能家居等。离线和在线的区别在于语音识别是在本地设备上还是在云服务器上完成。在线语音芯片只做前端语音处理,后端识别处理放在云端服务器上,所以叫在线。严格来说,在线语音识别芯片的定义并不正确,它更像是“万精油”芯片。该芯片配备了强大的CPU、海量存储、完整的音视频和通信接口,甚至还内置了PMU、WiFi、PHY等功能。它可用于语音识别和其他多媒体处理。是各类精油的主控芯片。所以这个品类的厂商通常都是最先做平板电脑和手机CPU的。此类芯片包括士兰微与阿里合作的SC5864、全志与科大讯飞合作的R16和XR872、瑞芯微RK2108、MTK MT8516、炬芯ATS3605D等,典型应用是智能音箱。根据前两章的内容,结合公司背景等因素,我对语音识别芯片进行了如下分类:

识别距离——识别率是芯片的两个重要的主导指标,直接关系到消费者的使用体验,但由于每个厂商测试的前提条件不同,且与芯片的市场定位有关,所以并不是一个绝对的指标。处理器可分为MCU和Audio Core。前者偏重于芯片与周界配合的控制器,而后者则比前者更重要的是处理音频信号和运行识别算法。后者是直接决定芯片语音识别的响应速度和准确性的重要因素。下一个是存储。硬件存储决定了处理器可以调用的资源的大小,以及识别的条目的数量。语音算法有前端信号处理算法(降噪、波束成形、响应消除、VAD静音抑制、麦克风矩阵、远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这是一个软参数。音频通道-外设接口是芯片与周边设备之间的通信桥梁。对于语音识别来说,音频的输入和输出比较重要,单独列出。音频输入分为模拟输入(ADC)和数字输入(PDM),音频输出通常为DAC。功耗不能直接比较,而是能耗比,即相同性能下的功耗比较。还有其他因素,如工作温度、封装等。以上参数,除了一般的硬件参数外,其他定义也略有不同,不能单独比较。算法模型主流是GMM+HMM,或者说模型匹配(语音标签)。而且,由于芯片配置简单,不具备降噪等功能,识别距离为25m,识别率通常在90%左右。条目数为 510。

立即联系我们