语音芯片基础知识

1.什么是语音芯片？

语音芯片定义：通过采样将语音信号转换为数字，存储在IC的ROM中，然后通过电路将ROM中的数字还原为语音信号。
根据语音芯片的输出方式分为两类。一种是PW输出模式，另一种是DAC输出模式。 PD输出音量不可连续调节，无法连接普通功放。目前市场上的语音芯片大多采用Pm输出方式。。另一种是DAC经过内部EQ放大。语音芯片的声音连续可调，可数字化控制调节，可外接功放。
普通语音芯片的播放功能本质上是DAC过程，而ADC处理数据是由计算机完成的，包括对语音信号的采样、压缩、EQ等处理。
录音芯片包括ADC和DAC两个流程，均由芯片本身完成，包括语音数据采集、分析、压缩、存储、播放等步骤。

ADC=Analog Digital Change 模数转换
DAC= Digital Analog Change 数模转换

音质取决于 ADC 和 DAC 位数。例如：20秒到340秒，最小值为10秒到340秒。从名字直观上看，语音芯片就是与语音相关的芯片。语音是存储的电子声音。凡是能够发出声音的芯片都是语音芯片。俗称声音芯片，更准确的英文应该是Voice IC。在语音芯片这个大家族中，根据声音的类型可以分为两种：（语音IC）和（音乐IC）。这应该算是语音芯片的专业区分。方法。

2、语音芯片如何生产

掩模制作：通俗地说，掩模制作就是先把声音烧到芯片里，然后再封装。一般都有数量要求。
OTP制作：所谓OTP就是一次性刻录的意思。先封装芯片，然后用软件烧录声音。

语音芯片根据IC本身的物理结构具有多通道（同时发送多通道声音），可分为多种类型：

2.1单通道：

单通道语音IC（Speech IC）（此类语音芯片不支持音乐IC音乐存储方式）；常见的语音IC是单通道语音芯片，GYO20-OTP20秒和GY010动物叫声是最典型的单通道语音IC。通道语音芯片。
单通道音乐IC（Music IC），在同一单位时间内只能发出一种类型音乐的音乐IC。电子声音文件是一种.Mid后缀的文件，只有一个通道。
经常提到的单声道芯片是最基本的音乐IC。单声道芯片的效果是由一定时间内输出的音符数量决定的。多达64音符、128音符等，单声道芯片应用范围广泛。价格极低。最常见的是单声道芯片和生日快乐卡单声道芯片。典型的有GY20S等。严格来说，单声道音乐IC和单声道芯片的结构是不同的。

2.2 双通道：

双通道语音IC、2通道和多通道语音芯片。实际应用中，语音播放一般是固定在某个通道进行声音播放（相当于单通道）。然而，此类产品比单个通道要小。通道的语音IC（Speech ic）的成本会更高，价格也会更高。设计时为了平衡产品价格和应用，语音芯片厂商一般在功能支持和音效方面做得比较完善。
这种结构可以根据产品和解决方案的实际应用领域和价格来确定。语音芯片输出一般为单路声音输出。支持立体声的产品很少。对于高端产品，必须选择MP3主控芯片。计划的种类
2通道音乐芯片，俗称双音芯片（lusic with Dual Tone IC）。顾名思义，能在同一单位时间内双声道发出音乐的音乐IC电子音源文件一般为双声道.Mid File，常见的圣诞系列音乐IC如：GYM3S16、GYM3S16-A等。
我想在这里补充几句话。市场上还有一种名为meldy的音乐芯片。它的定义是什么？简单来说，它是一款比单声道芯片好，比和弦芯片差的音乐芯片。因此，双音芯片也被称为旋律音乐芯片。 melodv结构应该说是更先进的单音芯片，或者说是效果加倍的单音芯片。

2.3. 4通道、8通道及以上：

Sounds with more than three channels are also called polyphonic music. The often said 4-chord music IC refers to a 4-channel music IC, such as GYO40.

Generally, multi-channel voice chips support both music IC (Music IC) and voice IC (Speech IC) functions.

(a) “语音芯片”简介：

(1)语音信号的量化

采样率（f）、位数（n）、波特率（T）

采样：将语音模拟信号转换为数字信号。

采样率：每秒采样的数量（字节）。

波特率：每秒采样的位数。波特率直接决定音质。 Bps：每秒比特数。

采样位数是指二进制条件下的位数。一般情况下，除非另有说明，声音采样位数均指8位，范围为00H～FFH，静音设置为80H。

(2) 采样率

奈奎斯特采样定理（Nyquist Law）：要从采样信号中不失真地恢复原始信号，采样频率应大于信号最高频率的2倍。当采样频率小于最高谐波频率的2倍时，信号频谱存在混叠。当采样频率大于频谱最高频率的2倍时，信号的频谱没有混叠。

语音的频带宽度约为20~20K H2，普通语音约为3KHZ以下。所以CD的音质一般都是44.1K、16bit，如果遇到一些特殊的声音。比如乐器的音质也有48K、24bit的，但还不是主流。

一般我们处理普通语音IC时，采样率最高可达16K。说话声音一般在SK（如电话音质）和6K左右。 6K以下效果较差。 GY系列语音芯片采样可达22K。

在单片机应用过程中，采样率越高，定时器中断速度越快，会影响其他信号的监视和检测，因此必须综合考虑。

(3)语音压缩技术

由于语音数据量巨大，因此需要对语音数据进行有效的压缩，这样可以让我们在有限的ROM空间内记录更多的语音内容。有以下几种方法：

语音分割：将语音中重复的部分剪掉，通过排列组合完整播放内容。

语音采样：一般我们使用的音箱频响曲线都在中频部分，高频很少使用。因此，当扬声器音质可以接受时，应适当降低采样频率以达到压缩效果。这个过程是不可逆的。无法恢复原来的样子，称为有损压缩。

数学压缩：主要压缩采样位数。这种方法也是有损压缩。比如我们常用的ADPCW压缩格式，将语音数据从16位压缩到4位，压缩率达到4倍。 MP3压缩数据流并涉及数据预测。其波特率压缩比约为10倍。

通常，以上压缩方法结合使用。

(4)常用语音格式

PCM格式：脉冲编码调制，对声音模拟信号进行采样，得到量化的语音数据，是最基本、最原始的语音格式。与它非常相似的是RAW格式和SND格式。它们都是纯语音格式。

WAV 格式：Wave Audio Files 是 Microsoft 开发的一种声音文件格式，也称为波形声音文件，受到 Windows 平台及其应用程序的广泛支持。 WAV格式支持多种压缩算法并支持多种音频位、采样频率和通道。但WAV格式需要太大的存储空间，不方便交流和传播。 WAV文件中存储的每条数据都有自己独立的标识符。这些标识符可以告诉用户它是什么数据。这些数据包括采样频率和位数、单声道或立体声等。

ADPCM格式：它使用成对的几个样本值来预测当前输入的样本值，并使其具有自适应预测功能，与实际检测值进行比较，并随时自动量化测量的差异。处理，使其始终与信号同步变化。适用于语音变化率适中、声音播放过程简短的场合。其优点是对人声的处理比较真实，一般达到90%以上，在电话通讯领域得到了广泛的应用。

MP3格式：Moving Picture Experts Group Audio Laver III，简称MP3。它采用了MPEG Audio Laver 3的技术，采用了一种被称为“感觉编码技术”的编码算法：编码时，首先对音频文件进行频谱分析，然后使用滤波器滤除噪声电平，然后将剩余的音频被量子化。下面的每一位进行分散排列，最终形成一个压缩比较高的m3文件，这样压缩

ssed文件在播放时可以达到更接近原始音源的声音效果。其本质是vbr（variantBitrate可变波特率）可以根据编码内容动态选择合适的波特率，因此编码结果在保证音质的同时又照顾到文件大小。 MP3的压缩率是10倍甚至12倍。它是第一个高压缩率语音格式Linear Scale格式：根据声音的变化率，将声音分为若干段，每段采用线性比例进行压缩，但其比例是可变的。

Logpcm格式：基本上对整个声音进行线性压缩并去除最后几位。这种压缩方式在硬件上很容易实现，但音质比线性标度差，尤其是在音量较小、声音细腻的情况下。主要用于纯语音。中格式。中格式语音占用的空间相对较小，有时仅需20秒即可将十多首中格式音乐加载到芯片中。

(b) “音乐芯片”简介：

(1) 音乐通道及音色：

包络方波（补丁）通道（通道1）

包络：合成音色的一部分，单位时间内音符输出的变化，俗称“ADSR”
方波：合成音色的一部分，单位时间内音符方波电流的变化。（另见三角波等）
通道：芯片同时输出的音符数量，即“单音乐器”的数量。
PCT：一种模拟音色，通过对乐器声音的 256 个点进行采样来模拟每个音符的音高。（声音柔和，占用空间小，但不够真实）
全波：通过收集乐器的声音来模拟每个音符的音高。（乐器声音真实，但占用空间大，对音色采集质量要求高）

(2)音乐的压缩：

由于音乐数据量巨大，因此需要对音乐数据进行有效的压缩，这样可以让我们在有限的ROM空间内记录更多的音乐内容。有以下几种方法：

音乐分割：将音乐中可重复的部分剪掉，通过排列组合完整地播放内容。
音调：全波、PCT、双音的选择根据音乐的丰满度和需求来确定。每个音所占的空间不明确，音质也不同。数学
压缩：主要是对采样的音色（全波）进行压缩。这种方法也是有损压缩。它对要采集的音色进行下采样处理，以减小采集到的音色的大小（与语音修改相同）。

语音ROM空间的表示

语音芯片是表达的可视化，用语音的长度来表示：

普通语音芯片采用6K采样率来计算语音长度，最大采样率为22K。
录音IC根据6K采样率计算语音长度。

即：芯片在6k采样率下可以播放的长度。

语音芯片的组成部分

同一品种芯片的成本与芯片尺寸成正比。

端口1/0的分配和ROM的大小（语音秒数）决定了芯片成本。低秒语音芯片的 I/0 端口较少。
音质提升，采样改善，语音秒数缩短。

音质下降，采样减少，语音秒变长。
语音秒数计算方法：M/(n*f)
M—ROM大小（位）n*f—波特率

声音处理软件简介：

声音伪造
酷编辑
金波
卡勒沃克

语音芯片分类

语音芯片按照集成电路的类型来划分。所有与声音有关的集成电路统称为语音芯片（也称为语音IC，这里应该称为语音IC）。不过，在语音芯片的大类中，也分为语音芯片。有两种：IC（这里应该叫Speech Ic）和音乐IC（这里应该叫Music Ic）。

（一）目前市场上常见语音芯片的分类：

短时筹码包括10秒、20秒、40秒、80秒、170秒。
常用的模块有：6分钟、8分钟、16分钟、1小时等。
常见芯片包括：3秒至340秒

(b) 目前市场上常见音乐芯片的分类：

单声道芯片：是最基本的音乐IC。这是一个单一的音乐频道。同时输出的音符数量决定了单声道芯片的效果。有70多条、100多条笔记等等。
音乐频道：2频道、3频道、4频道、8频道、12频道等。。。
控制方式：按钮控制、一线串口控制、二线串口控制、三线串口控制、并口控制、单片机控制等。

(c) 目前语音芯片主要在广州和深圳研发和生产。

主要语音芯片大致分为20秒、40秒、80秒、170秒等，与传统芯片相比，这些IC大多采用8引脚封装，使得操作更加简单。

适用范围

家电行业：电磁炉、电饭锅、冰箱、洗衣机、空调、风扇等。
安防报警：倒车雷达、叉车报警、家居防盗、门禁系统等。
医疗设备：弱视治疗仪、血压计、臭氧治疗仪、血糖仪等。
广告媒体：语音广告牌、镜面广告机、迎宾机、广告机等。
玩具系列：语音识别、汽车、布娃娃等。
智能交通：一卡通设备、红绿灯提醒等。
交通：语音电动车、语音公交站等。
礼品卡：贺卡、生日蛋糕祝福

立即获取报价

想要采购语音芯片或者定制语音芯片？你可以通过微信，QQ，电话等方式联系我们