语音芯片基础知识

1.什么是语音芯片?

语音芯片定义:通过采样将语音信号转换为数字,存储在IC的ROM中,然后通过电路将ROM中的数字还原为语音信号。
根据语音芯片的输出方式分为两类。 一种是PW输出模式,另一种是DAC输出模式。 PD输出音量不可连续调节,无法连接普通功放。 目前市场上的语音芯片大多采用Pm输出方式。 。 另一种是DAC经过内部EQ放大。 语音芯片的声音连续可调,可数字化控制调节,可外接功放。
普通语音芯片的播放功能本质上是DAC过程,而ADC处理数据是由计算机完成的,包括对语音信号的采样、压缩、EQ等处理。
录音芯片包括ADC和DAC两个流程,均由芯片本身完成,包括语音数据采集、分析、压缩、存储、播放等步骤。

  • ADC=Analog Digital Change 模数转换
  • DAC= Digital Analog Change 数模转换

音质取决于 ADC 和 DAC 位数。 例如:20秒到340秒,最小值为10秒到340秒。 从名字直观上看,语音芯片就是与语音相关的芯片。 语音是存储的电子声音。 凡是能够发出声音的芯片都是语音芯片。 俗称声音芯片,更准确的英文应该是Voice IC。 在语音芯片这个大家族中,根据声音的类型可以分为两种:(语音IC)和(音乐IC)。 这应该算是语音芯片的专业区分。 方法。

2、语音芯片如何生产

  1. 掩模制作:通俗地说,掩模制作就是先把声音烧到芯片里,然后再封装。 一般都有数量要求。
  2. OTP制作:所谓OTP就是一次性刻录的意思。 先封装芯片,然后用软件烧录声音。

语音芯片根据IC本身的物理结构具有多通道(同时发送多通道声音),可分为多种类型:

2.1单通道:

  1. 单通道语音IC(Speech IC)(此类语音芯片不支持音乐IC音乐存储方式); 常见的语音IC是单通道语音芯片,GYO20-OTP20秒和GY010动物叫声是最典型的单通道语音IC。 通道语音芯片。

  2. 单通道音乐IC(Music IC),在同一单位时间内只能发出一种类型音乐的音乐IC。 电子声音文件是一种.Mid后缀的文件,只有一个通道。

    经常提到的单声道芯片是最基本的音乐IC。 单声道芯片的效果是由一定时间内输出的音符数量决定的。 多达64音符、128音符等,单声道芯片应用范围广泛。 价格极低。 最常见的是单声道芯片和生日快乐卡单声道芯片。 典型的有GY20S等。严格来说,单声道音乐IC和单声道芯片的结构是不同的。

2.2 双通道:

  1. 双通道语音IC、2通道和多通道语音芯片。 实际应用中,语音播放一般是固定在某个通道进行声音播放(相当于单通道)。 然而,此类产品比单个通道要小。 通道的语音IC(Speech ic)的成本会更高,价格也会更高。 设计时为了平衡产品价格和应用,语音芯片厂商一般在功能支持和音效方面做得比较完善。

    这种结构可以根据产品和解决方案的实际应用领域和价格来确定。 语音芯片输出一般为单路声音输出。 支持立体声的产品很少。 对于高端产品,必须选择MP3主控芯片。 计划的种类

     

  2. 2通道音乐芯片,俗称双音芯片(lusic with Dual Tone IC)。 顾名思义,能在同一单位时间内双声道发出音乐的音乐IC电子音源文件一般为双声道.Mid File,常见的圣诞系列音乐IC如:GYM3S16、GYM3S16-A等 。

    我想在这里补充几句话。 市场上还有一种名为meldy的音乐芯片。 它的定义是什么? 简单来说,它是一款比单声道芯片好,比和弦芯片差的音乐芯片。 因此,双音芯片也被称为旋律音乐芯片。 melodv结构应该说是更先进的单音芯片,或者说是效果加倍的单音芯片。

2.3. 4通道、8通道及以上:

Sounds with more than three channels are also called polyphonic music. The often said 4-chord music IC refers to a 4-channel music IC, such as GYO40.

Generally, multi-channel voice chips support both music IC (Music IC) and voice IC (Speech IC) functions.

(a) “语音芯片”简介:

(1)语音信号的量化

采样率(f)、位数(n)、波特率(T)

采样:将语音模拟信号转换为数字信号。

采样率:每秒采样的数量(字节)。

波特率:每秒采样的位数。 波特率直接决定音质。 Bps:每秒比特数。

采样位数是指二进制条件下的位数。 一般情况下,除非另有说明,声音采样位数均指8位,范围为00H~FFH,静音设置为80H。

(2) 采样率

奈奎斯特采样定理(Nyquist Law):要从采样信号中不失真地恢复原始信号,采样频率应大于信号最高频率的2倍。 当采样频率小于最高谐波频率的2倍时,信号频谱存在混叠。 当采样频率大于频谱最高频率的2倍时,信号的频谱没有混叠。

语音的频带宽度约为20~20K H2,普通语音约为3KHZ以下。 所以CD的音质一般都是44.1K、16bit,如果遇到一些特殊的声音。 比如乐器的音质也有48K、24bit的,但还不是主流。

一般我们处理普通语音IC时,采样率最高可达16K。 说话声音一般在SK(如电话音质)和6K左右。 6K以下效果较差。 GY系列语音芯片采样可达22K。

在单片机应用过程中,采样率越高,定时器中断速度越快,会影响其他信号的监视和检测,因此必须综合考虑。

(3)语音压缩技术

由于语音数据量巨大,因此需要对语音数据进行有效的压缩,这样可以让我们在有限的ROM空间内记录更多的语音内容。 有以下几种方法:

语音分割:将语音中重复的部分剪掉,通过排列组合完整播放内容。

语音采样:一般我们使用的音箱频响曲线都在中频部分,高频很少使用。 因此,当扬声器音质可以接受时,应适当降低采样频率以达到压缩效果。 这个过程是不可逆的。 无法恢复原来的样子,称为有损压缩。

数学压缩:主要压缩采样位数。 这种方法也是有损压缩。 比如我们常用的ADPCW压缩格式,将语音数据从16位压缩到4位,压缩率达到4倍。 MP3压缩数据流并涉及数据预测。 其波特率压缩比约为10倍。

通常,以上压缩方法结合使用。

(4)常用语音格式

PCM格式:脉冲编码调制,对声音模拟信号进行采样,得到量化的语音数据,是最基本、最原始的语音格式。 与它非常相似的是RAW格式和SND格式。 它们都是纯语音格式。

WAV 格式:Wave Audio Files 是 Microsoft 开发的一种声音文件格式,也称为波形声音文件,受到 Windows 平台及其应用程序的广泛支持。 WAV格式支持多种压缩算法并支持多种音频位、采样频率和通道。 但WAV格式需要太大的存储空间,不方便交流和传播。 WAV文件中存储的每条数据都有自己独立的标识符。 这些标识符可以告诉用户它是什么数据。 这些数据包括采样频率和位数、单声道或立体声等。

ADPCM格式:它使用成对的几个样本值来预测当前输入的样本值,并使其具有自适应预测功能,与实际检测值进行比较,并随时自动量化测量的差异。 处理,使其始终与信号同步变化。 适用于语音变化率适中、声音播放过程简短的场合。 其优点是对人声的处理比较真实,一般达到90%以上,在电话通讯领域得到了广泛的应用。

MP3格式:Moving Picture Experts Group Audio Laver III,简称MP3。 它采用了MPEG Audio Laver 3的技术,采用了一种被称为“感觉编码技术”的编码算法:编码时,首先对音频文件进行频谱分析,然后使用滤波器滤除噪声电平,然后将剩余的音频 被量子化。 下面的每一位进行分散排列,最终形成一个压缩比较高的m3文件,这样压缩

ssed文件在播放时可以达到更接近原始音源的声音效果。 其本质是vbr(variantBitrate可变波特率)可以根据编码内容动态选择合适的波特率,因此编码结果在保证音质的同时又照顾到文件大小。 MP3的压缩率是10倍甚至12倍。 它是第一个高压缩率语音格式Linear Scale格式:根据声音的变化率,将声音分为若干段,每段采用线性比例进行压缩,但其比例是可变的。

Logpcm格式:基本上对整个声音进行线性压缩并去除最后几位。 这种压缩方式在硬件上很容易实现,但音质比线性标度差,尤其是在音量较小、声音细腻的情况下。 主要用于纯语音。 中格式。 中格式语音占用的空间相对较小,有时仅需20秒即可将十多首中格式音乐加载到芯片中。

(b) “音乐芯片”简介:

(1) 音乐通道及音色:

包络方波(补丁)通道(通道1)

包络:合成音色的一部分,单位时间内音符输出的变化,俗称“ADSR”
方波:合成音色的一部分,单位时间内音符方波电流的变化。 (另见三角波等)
通道:芯片同时输出的音符数量,即“单音乐器”的数量。
PCT:一种模拟音色,通过对乐器声音的 256 个点进行采样来模拟每个音符的音高。 (声音柔和,占用空间小,但不够真实)
全波:通过收集乐器的声音来模拟每个音符的音高。 (乐器声音真实,但占用空间大,对音色采集质量要求高)

(2)音乐的压缩:

由于音乐数据量巨大,因此需要对音乐数据进行有效的压缩,这样可以让我们在有限的ROM空间内记录更多的音乐内容。 有以下几种方法:

音乐分割:将音乐中可重复的部分剪掉,通过排列组合完整地播放内容。
音调:全波、PCT、双音的选择根据音乐的丰满度和需求来确定。 每个音所占的空间不明确,音质也不同。 数学
压缩:主要是对采样的音色(全波)进行压缩。 这种方法也是有损压缩。 它对要采集的音色进行下采样处理,以减小采集到的音色的大小(与语音修改相同)。

语音ROM空间的表示

语音芯片是表达的可视化,用语音的长度来表示:

  • 普通语音芯片采用6K采样率来计算语音长度,最大采样率为22K。
  • 录音IC根据6K采样率计算语音长度。

即:芯片在6k采样率下可以播放的长度。

语音芯片的组成部分

同一品种芯片的成本与芯片尺寸成正比。

端口1/0的分配和ROM的大小(语音秒数)决定了芯片成本。 低秒语音芯片的 I/0 端口较少。
音质提升,采样改善,语音秒数缩短。

  • 音质下降,采样减少,语音秒变长。
  • 语音秒数计算方法:M/(n*f)
  • M—ROM大小(位)n*f—波特率

声音处理软件简介:

  • 声音伪造
  • 酷编辑
  • 金波
  • 卡勒沃克

语音芯片分类

语音芯片按照集成电路的类型来划分。 所有与声音有关的集成电路统称为语音芯片(也称为语音IC,这里应该称为语音IC)。 不过,在语音芯片的大类中,也分为语音芯片。 有两种:IC(这里应该叫Speech Ic)和音乐IC(这里应该叫Music Ic)。

(一)目前市场上常见语音芯片的分类:

  1. 短时筹码包括10秒、20秒、40秒、80秒、170秒。
  2. 常用的模块有:6分钟、8分钟、16分钟、1小时等。
  3. 常见芯片包括:3秒至340秒

(b) 目前市场上常见音乐芯片的分类:

  1. 单声道芯片:是最基本的音乐IC。 这是一个单一的音乐频道。 同时输出的音符数量决定了单声道芯片的效果。 有70多条、100多条笔记等等。
  2. 音乐频道:2频道、3频道、4频道、8频道、12频道等。 。 。
  3. 控制方式:按钮控制、一线串口控制、二线串口控制、三线串口控制、并口控制、单片机控制等。

(c) 目前语音芯片主要在广州和深圳研发和生产。

主要语音芯片大致分为20秒、40秒、80秒、170秒等,与传统芯片相比,这些IC大多采用8引脚封装,使得操作更加简单。

适用范围

  1. 家电行业:电磁炉、电饭锅、冰箱、洗衣机、空调、风扇等。

  2. 安防报警:倒车雷达、叉车报警、家居防盗、门禁系统等。

  3. 医疗设备:弱视治疗仪、血压计、臭氧治疗仪、血糖仪等。

  4. 广告媒体:语音广告牌、镜面广告机、迎宾机、广告机等。

  5. 玩具系列:语音识别、汽车、布娃娃等。

  6. 智能交通:一卡通设备、红绿灯提醒等。

  7. 交通:语音电动车、语音公交站等。

  8. 礼品卡:贺卡、生日蛋糕祝福

立即获取报价

想要采购语音芯片或者定制语音芯片?你可以通过微信,QQ,电话等方式联系我们