音频压缩技术定义
音频信号能进行压缩的依据是音频压缩技术。
音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
在音频压缩领域,有两种压缩方式,分别是有损压缩和无损压缩。常见到的MP3、WMA、OGG被称为有损压缩,有损压缩顾名思义就是降低音频采样频率与比特率,输出的音频文件会比原文件小。另一种音频压缩被称为无损压缩,也就是所要说的主题内容。无损压缩能够在100%保存原文件的所有数据的前提下,将音频文件的体积压缩的更小,而将压缩后的音频文件还原后,能够实现与源文件相同的大小、相同的码率。无损压缩格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、La、OptimFROG、Shorten,而常见的、主流的无损压缩格式只有APE、FLAC。
音频压缩技术原理
1、数字音频相关特点
数字音频的质量取决于:采样频率和量化位数这两个参数,为了保真在时间变化方向上取样点尽量密,取样频率要高;在幅度取值上尽量细,量化比特率要高,直接的结果就是存储容量及传输信道容量要求的压力
音频信号的传输率=取样频率*样本的量化比特数*通道数取样频率=441KHz
样本值的量化比特数=16
普通立体声的信号通道数=2
数字信号传输码流大约14Mbit/s
一秒钟的数据量为14Mbit/(8/Byte)
达1764 k byte(字节),等于88200个汉字的数据量
数字音频的出现,是为了满足复制、存储、传输的需求,音频信号的数据量对于进行传输或存储形成巨大的压力
音频信号的压缩是在保证一定声音质量的条件下,尽可能以最小的数据率来表达和传送声音信息
信号压缩过程是对采样、量化后的原始数字音频信号流运用适当的数字信号处理技术进行信号数据的处理,将音频信号中去除对人们感受信息影响可以忽略的成分,仅仅对有用的那部分音频信号进行编排,从而降低了参与编码的数据量
数字音频信号中包含的对人们感受信息影响可以忽略的成分称为冗余,包括时域冗余、频域冗余和听觉冗余
2、时域冗余
时域与频域的差异
时域冗余的表现形式
1)幅度分布的非均匀性
信号的量化比特分布是针对信号的整个动态范围而设定的,对于小幅度信号而言,大量的比特数据位被闲置
2)样值间的相关性
声音信号是一个连续表达过程,通过采样之后,相邻的信号具有极强的相似性,信号差值与信号本身相比,数据量要小的多
3)信号周期的相关性
声音信息在整个可闻域的范围内,每个瞬间只有部分频率成分在起作用,即特征频率,这些特征频率会以一定的周期反复出现,周期之间具有相关关系
4)长时自我相关性
声音信息序列的样值、周期相关性,在一个相对较长的时间间隔也会是相对稳定的,这种稳定关系具有很高的相关系数
5)静音
声音信息中的停顿间歇,无论是采样还是量化都会形成冗余,找出停顿间歇并将其样值数据去除,可以减少数据量
3、频域冗余
频域冗余的表现形式
1)长时功率谱密度的非均匀性
任何一种声音信息,在相当长的时间间隔内,功率分布在低频部分大于高频部分,功率谱具有明显的非平坦性,对于给定的频段而言,存在相应的冗余
2)语言特有的短时功率谱密度
语音信号在某些频率上会出现峰值,而在另一些频率上出现谷值,这些共振峰频率具有较大的能量,由它们决定了不同的语音特征,整个语言的功率谱以基音频率为基础,形成了向高次谐波递减的结构
4、听觉冗余
根据分析人耳对信号频率、时间等方面具有有限分辨能力而设计的心理声学模型,将通过听觉领悟信息的复杂过程,包括接受信息,识别判断和理解信号内容等几个层次的心理活动,形成相应的连觉和意境
由此构成声音信息集合中的所以数据,并非对人耳辨别声音的强度、音调、方位都产生作用,形成听觉冗余
由听觉冗余引出了降低数据率,实现更高效率的数字音频传输的可能