音频压缩技术定义
音频信号能进行压缩的依据是音频压缩技术。
音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
在音频压缩领域,有两种压缩方式,分别是有损压缩和无损压缩。常见到的MP3、WMA、OGG被称为有损压缩,有损压缩顾名思义就是降低音频采样频率与比特率,输出的音频文件会比原文件小。另一种音频压缩被称为无损压缩,也就是所要说的主题内容。无损压缩能够在100%保存原文件的所有数据的前提下,将音频文件的体积压缩的更小,而将压缩后的音频文件还原后,能够实现与源文件相同的大小、相同的码率。无损压缩格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、La、OptimFROG、Shorten,而常见的、主流的无损压缩格式只有APE、FLAC。
音频压缩技术编码分类
编码:信号系统如何把一定的信息内容包含在少量特定信号的排列组合之中
1、采用一定的格式来记录数字数据
2、采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率
音频信号编码按照压缩原理不同,分为波形编码、参数编码以及多种技术相互融合的编码形式
波形编码
直接对音频信号的时域或频域波形按一定速率采样,然后将幅度样本分层量化,变换为数字代码,由波形数据产生一种重构信号
编码系统源于信号原始样值,波形与原始声音波形尽可能地致,保留了信号的细节变化和各种过渡特征
波形编码类型
脉冲编码调制(pcm )→差分脉冲编码调制(dpcm )→自适应差分脉冲编码调制 (adpcm)
脉冲编码调制(PCM)
最简单的波形编码,仅仅是对输入信号进行采样和量化
声音带宽受采样频率限制,采样频率与信号带宽的通过防失真滤波器进行匹配
运用非均匀量化,对幅度大的输入信号采用大的量化间隔,幅度小的输入信号采用小的量化间隔,在满足量化精度要求的情况下用较少的位数来表示信号
差分编码调制(DPCM)
源于PCM,根据声音信号相邻采样值之间呈现明显的相关性,利用前一个样样本估算下一个样本信号的幅度大小,形成预测值
对预测的样本值与原始的样本值之差进行量化
如果样本的预测值与样本的实际值比较接近,它们之间的差值幅度的变化就比原始声音样本幅度值的变化小,因此量化这种差值信号时就可以用比较少的位数来表示差值
自适应差分编码调制( ADPCM)
综合了根据输入信号幅度大小来改变量化阶大小的自适应特性和差分特性,核心思想是:
使用小的量化等级去量化小的差值,使用大的量化等级去量化大的差值
使用过去的采样样本值估算下一个采样样本的预测值,使实际样本值和预测值之间的差值总是最小
子带编码(SBC)
属于依据感知特性的频域编码
将音频信号进行时间足够短的分段,通过分段块由时间域转变为频率域,利用带通滤波器(BPF)组把原始信号的频带分割为若干子频带
对听觉感知比较重要的子频带,编码器分配比较多的位数来表示它们,对于其他的子带编码器就可以分配比较少的位数来表示
由于各子带频率范围不同,通过对每个子频带中的音频信号运用不同采样频率和不同量化间隔的自适应控制
在信道上传送时设置m路数字编码器,将各路子带的代码复合起来通过多路复用器输出子带编码数据
将各路子带输出信号送到m路并联数字解码后同步相加,相加恢复为原始信号
自适应变换编码(ATC)
变换编码是先对信号进行某种函数变换,从一种信号(空间)变换到另一种(空间),然后再对信号进行编码
音频信号大部分都是低频信号,在频域中信号的能量较集中,将时域信号变换到频域再进行采样、编码,那么可以肯定能够减少数据
变换编码最典型是应用离散余弦变换(DCT)或改进的离散余弦变换(DCT)
变换编码过程是将音频信号进行时间足够短的采样,通过采样块由时间域变换为频率域,采样块的作用相当于将连续的音频呈现在一个“窗口”进行处理
在变换系统中,用于量化一组变换样值的比特总数是固定的,所以选择变换的采样块(窗口)长度,就可以调整时域分辨率和编码压缩比,采用短的采样块能够提高时域分辨率,长的采样块能够获得较高的压缩比
自适应的概念主要表现在配合声学心理模型,根据音频信号的特性进行采样块(窗口)长度切换,缓解时域分辨率与编码压缩比的冲突
变换编码与子带变换都是针对一定的采样块进行工作,子带编码具有出色的时间分辨率,但频率分辨率差;而变换编码有出色的频率分辨率,但时间分辨率差
参数编码
首先根据不同的信号源,如语言信号、自然声音等形式建立特征模型,通过提取特征参数和编码处理,力图使重建的声音信号尽可能高的保持原声音的语意,但重建信号的波形同原声音信号的波形可能会有相当大的差别
常用的特征参数有共振峰、线性预测系数、频带划分滤波器等参数编码技术可实现低速率的声音信号编码,比特率可压缩到2Kbi/s-48Kbi!s,但声音的质量只能达到中等,特别是自然度较低,仅适合语言语言的传递与表达
混合编码
将波形编码和参量编码组合起来的编码形式
克服了原有波形编码和参量编码的弱点,力图保持波形编码的高质量和参量编码的低速率,在4-16 Kbit / s速率上能够得到高质量的合成声音信号
混合编码的基础是线性预测编码(LPC),常用脉冲激励线性预测编码( MPLPO)、规划脉冲激励线性预测编码( KPELPO)码本激励线性预测编码( CELPO)等编码方式