音频压缩技术标准

　　音频压缩技术定义

　　音频信号能进行压缩的依据是音频压缩技术。

　　音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。

　　在音频压缩领域，有两种压缩方式，分别是有损压缩和无损压缩。常见到的MP3、WMA、OGG被称为有损压缩，有损压缩顾名思义就是降低音频采样频率与比特率，输出的音频文件会比原文件小。另一种音频压缩被称为无损压缩，也就是所要说的主题内容。无损压缩能够在100%保存原文件的所有数据的前提下，将音频文件的体积压缩的更小，而将压缩后的音频文件还原后，能够实现与源文件相同的大小、相同的码率。无损压缩格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、La、OptimFROG、Shorten，而常见的、主流的无损压缩格式只有APE、FLAC。

　　音频压缩技术标准

　　音频信号是多媒体信息的重要组成部分。音频信号可分为电话质量的语言、调幅广播质量的音频信号和高保真立体声信号（如调频广播信号、激光唱片音盘信号等）数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩和调频广播及cd音质的宽带音频压缩3种。

　　在语音编码技术领域，各个厂家都在大力开发与推广自己的编码技术，使得在语音编码领域编码技术产品种类繁多，兼容性差，各厂家的技术也难于尽快得到推广。所以，需要综合现有的编码技术，制定出全球统一的语言编码标准。自20世纪70年代起，ccett下第十五究组和国际标准化组织（iso）已先后推出了一系列的语音编码技术标准。其中，ccitt推出了g系列标准，而iso则推出了h系列标准。

　　1、电话（200hz-3.4khz）语音压缩标准主要有itu的g.722（64kb/s）、g721（32kb/s）、g.728（16kb/s）和g.729（8kb/s）等建议，用于数字电话通信。

　　2、调幅广播（50hz-7khz）语音压缩标准主要采用itu的g.722（64kb/s）建议，用于优质语音、音乐、音频会议和视频会议等。

　　3、调频广播（20hz-15khz）及cd音质（20hz-20khz）的宽带音频压缩标准主要采用mpeg-1或mpeg-2双杜比ac-3等建议，用于cd、md、mpc、vcd、dvd、hdtv和电影配音等。

　　下面主要介绍一下g.722（64kb/s）和mpeg-4

　　G722音频压缩编码标准

　　G.722是支持比特率为64， 56和48kbps多频率语音编码算法。在G.722中，语音信号的取样率为每秒16000个样本。与3.6kHz的频率语音编码相比较，G.722可以处理频率达7kHz音频信号宽带。G.722 编码器是基于子带自适应差分脉冲编码（SB-ADPCM）原理的。信号被分为两个子带，并且采用 ADPCM 技术对两个子带的样本进行编码。

　　G.722是G系列的语音编码中一种宽带的编码方式。相对于G.711 采样频率由8KHZ扩展为16KHZ语音质量得以提高将信号划分为2个子带（高频，低频）每个子带中的信号都采用ADPCM（adaptive differential pulse code modulation）进行编码ADPCM原理即只采样声音样本中增量变化的那一段在最后比特率的计算中，低频部分被分配到比较多的资源8Kbps X 6bit，高频部分被分配到比较少的资源（多为摩擦声，噪音等辅助音）8Kbps X 2bit，两者相加既为64Kbps，故G.722相对于G.711比特率都为64kbps，但提高了语音质量，在cisco CM7.0以上版本中已支持G.722编码算法，cisco 79以上系列交换机已将G.722编码作为默认首选编码。

　　MPEG-4音频压缩编码标准

　　具有高度的灵活性和可扩展性。主要服务于低比特率下的多媒体通信。引入了音频对象（A○）

　　码率范围：2~64kb/s，提供三种类型编码器①低比特率：参数化编码器

　　参数编码器：使用参数编码技术。

　　两种编码工具：谐波矢量激励编码、谐波和特征线加噪声编码。

　　②中间比特率：码激励线性预测编码器

　　码激励线性预测编码器：主要由激励源和合成滤波器组成

　　③高比特率：时/频编码器

　　时/频编码器：时域模块提取音频信号的增益信息

　　滤波器组通过DCT变换信号从时域变换到频域

　　心理声学模型对不同频段的频域信号采取相应的处理策略

　　频域处理模块根据心理声学模块的参数处理各个频段的信号。

　　量化和编码部分对频域信号进行编码。