声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。我们知道,在可听见的声音中,话音信号的频段在80Hz到3400Hz之间,音乐信号的频段在20Hz-20kHz之间,语音(话音)和音乐是多媒体技术重点处理的对象。通常人耳可以听到的频率在20Hz到20KHz的声波称为为可听声,低于20Hz的成为次声,高于20KHz的为超声,多媒体技术中只研究可听声部分。
一:数字化音频的三个主要步骤
由于模拟声音在时间上是连续的,麦克风采集的声音信号还需要经过数字化处理后才能由计算机处理。通常我们采用PCM编码(脉冲代码调制编码),即通过采样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。
1、采样
采样,就是每隔一段时间间隔读一次声音的幅度。单位时间内采样的次数称为采样频率。显然采样频率越高,所得到的离散幅值的数据点就越逼近于连续的模拟音频信号曲线,同时采样的数据量也越大。
为了保证数字化的音频能够准确(可逆)地还原成模拟音频进行输出,采样定理要求:采样频率必须大于等于模拟信号频谱中的最高频率的2倍。
常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。
例如:话音信号频率在0.3~3.4kHz范围内,用8kHz的抽样频率(fs),就可获得能取代原来连续话音信号的抽样信号,而一般CD采集采样频率为44.1kHz。
2、量化
量化,就是把采样得到的声音信号幅度转换成数字值,用于表示信号强度。
量化精度:用多少个二进位来表示每一个采样值,也称为量化位数。声音信号的量化位数一般是 4,6,8,12或16 bits 。
由采样频率和量化精度可以知道,相对自然界的信号,音频编码最多只能做到无限接近,在计算机应用中,能够达到最高保真水平的就是PCM编码,通常PCM约定俗成了无损编码。
3、编码
一个采样率为44.1kHz,量化精度为16bit,双声道的PCM编码输出,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,存储一秒钟需要176.4KB的空间,1分钟则约为10.34M,因此,为了降低传输或存储的费用,就必须对数字音频信号进行编码压缩。
到目前为止,音频信号经压缩后的数码率降低到32至256kbit/s,语音可以低至8kbit/s以下。
对数字音频信息的编码进行压缩的目的是在不影响人们使用的情况下使数字音频信息的数据量最少。通常用如下6个属性来衡量:
—比特率;
—信号的带宽;
—主观/客观的语音质量;
—延迟;
—计算复杂度和对存储器的要求;
—对于通道误码的灵敏度;
为使编码后的音频信息可以被广泛地使用,在进行音频信息编码时需要采用标准的算法。传统会议电视设备主要采用ITU-T推荐的G.711、G.722、G.728和AAC_LD等音频标准。
在音频设备的介绍里面会经常看到产品资料里有各式各样所支持的音频格式和协议,下面我们来详细讲解下蓝牙耳机、会议电视的常用音频协议。
编辑推荐:音频、视频领域相关国际标准有哪些
蓝牙耳机常用音频协议有哪些
HFP:HFP(Hands-free Profile),让蓝牙设备可以控制电话,如接听、挂断、拒接、语音拨号等,拒接、语音拨号要视蓝牙耳机及电话是否支持。汽车内的汽车套件是常见的使用情景。汽车套件将连接至手机并用于拨打和接听电话。将无线耳机连接至手机后使用耳机拨打和接听电话则更为常见。
HSP:耳机模式(HSP)用于支持蓝牙耳机与移动电话之间使用免提模式(HFP)常用来让车用免提沟通与车内移动电话
A2DP:A2DP全名是Advanced Audio Distribution Profile 蓝牙音频传输模型协定! A2DP是能够采用耳机内的芯片来堆栈数据,达到声音的高清晰度。然而并非支持A2DP的耳机就是兰阿姨耳机立体声,立体声实现的基本要求是双声道,所以单声道的蓝牙耳机是不能实现立体声的。声音能达到44.1kHz,一般的耳机只能达到8kHz。如果手机支持蓝牙,只要装载A2DP协议,就能使用A2DP耳机了。还有消费者看到技术参数提到蓝牙V1.0 V1.1 V1.2 V2.0——这些是指蓝牙的技术版本,是指通过蓝牙传输的速度,他们是否支持A2DP具体要看蓝牙产品制造商是否使用这个技术。
AVRCP:AVRCP 设计用于提供控制TV、Hi-Fi设备等的标准接口。此配置文件用于许可单个远程控制设备(或其它设备)控制所有用户可以接入的A/V设备。它可以与 A2DP 或 VDP 配合使用。AVRCP 定义了如何控制流媒体的特征。包括暂停、停止、启动重放、音量控制及其它类型的远程控制操作。AVRCP 定义了两个角色,即控制器和目标设备。
APTX:AptX是一种压缩技术,好比是ALAC,本身是支持无损的,但是被用在蓝牙技术中的时候,由于种种原因,还是有损,只不过属于比较高码率的有损。
OPP
蓝牙通信程序部分需采用用于设备之间传输数据对象OPP Profile: Object Push Profile由于OPP profile又细分为OPPC (client)端和OPPS(server)端profile,这两个profile区别在于只有client端可以发起数据传输的过程,但是附件设备与手机通信的情景中,既有手机发起数据传输请求也有设备侧发起传输请求的需要,所以要在设备中实现OPPC和OPPS两个profile。
PBAP
电话号码簿访问协议(Phonebook Access Profile)
会议电视常用音频协议有哪些
1、 ITU-T G.728
1992年ITU-T发布的电话声音信号编码方式推荐标准。采用LD-CELP编码方式,采样率为8KHz,以16kb/秒的速度传送声音信号,传送延迟时间极短,仅有0.625 ms 的算法编码延迟。
2、 ITU-T G.711
标准公布于1972年,其语音信号编码是非均匀量化PCM。语音的采样率为8KHz,每个样值采用8bit量化,输出的数据率为64kbps。这种窄带编码支持对300到 3,400赫兹的音频进行压缩。但虽然压缩质量不错,但是消耗的带宽相对较大,主要用于数字PBX/ISDN上的数字式电话。
3、 ITU-T G.722
ITU-T G.722标准是第一个用于 16 KHZ 采样率的标准化宽带语音编码算法,1984年被CCITT定义为标准,而且现今还在使用。.G.722 编解码器在 16 kHz 频率上接收 16 位数据(带宽从 50 Hz 至 7 kHz),并将其压缩为 64、56 与 48 Kbit/s,其总延迟约 3 ms,能够提供更好的通话质量。
G.722的优点是延时和传输位误差率非常低,且没有任何的专利技术,费用低廉。因此G.722在无线通信系统,VoIP生产商,个人通信服务,视频会议应用等广泛应用。
4、 G.722.1
G.722.1基于 Polycom 的第三代 Siren 7 压缩技术,1999年被ITU-T批准为G.722.1标准。G.722.1采用16 KHZ 采样频率,16 位数据量化,支持从 50 Hz 至 7 kHz频率范围的音频采样,并将其压缩为 32 与 24 Kbit/s。它采用20 ms封帧,提供40ms的算法延迟。
G722.1可实现比 G.722 编解码器更低的比特率以及更大的压缩。目标是以大约一半的比特率实现与 G.722 大致相当的质量。这种编码使用许可需要获得Polycom公司的授权。
5、 G722.1 Annex C
G722.1 Annex C基于 Polycom 的Siren 14 压缩技术, 采用32kHz采样频率,支持从 50 Hz 至 14 kHz频率范围的音频采样,并将其压缩为 24、32或48 kbps。采用20ms封帧,提供40毫秒演算延迟。
2005年中,国际电信联盟(ITU)批准Polycom Siren 14™ 技术为14 kHz超宽带音频编码新标准。同时进入作为ITU-T建议的G.722.1 Annex C。 G722.1 Annex C具有低运算能力,低带宽的优点。适于处理语音、音乐与自然界声音。
6、 AAC-LD
AAC(Advanced Audio Coding,高级音频编码)是由Fraunhofer研究院(MP3格式的创造者)、杜比(DOLBY)试验室和AT&T(美国电话电报公司)共同研发出的一种音频压缩格式,是MPEG-2规范的一部分,并在1997年3月成为国际标准。随着MPEG-4标准在2000年成型后,MPEG2 AAC也被作为核心编码技术,并增加了一些新的编码特性,又叫MPEG-4 AAC。
MPEG-4 AAC家族目前共有九种编码规格,AAC-LD(Low Delay,低延迟规格)是用在低码率下编码。它支持8K~48K采样率的,可以64Kbps的码率输出接近 CD 音质的音频,并支持多声音通道,AAC-LD 算法延迟仅为 20ms。
AAC因为其模块化设计,功能更为强大。本身的框架结构能够被不断的新的东西填充,这就使得不同发展方面的内核相互融合,彼此吸收精华成为可能。
7、 各种音频协议的主要参数对比:
采样频率 支持音频带宽 输出码率 最低算法延迟
G711 8KHz 300 Hz ~ 3,400 Hz 64 Kbps 《1ms
G722 16kHz 50 Hz ~ 7 kHz 64 Kbps 3ms
G722.1 16kHz 50 Hz ~7 kHz 24、32 Kbps 40ms
G722.1 C 32kHz 50 Hz~14 kHz 24、32、48Kbps 40ms
AAC-LD 48kHz 20 Hz-20kHz 48~64 Kbps 20ms
三、AAC_LD与G722. Annex C优缺点对比:
G722.1 C AAC_LD
采样音频频率范围支持50 Hz~14 kHz,接近CD音质,但丢失了高频部分。
支持20 Hz-20kHz全频段的采样,音频更加接近CD音质。
输出码率24、32、48Kbps,带宽低于AAC-LD,但是以牺牲高频为代价的。
48~64 Kbps,并支持大于64Kbps的输出,为更好的音频质量提供了可能。
算法复杂性算法复杂度低,CPU占用率略好于AAC-LD 模块化设计,功能更为强大,有TI等专用芯片支持
最低延迟采用20ms封帧,40ms算法延迟 20ms算法延迟,好于G722.1 C
多声道可以支持双声道 AAC支持多达48个音轨、15个低频音轨
标准通用性G722.1-C 由Polycom制定开发,使用需要Polycom授权,目前只有Polycom和极少数会议电视厂商使用。 作为MPEG4核心标准,受到Apple、诺基亚、松下等支持,并被泰德等众多会议电视厂商所采用,应用前景更广阔。
在相同的采样频率下,AAC-LD可以提供比G722.1 C、MP3等更好的音质。AAC-LD实现了超宽频音频编码中最短的延时,并保证接近CD的音质,达到音质、比特率和延时三者的最佳组合,是会议电视领域的最优选择。
编辑推荐:ADI公司谈音频系统标准和协议
音频格式有哪些
CD
CD格式的音质是比较高的音频格式。因此要讲音频格式,CD自然是打头阵的先锋。在大多数播放软件的“打开文件类型”中,都可以看到*.cda格式,这就是CD音轨了。标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的,因此如果你是一个音响发烧友的话,CD是你的首选。它会让你感受到天籁之音。CD光盘可以在CD唱机中播放,也能用电脑里的各种播放软件来重放。一个CD音频文件是一个*.cda文件,这只是一个索引信息,并不是真正的包含声音信息,所以不论CD音乐的长短,在电脑上看到的“*.cda文件”都是44字节长。注意:不能直接的复制CD格式的*.cda文件到硬盘上播放,需要使用像EAC这样的抓音轨软件把CD格式的文件转换成WAV,这个转换过程如果光盘驱动质量过关而且EAC的参数设置得当的话。可以说是基本上无损抓音频。
WAVE
WAVE(*.WAV)是微软公司开发的一种声音文件格式,它符合PIFFResource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。
AIFF
(Audio Interchange File Format)格式和AU格式,它们都和WAV非常相像,在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。
AIFF是音频交换文件格式的英文缩写。是APPLE公司开发的一种音频文件格式,被MACINTOSH平台及其应用程序所支持,NETSCAPE浏览器中LIVEAUDIO也支持AIFF格式。所以大家都不常见。AIFF是Apple苹果电脑上面的标准音频格式,属于QuickTime技术的一部分。这一格式的特点就是格式本身与数据的意义无关,因此受到了Microsoft的青睐,并据此搞出来WAV格式。AIFF虽然是一种很优秀的文件格式,但由于它是苹果电脑上的格式,因此在PC平台上并没有得到很大的流行。不过由于Apple电脑多用于多媒体制作出版行业,因此几乎所有的音频编辑软件和播放软件都或多或少地支持AIFF格式。只要苹果电脑还在,AIFF就始终还占有一席之地。由于AIFF的包容特性,所以它支持许多压缩技术。
AU
AUDIO文件是SUN公司推出的一种数字音频格式。AU文件原先是UNIX操作系统下的数字声音文件。由于早期INTERNET上的WEB服务器主要是基于UNIX的,所以,AU格式的文件在如今的INTERNET中也是常用的声音文件格式。
MPEG
MPEG是动态图象专家组的英文缩写。这个专家组始建于1988年,专门负责为CD建立视频和音频压缩标准。MPEG音频文件指的是MPEG标准中的声音部分即MPEG音频层。目前INTERNET上的音乐格式以MP3最为常见。虽然它是一种有损压缩,但是它的最大优势是以极小的声音失真换来了较高的压缩比。MPEG含有格式包括:MPEG-1、MPEG-2、MPEG-Layer3、MPEG-4
编辑推荐:常见音视频信号类型和接头
MP3
MP3格式诞生于八十年代的德国,所谓的MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1“/“*.mp2”/“*.mp3”这3种声音文件。需要提醒大家注意的地方是:MPEG音频文件的压缩是一种有损压缩,MPEG3音频编码具有10:1~12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用*.mp3格式来储存,一般只有*.wav文件的1/10,因而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小,音质好;所以在它问世之初还没有什么别的音频格式可以与之匹敌,因而为*.mp3格式的发展提供了良好的条件。直到现在,这种格式还是很流行,作为主流音频格式的地位难以被撼动。但是树大招风,MP3音乐的版权问题也一直找不到办法解决,因为MP3没有版权保护技术,说白了也就是谁都可以用。
MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。用装有Fraunhofer IIS Mpeg Lyaer3的 MP3编码器(现在效果最好的编码器)MusicMatch Jukebox 6.0在128Kbps的频率下编码一首3分钟的歌曲,得到2.82MB的MP3文件。采用缺省的CBR(固定采样频率)技术可以以固定的频率采样一首歌曲,而VBR(可变采样频率)则可以在音乐“忙”的时候加大采样的频率获取更高的音质,不过产生的MP3文件可能在某些播放器上无法播放。把VBR的级别设定成为与前面的CBR文件的音质基本一样,生成的VBR MP3文件为2.9MB。
MP3是到2008年止使用用户最多的有损压缩数字音频格式了。它的全称是MPEG(MPEG:MovingPictureExpertsGroup)AudioLayer-3,刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。早期的MP3编码采用的的是固定编码率的方式(CBR),看到的128Kbps,就是代表它是以128Kbps固定数据速率编码——你可以提高这个编码率,最高可以到320Kbps,音质会更好,自然,文件的体积会相应增大。
因为MP3的编码方式是开放的,可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理,所以,很快由新公司推出可变编码率的压缩方式(VBR)。它的原理就是利用将一首歌的复杂部分用高bitrate编码,简单部分用低bitrate编码,通过这种方式,进一步取得质量和体积的统一。当然,早期的Xing编码器的VBR算法很差,音质与CBR(固定码率)相去甚远。但是,这种算法指明了一种方向,其他开发者纷纷推出自己的VBR算法,使得效果一直在改进。目前公认比较好的首推LAME,它完美地实现了VBR算法,而且它是是完全免费的软件,并且由爱好者组成的开发团队一直在不断的发展完善。
而在VBR的基础上,LAME更加发展出ABR算法。ABR(AverageBitrate)平均比特率,是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内,以每50帧(30帧约1秒)为一段,低频和不敏感频率使用相对低的流量,高频和大动态表现时使用高流量,可以做为VBR和CBR的一种折衷选择。
MP3问世不久,就凭这较高的压缩比12:1和较好的音质创造了一个全新的音乐领域,然而MP3的开放性却最终不可避免的导致了版权之争,在这样的背景之下,文件更小,音质更佳,同时还能有效保护版权的MP4就应运而生了。MP3和MP4之间其实并没有必然的联系,首先MP3是一种音频压缩的国际技术标准,而MP4却是一个商标的名称。
MPEG-4
MPEG-4标准是由国际运动图像专家组于2000年10月公布的一种面向多媒体应用的视频压缩标准。它采用了基于对象的压缩编码技术,在编码前首先对视频序列进行分析,从原始图像中分割出各个视频对象,然后再分别对每个视频对象的形状信息、运动信息、纹理信息单独编码,并通过比MPEG-2更优的运动预测和运动补偿来去除连续帧之间的时间冗余。其核心是基于内容的尺度可变性(Content-basedscalability),可以对图像中各个对象分配优先级,对比较重要的对象用高的空间和时间分辨率表示,对不甚重要的对象(如监控系统的背景)以较低的分辨率表示,甚至不显示。因此它具有自适应调配资源能力,可以实现高质量低速率的图像通信和视频传输。 MPEG-4以其高质量、低传输速率等优点已经被广泛应用到网络多媒体、视频会议和多媒体监控等图像传输系统中。中国内外大部分成熟的MPEG-4应用均为基于PC层面的客户端和服务器模式,应用在嵌入式上的并不多,且多数嵌入式MPEG-4解码系统大多使用商业的嵌入式操作系统,如WindowsCE、VxWorks等,成本高、灵活性差。如以嵌入式Linux作为操作系统不仅开发方便,且可以节约成本,并可以根据实际情况进行裁减,占用资源少、灵活性强,网络性能好,适用范围更广。
MIDI
MIDI(Musical Instrument Digital Interface)格式被经常玩音乐的人使用,MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音,而是记录声音的信息,然后再告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5~10KB。MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。*.mid文件重放的效果完全依赖声卡的档次。*.mid格式的最大用处是在电脑作曲领域。*.mid文件可以用作曲软件写出,也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里,制成*.mid文件。
WMA
WMA (Windows Media Audio) 格式是来自于微软的重量级选手,后台强硬,音质要强于MP3格式,更远胜于RA格式,它和日本YAMAHA公司开发的VQF格式一样,是以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的,WMA的压缩率一般都可以达到1:18左右,WMA的另一个优点是内容提供商可以通过DRM(Digital Rights Management)方案如Windows Media Rights Manager 7加入防拷贝保护。这种内置了版权保护技术可以限制播放时间和播放次数甚至于播放的机器等等,这对被盗版搅得焦头烂额的音乐公司来说可是一个福音,另外WMA还支持音频流(Stream)技术,适合在网络上在线播放,作为微软抢占网络音乐的开路先锋可以说是技术领先、风头强劲,更方便的是不用象MP3那样需要安装额外的播放器,而Windows操作系统和Windows Media Player的无缝捆绑让你只要安装了windows操作系统就可以直接播放WMA音乐,新版本的Windows Media Player7.0更是增加了直接把CD光盘转换为WMA声音格式的功能,在新出品的操作系统Windows XP中,WMA是默认的编码格式,大家知道Netscape的遭遇,现在“狼”又来了。WMA这种格式在录制时可以对音质进行调节。同一格式,音质好的可与CD媲美,压缩率较高的可用于网络广播。虽然现在网络上还不是很流行,但是在微软的大规模推广下已经是得到了越来越多站点的承认和大力支持,在网络音乐领域中直逼*.mp3,在网络广播方面,也正在瓜分Real打下的天下。因此,几乎所有的音频格式都感受到了WMA格式的压力。
微软官方宣布的资料中称WMA格式的可保护性极强,甚至可以限定播放机器、播放时间及播放次数,具有相当的版权保护能力。应该说,WMA的推出,就是针对MP3没有版权限制的缺点而来——普通用户可能很欢迎这种格式,但作为版权拥有者的唱片公司来说,它们更喜欢难以复制拷贝的音乐压缩技术,而微软的WMA则照顾到了这些唱片公司的需求。
除了版权保护外,WMA还在压缩比上进行了深化,它的目标是在相同音质条件下文件体积可以变的更小(当然,只在MP3低于192KBPS码率的情况下有效,实际上当采用LAME算法压缩MP3格式时,高于192KBPS时普遍的反映是MP3的音质要好于WMA)。
RealAudio
RealAudio主要适用于在网络上的在线音
乐欣赏,现在大多数的用户仍然在使用56Kbps或更低速率的Modem,所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。real的的文件格式主要有这么几种:有RA(RealAudio)、RM(RealMedia,RealAudio G2)、RMX(RealAudio Secured),还有更多。这些格式的特点是可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较富裕的听众获得较好的音质。
近来随着网络宽带的普遍改善,Real公司正推出用于网络广播、达到CD音质的格式。如果你的软件不能处理RealPlayer这种格式,它就会提醒你下载一个免费的升级包。许多音乐网站 提供了歌曲的Real格式的试听版本。现在最新的版本是RealPlayer 9.0,第39期《电脑报》也对RealPlayer 9.0作了详细的介绍,这里不再赘述。
相关文章