mp4和mkv有什么区别？什么是H.264？什么是mpeg？

前言

说到视频，大家自己脑子里基本都会想起电影、电视剧、在线视频等等，也会想起一些视频格式 AVI、MP4、RMVB、MKV等等。但是我们如果认真思考这些应该就有很多疑问，比如以下问题：

mp4 和 mkv有什么区别？

视频封装格式和解码格式有什么区别？

什么是H.264 ？什么是 mpeg ？

等等很多疑问，我们不知道这些问题的答案是因为我们没有去了解他们背后的东西，下面我会给大家分享当初我学习时候的整理的一些知识。

一、光与颜色

1，光和颜色光是一种肉眼可以看见（接受）的电磁波（可见光谱）。在科学上的定义，光有时候是指所有的电磁波。光是由一种称为光子的基本粒子组成。具有粒子性与波动性，或称为波粒二象性。人类肉眼所能看到的可见光只是整个电磁波谱的一部分。电磁波之可见光谱范围大约为390～760nm（1nm=10-9m=0.000000001m）。

在这个世界如果没有光，我们就无法生存。颜色是视觉系统对可见光的感知结果，研究表明人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞。红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同，对不同亮度的感知程度也不同。自然界中的任何一种颜色都可以由R，G，B 这 3 种颜色值之和来确定，以这三种颜色为基色构成一个RGB 颜色空间。

颜色＝R(红色的百分比)＋G(绿色的百分比)＋B(蓝色的百分比)，只要其中一种不是由其它两种颜色生成，可以选择不同的三基色构造不同的颜色空间。如图所示，适当的红光和绿光能合成黄光；适当的绿光和蓝光能合成青光；适当的蓝光和红光能合成品红色的光；而适当的红、绿、蓝三色光能合成白光。因此红、绿、蓝三种色光被称为色光的“三原色。”

2，颜色的度量饱和度(saturation)

是相对于明度的一个区域的色彩，是指颜色的纯洁性，它可用来区别颜色明暗的程度。完全饱和的颜色是指没有渗入白光所呈现的颜色，例如仅由单一波长组成的光谱色就是完全饱和的颜色。

明度(brightness)是视觉系统对可见物体辐射或者发光多少的感知属性。它和人的感知有关。由于明度很难度量，因此国际照明委员会定义了一个比较容易度量的物理量，称为亮度(luminance) 来度量明度，亮度(luminance)即辐射的能量。明度的一个极端是黑色(没有光)，另一个极端是白色，在这两个极端之间是灰色。

光亮度(lightness)是人的视觉系统对亮度(luminance)的感知响应值，光亮度可用作颜色空间的一个维，而明度(brightness)则仅限用于发光体,该术语用来描述反射表面或者透射表面。

3，颜色空间

颜色空间是表示颜色的一种数学方法，人们用它来指定和产生颜色，使颜色形象化。颜色空间中的颜色通常使用代表三个参数的三维坐标来指定，这些参数描述的是颜色在颜色空间中的位置，但并没有告诉我们是什么颜色，其颜色要取决于我们使用的坐标。

下面介绍几种常见的颜色空间：

RGB: 用途：主要用来在LCD、CRT显示器上用的。RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色。目前的显示器大都是采用了RGB颜色标准，在显示器上，是通过电子枪打在屏幕的红、绿、蓝三色发光极上来产生色彩的。电脑屏幕上的所有颜色，都由这红色绿色蓝色三种色光按照不同的比例混合而成的。一组红色，绿色，蓝色就是一个最小的显示单位。屏幕上的任何一个颜色都可以由一组RGB值来记录和表达。显像管内电子枪射出的三个电子束，它们分别射到屏上显示出红、绿、蓝色的荧光点上，通过分别控制三个电子束的强度，可以改变三色荧光点的亮度。由于这些色点很小又靠得很近，人眼无法分辨开来，看到的是三个色点的复合．即合成的颜色。

以RGB24为例，图像像素数据的存储方式如下:

RGB的格式：

RGB16 RGB24 RGB32 等等这些到底格式有什么区别呢？

总的来说区别就是一个像素所使用的位数不同，显示出来的色彩丰富度不同，位数越大，色彩越丰富。计算机使用的都是二进制，因此所有的数量级都是建立在二进制的基础上的，无论是存储空间，运算速度，文件大小等等。

如果要表示颜色，每一个对应的颜色都需要一个二进制代码来表示，使用8位的二进制，可以表示 2^8 （2的8次方），也就是256种色彩。使用16位的二进制，可以表示 2^16 （2 的16次方），也就是65536种色彩。使用24位的二进制，可以表示 2^24 （2的24次方），也就是16,777,216种色彩。一般称24bit以上的色彩为真彩色，当然还有采用30bit、36bit、42bit的。使用的色彩代码越长，同样像素的文件的文件大小也就相应的成幂次级增长。使用超过16位以上的色彩文件在普通的显示器，尤其是液晶显示器上看不出任何区别，原因是液晶显示器本身不能显示出那么多的色彩。但是对于彩色印刷就非常有用，因为油墨的点非常的细，同时由于印刷尺幅的放大原因，更大的文件可以在印刷的时候呈现出更细腻的层次和细节。

YUV：用途：主要用于视频信号的压缩、传输和存储，和向后相容老式黑白电视。在生理学中，有一条规律，那就是人类视网膜上的视网膜杆细胞要多于视网膜锥细胞，说得通俗一些，视网膜杆细胞的作用就是识别亮度，而视网膜锥细胞的作用就是识别色度。所以，人眼对亮度分辨率的敏感度高于对色彩分辨率的敏感度

从上图我们可以看出，我们更容易识别去除色彩的图像，而对于单独剥离出的只有色彩的图像，不好识别。YUV色彩模型就是利用这个原理，把亮度与色度分离，根据人对亮度更敏感些，增加亮度的信号，减少颜色的信号，以这样“欺骗”人的眼睛的手段来节省空间，从而适合于图像处理领域。YUV三个字母中，其中"Y"表示明亮度（Lumina nce或Luma），也就是灰阶值；而"U"和"V"表示的则是色度（Chrominance或Chroma），作用是描述影像色彩及饱和度，用于指定像素的颜色。使用YUV的优点有两个:一、彩色YUV图像转黑白YUV图像。如果只有Y信号分量而没有U、V分量，那么这样表示的图像就是黑白灰度图像。因此可兼容老式黑白电视。二、YUV是数据总尺寸小于RGB格式。因为YUV，可以增加亮度的信号，减少颜色的信号，用于减少体积。

YCbCr ：在技术文档里，YUV经常有另外的名字, YCbCr ,其中Y与YUV 中的Y含义一致，Cb , Cr 同样都指色彩，只是在表示方法上不同而已，Cb Cr 就是本来理论上的“分量/色差”的标识。C代表分量(是component的缩写)Cr、Cb分别对应r(红)、b(蓝)分量信号，Y除了g(绿)分量信号，还叠加了亮度信号。

YCbCr模型来源于YUV模型，算是YUV的压缩版本，不同之处在于Y'CbCr用于数字图像领域，YUV用于模拟信号领域，MPEG、DVD、摄像机中常说的YUV其实是Y'CbCr。

其中Y与YUV 中的Y含义一致，Cb , Cr 同样都指色彩,，只是在表示方法上不同而已，Cb Cr 就是本来理论上的“分量/色差”的标识。C代表分量(是component的缩写)Cr、Cb分别对应r(红)、b(蓝)分量信号，Y除了g(绿)分量信号，还叠加了亮度信号。

再YUV 家族中, YCbCr 是在计算机系统中应用最多的成员, 其应用领域很广泛,JPEG、MPEG均采用此格式。一般人们所讲的YUV大多是指YCbCr。

YCbCr 有许多取样格式, 如4∶4∶4 , 4∶2∶2 , 4∶1∶1 和4∶2∶0：

YUV三个信道的抽样率相同，因此在生成的图像里，每个象素的三个分量信息完整。

每个色差信道的抽样率是亮度信道的一半，所以水平方向的色度抽样率只是44的一半

41的色度抽样，是在水平方向上对色度进行4:1抽样。对于低端用户和消费类产品这仍然是可以接受的。

40并不意味着只有Y，Cb而没有Cr分量。它指得是对每行扫描线来说，只有一种色度分量以2:1的抽样率存储。相邻的扫描行存储不同的色度分量，也就是说，如果一行是40的话，下一行就是42，再下一行是40...以此类推。对每个色度分量来说，水平方向和竖直方向的抽样率都是2:1，所以可以说色度的抽样率是4:1。对非压缩的8比特量化的视频来说，每个由2x2个2行2列相邻的像素组成的宏像素需要占用6字节内存。

4，颜色空间的转换：不同颜色可以通过一定的数学关系相互转换：

RGB转YUV：Y = (0.257 * R) + (0.504 * G) + (0.098 * B) + 16 Cr = V = (0.439 * R) - (0.368 * G) - (0.071 * B) + 128 Cb = U = -( 0.148 * R) - (0.291 * G) + (0.439 * B) + 128

YUV转RGB：B = 1.164(Y - 16) + 2.018(U - 128) G = 1.164(Y - 16) - 0.813(V - 128) - 0.391(U - 128) R = 1.164(Y - 16) + 1.596(V - 128)

二、电视制式

1，介绍电视信号的标准简称制式，可以简单地理解为用来实现电视图像或声音信号所采用的一种技术标准，就是用来实现电视图像信号和伴音信号，或其它信号传输的方法，和电视图像的显示格式，以及这种方法和电视图像显示格式所采用的技术标准。只有遵循一样的技术标准，才能够实现电视机正常接收电视信号、播放电视节目。就像电源插座和插头，规格一样才能插在一起，中国的插头就不能插在英国规格的电源插座里，只有制式一样，才能顺利对接。严格来说，电视制式有很多种，对于模拟电视，有黑白电视制式，彩色电视制式，以及伴音制式等。目前世界上现行的彩色电视制式有三种：NTSC 制、PAL 制和SECAM 制。中国大部分地区使用PAL制式，日本、韩国及东南亚地区与美国等欧美国家使用NTSC制式，俄罗斯则使用SECAM制式。

2，制式说明

NTSC电视标准：NTSC电视标准主要用于美、日等国家和地区。NTSC电视标准的特性：（1） 525 行/帧，每秒29.97帧（简化为30帧）（2）电视扫描线为525线。（3）隔行扫描，一帧分成2 场(field)，262.5 线/场（4）24比特的色彩位深。（5）高宽比：电视画面的长宽比(电视为4:3；电影为3:2；高清晰度电视为16:9) （6）场频为每秒60场( 帧数30 * 2 = 60 ) 它是1952年由美国国家电视标准委员会指定的彩色电视广播标准，它采用正交平衡调幅的技术方式，故也称为正交平衡调幅制。优点是电视接收机电路简单，缺点是容易产生偏色，因此NTSC制电视机都有一个色调手动控制电路，供用户选择使用；

PAL电视标准：PAL电视标准主要用于中国、欧洲等国家和地区。PAL电视标准的特性（1）625 行(扫描线)/帧，每秒25帧. （2）电视扫描线为625线（3）隔行扫描，2 场/帧，312.5 行/场（4）24比特的色彩位深（5）画面的宽高比为4：3。（6）场频为每秒50场( 帧数25 * 2 = 50 ) 它是西德在1962年指定的彩色电视广播标准，它采用逐行倒相正交平衡调幅的技术方法，克服了NTSC制相位敏感造成色彩失真的缺点。

SECAM电视标准：SECAM是法文的缩写，意为顺序传送彩色信号与存储恢复彩色信号制，是由法国在1956年提出，1966年制定的一种新的彩色电视制式。它也克服了NTSC制式相位失真的缺点，但采用时间分隔法来传送两个色差信号。PAL制式和SECAM制式可以克服NTSC制容易偏色的缺点，但电视接收机电路复杂，要比NTSC制电视接收机多一个一行延时线电路，并且图像容易产生彩色闪烁。因此三种彩色电视制式各有优缺点，互相比较结果，谁也不能战胜谁，所以，三种彩色电视制式互相共存已经五十多年。

三、照相机与摄像机

视频最早是由摄像机拍摄的制作而成的，摄像机的发明又是在照相机的基础之上的，所以说在这里，就不得简单说明下照相机与摄像机。

1，照相机基本原理现实中照相机和摄像机的成像原理都是基于小孔成像为基础的。我们知道，光在同一均匀介质中、不受引力作用干扰的情况下，沿直线传播；因此它在遇到阻隔物上的孔洞时会穿过它，并能在孔后一定距离内的对应平面上投射出一个倒立的实影；只要投影面周围的环境足够暗，影像就能被人眼所观看到。相信学生时代，大家都曾在自然常识课上做过“小孔成像”的试验，老师也肯定提到过这一原理与相机之间密不可分的关联；

照相技术的发明者正是利用光的这一的特性与传递原理，以光子为载体，把某一瞬间被摄景物的光信息以能量方式通过设在相机上“孔洞”传递给后方的感光材料。

照相机的基本工作原理就是——将景物影像通过光线的各种传播特性准确地聚焦在具有感光能力的成像平面上，通过各种辅助手段控制光线的流量，从而获得符合用户要求的影像画面，最后通过不同的手段保存下来。最早的照相机结构十分简单，仅包括暗箱、镜头和感光材料。现代照相机比较复杂，具有镜头、光圈、快门、测距、取景、测光、输片、计数、自拍等系统，是一种结合光学、精密机械、电子技术和化学等技术的复杂产品。

2，摄像机的发明过程摄像机的发明，起源于一个有趣的故事。1872年的一天，在美国加利福尼亚州一个酒店里，斯坦福与科恩发生了激烈的争执：马奔跑时蹄子是否都着地？斯坦福认为奔跑的马在跃起的瞬间四蹄是腾空的；科恩却认为，马奔跑时始终有一蹄着地。争执的结果谁也说服不了谁，于是就采取了美国人惯用的方式打赌来解决。他们请来一位驯马好手来做裁决，然而，这位裁判员也难以断定谁是谁非。这很正常，因为单凭人的眼睛确实难以看清快速奔跑的马蹄是如何运动的。于是富翁请来了英国摄影师爱德华.麦布里奇来作实验。

麦布里奇把24架照相机的快门连上24根线，在极短的时间里，使照相机依次拍下24张照片，再将这些照片一张一张地依次按次序看下去，以便观察马儿是怎么样跃进的，又是怎么样着地的。为了这一实验，麦布里奇和助手们吃尽了苦头，付出了大量的劳动，历时六年的工夫，终于拍出了一套宝贵的"马跑小道"的珍贵资料，同时也证实了这个美国富翁的预言是正确的。然而，麦布里奇的成功又向人们提出了一个新的问题：如何解决连续摄影的问题，因为他用24架照相机仅仅只能拍摄奔马的一段动作，如果奔马跑一公里的长距离，就得用成千上万架照相机，胶卷的长度将会绕地球一周了。所以，如何运用一架单镜头的摄影机来代替多镜头的摄影机或者一组摄影机，就成了解决连续摄影的关键问题。

1874年，法国的朱尔·让桑发明了一种摄影机。他将感光胶片卷绕在带齿的供片盘上，在一个钟摆机构的控制下，供片盘在圆形供片盒内做间歇供片运动，同时钟摆机构带动快门旋转，每当胶片停下时，快门开启曝光。让桑将这种相机与一架望远镜相接，能以每秒一张的速度拍下行星运动的一组照片。让桑将其命名为摄影枪，这就是现代摄影机的始祖。

3，视频经过哪些步骤，存储到计算机中？

（1）成像主要靠镜头来完成，拍摄主体反射的光线通过镜头进入相机后聚焦，形成清晰图像。

（2）光电转换图像落在CCD/CMOS光电器材上，通过光电转换形成电信号。

（3）记录

经处理器加工，进行编码压缩，然后把信号记录在磁带或存储卡上。

四、声音

1，声音介绍

声音：声音是一种物理现象。物体振动时产生声波通过空气传到人们的耳膜经过大脑的反射被感知为声音。声音有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。声音以波的形式振动（震动）传播，声音作为一种波，频率在20 Hz~20 kHz之间的声音是可以被人耳识别的。

音的高低：是由于物体在一定时间内的振动次数频率而决定的。振动次数多音则高，振动次数少音则低。

音的长短：是由于音的延续时间的不同而决定的，音的延续时间长音则长，音的延续时间短音则短。

音的强弱：是由于振幅音的振动的幅度的大小决定的。振幅大音则强振幅小音则弱。

音色：即声音的特色是由发声体的材料、结构以及泛音的多少决定的。

种类：按照频率分类：频率低于20Hz的声波称为次声波；频率在 20Hz~20kHz的声波称为可闻声；频率在 20kHz~1GHz的声波称为超声波；频率大于1GHz的声波称为特超声或微波超声。

2，声音存储的发展，从 “模拟录音” 到 “数字录音”

谈到录音，不得不谈到爱迪生发明的现代录音设备的鼻祖：留声机。留音机最初是1877年伟大的世界发明大王爱迪生发明的，在一次调试话筒时因为听力不好，爱迪生用一根针来检验传话膜的震动，不料针接触到话膜后随着声音的强弱变化产生一种有规律的颤动，而这一现象就成了他发明的灵感。

因为我们都知道，发送和接受是两个相对应的过程。说话的快慢高低能使短针发生相应的不同颤动，那么反过来，这种颤动也能发出原来的说话声音，可以将声波变换成金属针的震动，然后将波形刻录在圆筒形腊管的锡箔上。当针再一次沿着刻录的轨迹行进时，便可以重新发出留下的声音。于是他就用这一原理制作出了他的第一台留音机。随着历史的发展慢慢经过了：机械录音（以留声机、机械唱片为代表）----- 光学录影（以电影胶片为代表）----- 磁性录音（以磁带录音为代表）等模拟录音方式，直到二十世纪七、八十年代逐渐开始进入了数字录音（数字音频）的时代。

3，数字音频什么是音频？音频（Audio）指人能听到的声音包括语音、音乐和其它声音如环境声、音效声、自然声等。

为什么要存在数字音频？由物理学可知，复杂的声波由许许多多具有不同振幅和频率的正弦波组成。代表声音的模拟信息是个连续的量，不能由计算机直接处理，必须将其数字化。经过数字化处理之后的数字声音信息能够像文字和图形信息一样进行存储、检索、编辑和其它处理。

什么是数字音频？数字音频是指使用数字编码的方式也就是使用0和1来记录音频信息，它是相对于模拟音频来说的。在CD光盘和计算机技术未出现之前都是模拟音频（如录音带），其中数字/模拟转换器简称：DAC、模拟/数字转换器简称：ADC. 我们知道声音可以表达成一种随着时间的推移形成的一种波形：

但是如果想要直接描述这样的一个曲线存储到计算机中，是没有办法描述的。假如描述也只能是这样表达：曲线下去了，上去了，又下去了，又上去了，显然这样是很不合理的。人们想到了一个办法：

每隔一个小小的时间间隔，去用尺子量一下这个点的位置在哪里。那么只要这个间隔是一定的,我们就可以把这个曲线描述成：{9,11,12,13,14,14,15,15,15,14,14,13,12,10,9,7...} 这样描述是不是比刚才的方法要精确多了？

如果我们把这个时间间隔取得更小，拿的尺子越精确，那么测量得到的，用来描述这个曲线的数字也可以做到更加地精确。然后我们可以把这些电平信号转化成二进制数据保存，播放的时候就把这些数据转换为模拟的电平信号再送到喇叭播出，就可以了。用专业的术语来说，我们每两次测一下位置的时间间隔，就是所谓的采样率。采样率等于多少，就意味着我们每秒钟进行了多少次这样的测量。所谓音质，就是指最后我们描述这个曲线的数字，到底和真实的曲线误差有多大。数字声音和一般磁带、广播、电视中的声音就存储播放方式而言有着本质区别。相比而言，它具有存储方便、存储成本低廉、存储和传输的过程中没有声音的失真、编辑和处理非常方便等特点。

4，从“模拟信号”到“数字化”的过程：模拟信号到数字化的过程需要三个步骤：

（1）采样：所谓采样，即以适当的时间间隔观测模拟信号波形不连续的样本值替换原来的连续信号波形的操作，又称为取样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富。采样的基本定理：为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样。

（2）量化：在数字音频技术中，把表示声音强弱的模拟电压用数字表示，如0.5V电压用数字20表示，2V电压是80表示。模拟电压的幅度，即使在某电平范围内，仍然可以有无穷多个，如1.2V,1.21V,1.215V…。而用数字来表示音频幅度时，只能把无穷多个电压幅度用有限个数字表示。即把某一幅度范围内的电压用一个数字表示，这称之为量化。

（3）编码：

计算机内的基本数制是二进制，为此我们也要把声音数据写成计算机的数据格式，这称之为编码。

5，数字音频的分类：数字音频主要包括两类：波形音频和 MIDI音频：** 波形音频：** 波形音频文件是通过声音录入设备录制的原始声音，直接记录了原始真实声音信息的数据文件，通常文件较大。MIDI音频：译作乐器数字化接口，是为了把电子乐器与计算机相连而制定的一个规范，是数字音乐的国际标准。数字式电子乐器的出现，为计算机处理音乐创造了极为有利的条件。MIDI声音与数字化波形声音完全不同，它不是对声波进行采样、量化和编码，而是将电子乐器键盘的弹奏信息记录下来，包括键名、力度、时值长短等，这些信息称之为MIDI消息，是乐谱的一种数字式描述。当需要播放时，只需从相应的MIDI文件中读出MIDI消息，生成所需要的乐器声音波形，经放大后由扬声器输出。

五、视频相关专业术语

（1）视频：连续的图象变化每秒超过24帧（Frame）画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。r

（2）帧(Frame)：是影像中常用的最小单位，相当于电影中胶片的每一格镜头，一帧就是一副静止的画面，连续的帧就形成了视频。

（3）帧速率（FPS）：每秒钟所传输图片的个数，也可以理解为处理器每秒刷新的次数，通常用FPS标识，当然帧数越高，画面也就越流畅。

（4）转码：指将一段多媒体包括音频、视频或者其他的内容从一种编码格式转换成为另外一种编码格式。（原视频 -- 解码 -- 像素数据 -- 编码 -- 目标视频）（原音频 -- 解码 -- 音频数据 -- 编码 -- 目标音频）

（5）视频编码：讲到视频编码，大家可能都会问为什么视频要编码？--- 要知道，采集的原始音视频信号体积都非常大，里面有很多相同的、眼看不到的、耳听不到的内容，比如，如果视频不经过压缩编码的话，体积通常是非常大的，一部电影可能就要上百G的空间。--- 专业的来说，视频编码也就是文件当中的视频所采用的压缩算法，视频编码的主要作用是将视频像素数据（RGB，YUV等）压缩成为视频码流，从而降低视频的数据量。

（6）视频解码：有了编码，当然也需要有解码。因为压缩（编码）过的内容无法直接使用，使用（观看）时必须解压缩，还原为原始的信号（比如视频中某个点的颜色等），这就是“解码“或者”解压缩“。

（7）采样频率：指录音设备在一秒钟内对声音信号的采样次数，它用赫兹（Hz）来表示，比如44.1KHz采样率的声音就是要花费44000个数据点来描述1秒钟的声音波形。原则上采样率越高，声音质量越好。

（8）采样位数:表示了计算机度量声音波形幅度（音量）的精度，就是通常所说的声卡的位数。就像表示颜色的位数一样（8位表示256种颜色，16位表示65536种颜色），有8位，16位，24位等。这个数值越大，解析度就越高，录制和回放的声音就越真实。每一个采样点都需要用一个数值来表示大小，这个数值的数据类型大小可以是：8bit、16bit、32bit 等等，位数越多，表示得就越精细，声音质量自然就越好，而数据量也会成倍增大。我们在音频采样过程中常用的位宽是 8bit 或者 16bit。

（9）比特率（码率）：表示单位时间（1秒）内传送的比特数，一般我们用的单位是kbps，其英文是 Kilobits per second，意即“千位每秒”（根据发音亦译作“千比特每秒”），意思是说每过一秒钟，有多少千比特的数据流过，因此码率也经常被称为“比特率”。---音频中码率：就是音频文件或者音频流中1秒中的数据量，如1.44Mbps，就是1秒钟内的数据量1.44Mbits 。

码率越高，传送的数据越大，音质越好，声音比特率 = 采样率（Hz） x 采样位数（bit） x 声道数.---视频中码率：原理与声音中的相同，都是指由模拟信号转换为数字信号后，单位时间内的二进制数据量，通俗来讲就是把每秒显示的图片进行压缩后的数据量。视频比特率（位/秒）= (画面尺寸彩色位数（bit）帧数)** 假设有一张标准音乐CD光盘容量是746.93MB（注意大B是字节，小b是位。一字节（B）等于8位（b）。） CD音频是以采样率为44.1KHZ，采样位数为16位，左右双声道（立体声）进行采样的。而一张标准CD光盘的时长是74分钟。那么容量计算公式为：(44100 x 16 x 2)/8 x (74 x 60)=783216000字节转为MB为 783216000/1024/1024=746.93MB(兆字节) *