数字音频声音的基础知识

声音的基础知识

声音的产生是由于物体的振动，造成空间内空气的波动而共鸣发音，再由大气的传播，使人的听觉神经感受到的一种物理现象。

声音的三要素是响度，音调和音色。

响度，和声音震动的幅度有关，用的力越大，人的鼓膜震动幅度就越大，发出的声音越响。

音调，主要是和频率有关。声波的频率越高，音调也越高。

音色在同样的音调（频率）和响度（振幅）下，钢琴和小提琴的声音听起来是完全不相同的，因为它们的音色不同。

声音传播的介质是固体、液体、气体。介质不同，传播的速度也不同。真空的情况下声音是无法传播的。

数字音频

对自然界的声音（模拟信号）进行采样，采样就是根据奈奎斯特定理在时间轴上对信号进行数字化信号，即按照一定时间间隔△t 在模拟信号 x（t）上逐点采取其瞬时值。采样率越高，声音的还原程度越高，质量就越好，同时占用空间会变大。

量化是用有限个幅度值近似原来连续变化的幅度值，把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。

编码是按照一定的规律，把量化后的值用二进制数字表示，然后转化成二值或多值的数字信号流。这样得到的数字信号通过可以通过电缆，卫星通道等数字线路传输。在接收端与上述模拟信号数字化过程相反，再经过后置滤波再恢复成原来的模拟信号。

上面数字化的过程又叫做脉冲编码调制，通常我们说的音频的裸数据格式就是脉冲编码调制（PCM）数据。描述一段 PCM 数据需要几个量化指标，常用的量化指标是采样率，位深度，字节序，声道数。

采样率（Sample rate）：每秒钟采样多少次，以 Hz 为单位。

位深度（Bit-depth）：表示用多少个二进制位来描述采样数据，一般为 16bit。

字节序：表示音频 PCM 数据存储的字节序是大端存储（big-endian）还是小端存储（little-endian），为了数据处理效率的高效，通常为小端存储。

声道数（channel number）：当前 PCM 文件中包含的声道数，是单声道（mono）、双声道。

数字音频 声音的基础知识