北京冠泰信业科技发展有限公司

数字音频压缩技术的历史及其发展现状

　　历史回顾
　　数字技术的出现与应用为人类带来了深远的影响，人们如今已生活在一个几乎数字化的世界之中，而数字音频技术则称得上是应用最为广泛的数字技术之一，CD、VCD等早已走进千家万户，数字化广播正在全球范围内逐步得到开展，正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题：数字音频压缩技术得以产生和发展的动力。
　　1、音频压缩技术的出现及早期应用
　　音频压缩技术指的是对原始数字音频信号流（PCM编码）运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
　　数字信号的优势是显而易见的，而它也有自身相应的缺点，即存储容量需求的增加及传输时信道容量要求的增加。以CD为例，其采样率为44.1KHz，量化精度为16比特，则1分钟的立体声音频信号需占约10M字节的存储容量，也就是说，一张CD唱盘的容量只有1小时左右。当然，在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢？研究发现，直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上，在无损的条件下对声音至少可进行4：1压缩，即只用25％的数字量保留所有的信息，而在视频领域压缩比甚至可以达到几百倍。因而，为利用有限的资源，压缩技术从一出现便受到广泛的重视。　　对音频压缩技术的研究和应用由来已久，如A律、u律编码就是简单的准瞬时压扩技术，并在ISDN话音传输中得到应用。对语音信号的研究发展较早，也较为成熟，并已得到广泛应用，如自适应差分PCM（ADPCM）、线性预测编码（LPC）等技术。在广播领域，NICAM（Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用）等系统中都使用了音频压缩技术。
　　2、音频压缩算法的主要分类及典型代表
　　一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，而按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。
　　（1）时域压缩（或称为波形编码）技术是指直接针对音频PCM码流的样值进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。时域压缩技术主要包括G.711、ADPCM、LPC、CELP，以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM（SB-ADPCM）技术如G.721、G.722、Apt-X等。
　　（2）子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型（心理声学模型），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型（Perceptual）压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。
　　由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行压缩时引入了大量的量化噪声。然而，根据人类的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被限制在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量（EBU音质标准）。
　　子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ（MUSICAM），以及用于Philips DCC中的PASC（Precision Adaptive Subband Coding，精确自适应子带编码）等。
　　（3）变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT（离散余弦变换）、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善，而相应付出的代价则是计算复杂度的提高。　　变换域压缩具有一些不完善之处，如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步，这些缺陷正逐步被消除，同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。
　　有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC（Audio Spectral Perceptual Entropy Coding）、PAC（PerceptualAudioCoder）等。
　　3、音频压缩技术的标准化和MPEG-1
　　由于数字音频压缩技术具有广阔的应用范围和良好的市场前景，因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT（现ITU-T）在语音信号压缩的标准化方面做了大量的工作，制订了如G.711、G.721、G.728等标准，并逐渐受到业界的认同。　　在音频压缩标准化方面取得巨大成功的是MPEG-1音频（ISO/IEC11172-3）。在MPEG-1中，对音频压缩规定了三种模式，即层Ⅰ、层Ⅱ（即MUSICAM，又称MP2），层Ⅲ（又称MP3）。由于在制订标准时对许多压缩技术进行了认真的考察，并充分考虑了实际应用条件和算法的可实现性（复杂度），因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ；而MUSICAM由于其适当的复杂程度和优秀的声音质量，在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用；MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术，在当时的技术条件下，MP3的复杂度显得相对较高，编码不利于实时，但由于MP3在低码率条件下高水准的声音质量，使得它成为软解压及网络广播的宠儿。可以说，MPEG-1音频标准的制订方式决定了它的成功，这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。
　　最新进展
　　1、多声道音频信号压缩与DolbyAC-3
　　随着技术的不断进步和生活水准的不断提高，原有的立体声形式已不能满足受众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。
　　更准确地说，环绕声应该是一种声音恢复形式，其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟，已日渐成为未来声音形式的主流。有鉴于此，1992年CCIR（ITU-R）以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准，即CCIR Recommendation 775。其中主要约定了大家熟知的5.1声道形式及7.1声道形式，而在对环绕声压缩的研究上也产生了许多专利技术，如DolbySurroundPro-Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合，尤其是在影剧院、家庭影院系统，及将来的高清晰度电视（HDTV）等系统中得到广泛的应用。
　　（1）Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在5.1声道的条件下，可将码率压缩至384kbps，压缩比约为10：1。Dolby AC-3最初是针对影院系统开发的，但目前已成为应用最为广泛的环绕声压缩技术之一。
　　Dolby AC-3是一种感知型压缩编码技术，其编码器功能框图如图1所示。
　　在Dolby AC-3中，音频输入以音频块为单位，块长度为512个样值，在48KHz采样率时即为10.66毫秒，各声道单独处理；音频输入在经过3Hz高通滤波器去除直流成分后，通过另一高频带通滤波器以检测信号的瞬变情况，并用它来控制TDAC变换的长度，以期在频域分辨率和时域分辨率之间得到最好的折中效果；TDAC变换的长度一般为512点，而数据块之间的重叠长度为256点，即TDAC每5.33毫秒进行一次；在瞬变条件下，TDAC长度被等分为256点，这样DolbyAC-3的频域分辨率为93.75Hz，时域最小分辨率为2.67毫秒；在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用，主要是为了获得宽的动态范围，而在分离后的指数部分经编码后则构成了整个信号大致的频谱，又被称为频谱包络；比特分配主要是通过计算解码后的频谱包络（视为功率谱密度）和掩蔽曲线的相关性来进行的；由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术，因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配；在对尾数的量化过程中，可对尾数进行抖晃处理，抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果；AC-3的帧结构由同步字、CRC、同步信息（SI）、码流信息（BSI）、音频块和附加数据等组成，帧长度与TDAC变换的长度有关，在长度为512点时，帧长为32毫秒，即每秒31.25帧。
　　通过以上叙述可见，在Dolby AC-3中，使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。
　　可以说，AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶（从一定的角度来看，编码技术实际上就是降低编码噪声影响的技术），在技术上它具有很强的优势。因而即使作为一项专利技术，DolbyAC-3仍然在影院系统、HDTV、消费类电子产品（如LD、DVD）及直播卫星等方面获得了广泛的应用，得到了众多厂商的支持，成为业界事实上的标准。　　（2）MPEG-2BC（后向兼容方式），即ISO/IEC13818-3，是另一种多声道环绕声音频压缩技术。早在1992年初，该方面的讨论工作便已初步开展，并于94年11月正式获得通过。MPEG-2BC主要是在MPEG-1和CCIRRec.775的基础上发展起来的。与MPEG-1相比较，MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式，二是为某些低码率应用场合，如多语声节目、体育比赛解说等而进行的低采样率扩展。同时，标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容，并可依据CCIR Rec.775做到与双声道、单声道形式的向下兼容，还能够与Dolby Surround形式兼容。
　　在MPEG-2BC中，由于考虑到其前、后向兼容性以及环绕声音形式的新特点，在压缩算法中除承袭了MPEG-1的绝大部分技术外，为在低码率条件下进一步提高声音质量，还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(Phantom Coding of Center)、预编码(Predistortion)等。
　　然而，MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现，MPEG-2BC的编码框图在标准化过程中发生了重大的变化，上述的许多新技术都是在后期引入的。事实上，正是与MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点，使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下，MPEG-2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快，其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。
　　（3）DVD（DigitalVersatileDisk）是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上，AC-3和MPEG-2BC之间的争夺十分激烈，最后达成的协议如表1所示。可见，多声道环绕声音频压缩技术标准亟待统一。