Meta公布全新AI语音压缩技术:比MP3压缩率高10倍

【ITcubs综合】11月6日讯 近日,Meta公布了全新AI语音压缩技术“EnCodec”,该技术号称可用64kbps的速度压缩出比MP3文件格式小10倍的音频,同时还能保证不会损失质量。这个开源压缩新技术的一个重要用途就是能让低带宽网络在发送声音文件时不会再发生断断续续、失声等情况。

Meta指出,压缩技术对目前互联网十分重要,借助于此用户可以十分容易的发送高画质图片、语音信息等。不过,发送这些多媒体信息需要充足的带宽和存储空间,尤其是在未来的时代,因此需要效果更好的压缩技术。

据介绍,“EnCodec”AI训练模型涵盖三个部分,分别为编码器(encoder)、量化器(quantizer)和解码器(decoder)。

编码器可将原始数据转换为较低影帧速率的格式,再由量化器将数据压缩到目标大小,最后,解码器通过神经网络对这些数据进行解码。解码器能将压缩后的音频重建为类似原始音频的波形。

研究人员表示,要在低码率(bit rates)下完美重建压缩信号是很困难的,所以团队利用鉴别器(Discriminator)提升生成样本(generated sample)的品质;鉴别器主要作用是负责比对原始样本和生成样本的差异。

经研究小组测试,EnCodec在各种带宽及音频品质上,都能即时编码及解码。

值得一提的是,虽然此前也有人尝试用神经网络压缩音频,但Meta是首个将此技术用于48kHz立体声的团队。

IT小熊综合报道,转载请注明出处。本站不对内容的真实性及完整性作任何承诺。

(4)
上一篇 2022年11月6日 13:03
下一篇 2022年11月6日 17:38

您可能也感兴趣: