最近,Meta在文本生成音频(或音乐)这个AIGC赛道上有了新的研究成果,并且将其开源。在最近的本文《MaskedAudioGenerationusingaSingleNon-AutoregressiveTransformer》中,MetaFAIR团队、Kyutai和希伯来大学推出了一种名为MAGNeT的模型。这个模型使用了一种掩码生成序列建模方法,可以直接在多个音频tokens流上运行。与以往的工作相比,MAGNeT是由单阶段、非自回归transformer生成音频。
在训练期间,研究者预测了从掩码调度器获得的掩码token的范围;在模型推理阶段,他们通过几个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,研究者提出了一种新颖的重评分方法,该方法使用了外部预训练模型对来自MAGNeT的预测进行重评分和排序,然后用于后续的解码步骤。研究者还探索了MAGNeT的混合版本,将自回归和非自回归模型融合在一起,以自回归的方式生成前几秒的音频,并同时对剩余序列进行并行解码。
从生成的结果来看,MAGNeT在文本到音频和文本到音乐任务上取得了非常好的效果,音频的质量媲美了自回归基线模型,并且速度快了7倍。您可以点击这里听一下生成的音乐效果。
在本文中,研究者详细介绍了MAGNeT的原理和建模策略。MAGNeT是一个非自回归的音频生成掩码语言模型,以条件语义表示为条件,在从EnCodec中获得的几个离散音频token流上运行。在建模策略方面,研究者进行了包括掩码策略、受限上下文、采样机制和模型重评分等几个核心建模修改。
首先是掩码策略,研究者评估了不同跨度长度(从20ms到200ms),并发现60ms的跨度长度提供了最佳的整体性能。他们从调度器中采样了掩码率γ(i),并相应地计算了进行掩码的平均跨度量。为了计算效率,研究者还使用了非重叠跨度。
接下来是受限上下文。研究者使用了EnCodec,并限制了码本的上下文。音频编码器由多层卷积网络和最后的LSTM块组成。对EnCodec进行感受野的分析结果表明,卷积网络的感受野约为160ms,而包含LSTM块的有效感受野约为180ms。研究者使用了随时间推移的平移脉冲函数来测量序列中间编码向量的幅度,从而对模型的感受野进行了实证评估。
最后是模态推理,包括采样和无分类器指导退火。采样使用了均匀采样,从先前一组掩码跨度中选择跨度。在实践中,研究者使用了第i次迭代时的模型置信度作为评分函数,对所有可能的跨度进行排序,并相应地选择最不可能进行掩码的跨度。对于token预测,研究者选择使用无分类器指导来完成。在训练期间,他们有条件和无条件地优化模型;在推理期间,他们从获得自条件和无条件概率的线性组合的分布中进行采样。
在实验环节,研究者对MAGNeT在文本到音乐生成和文本到音频生成任务上进行了评估。他们使用了与Copetetal.(2023)相同的音乐生成训练数据,以及与Kreuketal.(2022a)相同的音频生成训练数据。评估结果表明,MAGNeT在文本到音乐生成任务上与其他基线方法相比表现出色,生成速度快,延迟低。这表明MAGNeT在需要低延迟预处理的交互式应用程序中有很大的潜力。
MAGNeT是一种有效的非自回归音频生成模型,在生成音频和音乐任务上取得了非常好的效果。该模型的开源将有助于进一步的研究和应用。