大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。
尽管基于人类反馈的强化学习(RLHF)提供了一种解决方案,但它面临复杂的训练架构、对参数的高敏感性,以及奖励模型在不同数据集上的不稳定性等多重挑战。这些因素导致RLHF技术实现难、奏效难、复现难。
为了克服这些挑战,北京大学团队提出了一种新的高效对齐范式——核心在于学习答案对齐与未对齐之间的修正残差借鉴残差学习和可扩展监督的思想,Aligner通过简单的复制和残差修正步骤简化了对齐过程,使用Seq2Seq模型学习隐式残差,以优化对齐效果。相较于RLHF需要训练多个模型的复杂性,Aligner仅通过在待对齐模型后附加一个额外模块即可实现对齐,且所需计算资源主要取决于对齐效果的期望,并非上游模型的规模。
实验表明,使用Aligner-7B能显著提高GPT-4的帮助性和安全性,分别增加了17.5%和26.9%。利用Aligner框架,作者通过弱模型(Aligner-13B)监督信号增强强模型(Llama-70B)性能,实现了weak-to-strong泛化,为超级对齐提供了实践方案。修正未对齐的回答要比生成对齐的回答容易。作为一种高效的对齐方法,Aligner具备以下优秀特性:作者展现了各个尺寸的Aligner(7B,13B,70B)在基于API的模型、开源模型(包括经过安全对齐和未经过安全对齐)均能提升性能表现。总体来说,随着模型变大,Aligner的性能逐步提升,并且修正时所能提供的信息密度逐渐增大,这也使得修正后的答案更加安全且具有帮助性。
作者从各种开源数据集中获取Query,包括StanfordAlpaca、ShareGPT、HH-RLHF以及其他用户共享对话。这些问题经历了重复模式去除和质量过滤的过程,用于后续的答案和更正的答案生成。未修正的回答则是使用各种开源模型生成的,如Alpaca-7B、Vicuna-(7B,13B,33B)、Llama2-(7B,13B)-Chat,andAlpaca2-(7B,13B)。作者使用GPT-4、Llama2-70B-Chat和人工标注来根据大语言模型的3H标准(帮助性、安全性、诚实性)来修正Q-A数据集中的答案。对于已符合标准的答案,保持原样。修改过程基于一系列定义明确的原则,从而为Seq2Seq模型的训练建立了约束条件,重点在于提升回答的帮助性和安全性。答案的修正前后分布变化明显,下图清晰展示了修改对数据集的影响:
基于上述过程,作者构建了新的修正数据集,其中表示用户的问题,是根据既定原则修正的答案。模型训练过程相对简单。作者训练一个由,使得原始答案重分布到对齐的答案。基于上游大语言模型的对齐答案生成过程为:其中第2项与Aligner参数无关,Aligner的训练目标可以推导为:下图动态地展示了Aligner的中间过程:
值得注意的是,Aligner在训练和推理阶段都不需要访问上游模型的参数。Aligner的推理过程只需要获取用户的问题和上游大语言模型生成的初始答案,然后生成更符合人类价值观的答案。修正现有答案而不是直接回答,这使得Aligner能够容易地与人类价值观对齐,从而显著降低了对模型能力的要求。与Aligner相反,SFT直接从Query语义空间创建到Answer语义空间的跨域映射,这个过程学习依赖于上游模型来推断和模拟语义空间中的各种上下文,这比学习修正信号要难得多。Aligner训练范式可以被认为是一种残差学习(残差修正)形式,作者在Aligner中创建「复制(copy)+修正(correct)」学习范式。因此,Aligner在本质上创建了从回答语义