揭示无法言说的成语 (揭示无法言说的编辑实力-中文创意写作能力超GPT)

数据

ChatGPT等通用大模型支持的功能成百上千,但对于普通日常用户来说,智能写作是最常见、也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字,但在大多数情况下,内容的创意程度和文风都经不起深究。特别是在创作领域,大模型常见的GPT文风更是让利用大模型进行创意写作看起来简单,但实际上却困难重重。

近日,波形智能的大模型团队发布了一款专精AI写作的专业大模型Weaver。通过写作领域专业预训练和一套创新性的数据生成和Alignment算法,Weaver在写作领域的各种任务上均取得了领先GPT-4和众多中文通用大模型的效果,尤其是在生成内容的创意性和文风质量上大幅领先,是一款更能写出人话的大模型。

ChatGPT等大模型在通用指令跟随和问答任务中效果出色,但将大模型应用于专业写作,尤其是需要创造性和个性化文风的创意写作领域,仍面临重重阻碍。其中最大的问题是大模型生成的内容风格过于平淡,或者说文风过于GPT,缺少创造性。为解决这个问题,波形智能的研究团队分析了为何GPT和其他通用大模型在创意写作类任务上表现不佳。

通用大模型的预训练过程中,为了使模型能在更多的数据中自监督学习,预训练的数据集中常常包含大量低质量内容,而由专业作家和内容创作者撰写的高质量文本只占预训练数据总量的0.1%左右。因此,经过预训练后的语言模型在建模了整个互联网的文本分布后,自然倾向于输出较为普通的内容。

在模型的对齐阶段,像OpenAI等公司在众包标注指令微调数据集时,标注员的教育水平和写作能力有限,并没有对标注者的写作和创作能力进行筛选。标注过程中的标准主要强调回答的无害性和有效性,而忽略了回答内容的创造性和语言风格。因此,经过指令微调的语言模型更容易生成平庸无趣的文字。

最后,在RLHF/DPO等alignment算法中,模型的训练数据和Reward Model均由经过指令微调后的模型生成或训练得到,因此在文风和创造性方面,RLHF/DPO的过程只能是矮子里拔将军,无法强化出真正擅长写作的大模型。

基于这些观察,波形智能的大模型团队提出了一个尤其适合创意写作领域的垂域专业模型训练pipeline,并基于该方案训练了Weaver,一个全球领先的创意写作大模型。该方案包括(持续)预训练、指令微调和对齐(RLHF/DPO)阶段。

在预训练阶段,团队进行了非常仔细的数据筛选和过滤,利用人工、规则和机器学习模型协同的方案,从开源预训练数据集中找到了高质量的小说、短故事、创意文案等文本内容,舍弃了大量低质量内容和代码/广告等数据,并下采样了一部分高质量新闻数据,同时结合了大规模的私有创作领域数据(小说、短故事等),构建了一个超过200B的预训练数据,可以让模型专注学习创作能力。

在指令微调阶段,波形智能的数据生成团队参考并改进了Meta提出的LongForm和HumpBack方案,构建了一个Instruction Backtranslation流水线。该流水线可以基于一段高质量内容,自动生成各种写作相关任务的指令和对应的高质量输出。团队总结并定义了十个任务类别,包括写内容、写大纲、扩写、润色、精简、风格迁移(仿写)、审校、头脑风暴、起标题和写作相关对话。对于某一类任务,例如润色,标注Prompt首先解释了任务的定义和几个输入输出样例,然后给出了一个从一段文本中自动挖掘润色任务指令/输入/输出的例子和标注的思考过程:首先在文本中找到一段写得很好的句子,假设这句话是经过一次润色的结果,然后猜测在润色之前这句话会是什么样子,最后分析润色前后的变化,推理出润色的指令。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...