集体对抗游戏 (集体对战强大的GPT-三位特工)

集体对战强大的GPT

真·三个臭皮匠,顶个诸葛亮——基于开源小模型的三个Agent协作,比肩GPT-4的工具调用效果!话不多说,直接来看两个系统执行记录。

用户表示自己是一个音乐爱好者,想探索不同的音乐流派以及音乐家。于是指定模型使用Deezer和Shazam的API来搜寻一些音乐曲目以及相应艺术家信息。之后饰演三个不同的角色的Agent分工协作,在两步之内完成了任务。

更难一点的,不指定工具,让模型找一个最受欢迎的风景画教程视频以及上传该视频的频道详情。在这种情况下,模型通常会遇到工具状态变化,出现工具被下架或工具所需参数定义变化的问题。然而使用上述方法,模型在第0步试图使用video_for_simple_youtube_search来获取视频详细信息,但发现这个API已经被破坏,无法调用。因此饰演planner角色的Agent转换思路,告诉饰演caller角色的Agent需要尝试另外一个API,并最终通过尝试新的API发现了详细信息,解决了用户的任务。

这就是中山大学、阿里通义实验室联合提出的一种基于开源小模型的多模型协作Agent框架——α-UMi。α-UMi通过微调多个开源小模型,实现协同作战,在工具调用等数据集效果比肩GPT-4。相比于其他的基于闭源API框架,α-UMi的优势有以下几点:

  • 多模型协作框架α-UMi长啥样?
  • 基于大模型调用API、function和代码解释器的工具学习Agent,在工业界和学术界广受关注。大模型能够自主完成更复杂的任务,因此被视为大模型落地的一个重要方向。
  • 但大部分主流项目主要基于闭源ChatGPT、GPT-4大模型,在推理、步骤规划、调用请求生成和总结回复等能力上已经很强。相比之下,开源小模型由于容量和预训练能力的限制,单个模型无法在多个任务上获得和大模型相当的性能。
  • 为了解决这个问题,研究人员提出了α-UMi。α-UMi由三个小模型planner、caller和summarizer组成。其中planner模型是系统的核心大脑,负责在某个Agent执行步骤内激活caller或summarizer,并给予对应的推理指导。caller和summarizer分别负责接收planner的指导完成该步后续工作,caller负责生成与工具交互的指令,summarizer负责总结最终的回复反馈给用户。这三个模型都是基于开源小模型进行微调实现的。
  • 研究人员提出了全局-局部多阶段微调范式——GLPFT。在训练中,生成Rationale、Action和FinalAnswer三个任务可以相互促进,增强模型对于Agent任务的全局理解。模型容量和不同任务的数据配比等因素限制了单个模型在三个任务上同时达到最佳效果。通过多模型协作,可以解决这个问题。为了充分利用三个任务相互促进的优势,研究人员提出了全局-局部的多阶段训练方法,先使用预训练LLM在工具调用任务上微调,获得一个较好的单模型初始化,然后进行多模型微调,提升子任务性能。
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...