六种体量模型是什么 (六种体量模型开源-性能超越GPT3.5-Qwen1.5发布)

AI

通义千问团队最近发布了Qwen1.5版大模型,引起了AI社区的广泛关注。这个新版本包括了六个不同尺寸的模型,分别是0.5B、1.8B、4B、7B、14B和72B。其中最强大的版本性能超过了GPT3.5和Mistral-Medium,包括了Base模型和Chat模型,并且支持多语言。通义千问团队表示,相关技术已经上线到了他们的官网和App。除此之外,Qwen1.5的发布还有以下几个重点:

通义千问团队使用更先进的大模型作为评委,在MT-Bench和Alpaca-Eval这两个广泛使用的基准测试上对Qwen1.5进行了初步评估。评估结果显示,尽管在某些方面落后于GPT-4-Turbo,但Qwen1.5-72B-Chat这个最大版本在MT-Bench和Alpaca-Evalv2上表现出了可观的效果,性能超过了一些其他模型,包括Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct和TULU2DPO70B,与最近热门的新模型MistralMedium不相上下。通义千问团队还表示,虽然大模型的评分可能与回答的长度有关,但人类观察结果显示,Qwen1.5并没有因为产生过长的回答而影响评分。在AlpacaEval2.0上,Qwen1.5-Chat的平均长度为1618,与GPT-4的长度一致,比GPT-4-Turbo要短。

相较于之前的版本,Qwen1.5更新着重提升了Chat模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。在序列长度方面,所有的模型都支持32768个tokens的上下文长度范围。同时,预训练模型的质量也得到了关键优化,有望在微调过程中提供更好的体验。

通义千问团队在MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH等基准数据集上评估了Qwen1.5模型的基础能力。无论是哪个模型尺寸,Qwen1.5在这些基准测试中都表现出了强大的性能。尤其是最大的72B版本,在语言理解、推理和数学方面都展示了出色的能力。

最近,小型模型的构建成为了业界的一个热点。通义千问团队将模型参数小于70亿的Qwen1.5与社区中重要的小型模型进行了比较,并发现在参数规模低于70亿的范围内,Qwen1.5与业界领先的小型模型具有很强的竞争力。

通义千问团队还评估了Base模型在12种不同语言上的多语言能力。他们使用来自开源社区的公开数据集构建了包括考试、理解、翻译和数学在内的四个维度的评测集合。评估结果显示,Qwen1.5Base模型在这12种语言的各个维度上都表现出色,包括学科知识、语言理解、翻译和数学。

最后,在Chat模型的多语言能力方面,通义千问团队提升了千问模型对长序列理解的能力,全系列Qwen1.5模型都支持32Ktokens的上下文。他们在L-Eval基准上评估了Qwen1.5模型的性能,该基准评估了模型根据长上下文生成响应的能力。评估结果显示,即使是像Qwen1.5-7B-Chat这样规模较小的模型,也能表现出与GPT-3.5可比较的性能,而最大的模型Qwen1.5-72B-Chat仅略微落后于GPT4-32k。需要注意的是,以上结果只展示了Qwen1.5在32Ktokens长度下的效果,并不代表模型的最大长度只能支持32K。

通义千问团队的Qwen1.5版大模型在各个方面都表现出了强大的性能,包括性能超越一些已有的模型、与人类偏好的对齐程度提升、多语言能力增强等。团队表示,他们一直在努力构建一个卓越的模型,并不断提升开发者的使用体验。

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...