最近,MoE(混合专家)模型备受瞩目。作为目前最先进的大模型技术,MoE可以在不增加推理成本的情况下,显著提升大模型的性能。例如,经过MoE技术的加持,GPT-4相对于GPT-3.5带来了革命性的用户体验。普通用户如果想要体验MoE的神奇魅力,必须每个月支付20美元的账号费用。那么,有没有免费的MoE让人们使用呢?有!昆仑万维最近发布了最新的天工2.0大模型,这是一个超级无门槛、人人免费玩的MoE大模型。天工2.0大模型基于千亿参数规模,并采用了和GPT-4相同的MoE混合专家结构。它具备强大的多模态能力,支持最长100K的上下文窗口,并且在处理复杂任务时具有更强的能力,响应速度也更快。搭载了天工2.0大模型的新版天工AI智能助手APP,现在可以在手机应用商店免费下载使用。因此,天工AI智能助手成为国内首个搭载MoE架构并面向全体用户免费开放的AI应用。让我们先来看看它的效果:只需要上传Excel表格,就可以一键分析数据并制作图表。当女朋友生气时,它还可以帮助你想出应对的话术,并提醒你注意事项。它甚至还能分析面相!AI的技能点增加了……天工AI智能助手采用了和GPT-4相同的架构进行升级,这主要得益于最新升级的天工2.0大模型。天工2.0大模型采用了MoE(混合专家)架构,这是GPT-4的同款架构,也是GPT-4性能提升的关键因素。MoE是一个并行的前馈神经网络,由门控模型/路由器(Gating Model/Router)和一组专家模型(Experts Models)构成。当数据输入门控模型/路由器时,系统会根据任务类型将每个token分配给一个或多个专家模型,使得每个专家模型可以专注于处理该部分数据,从而提升整个模型的性能。业界猜测,GPT-4可能包含1.76万亿个参数,其中包括16个专家模型,每个模型大约有1110亿个参数。这些专家模型可能包括Python专家、高级图像解析专家、事实核查专家、安全和道德专家、情绪分析专家等。精确的专家模型选择和分工机制使得大模型的理解能力、灵活性、准确性和安全性都得到了显著提升,因此,MoE成为了近期最热门的大模型趋势,国内外的大模型研究者都纷纷跟进。天工最新升级的2.0大模型也采用了MoE架构。其主要提升有三个方面:在应对复杂任务方面,天工2.0集成了多个专家模型,这些模型能够针对不同的数据分布和构建模式进行建模,提升大模型在各个细分领域的专业能力,然后进一步整合各个专家模型的输出结果,从而显著提升复杂任务和多模态任务的表现。同时,由于MoE架构的稀疏性特点,模型只需在回答问题时激活相应部分的网络,相比于同等参数规模的密集模型,计算效率更高。天工2.0展示了高稀疏性特征,使其能够更快地响应用户。在灵活性方面,稀疏化模型使得天工2.0能够在不增加计算量的情况下显著扩展模型规模,从而获得更强的性能。通过增加专家模型的数量和调整其权重分配,天工2.0可以极大地丰富模型的可扩展性。除了最新发布的千亿级天工2.0模型之外,天工在过去的半年多时间里还推出了百亿级的开源大模型天工Skywork-13B、AIAgent开发平台天工SkyAgents、多模态大语言模型天工Skywork-MM等。这些模型的能力现在都体现在最新版的天工AI智能助手上。天工AI智能助手新增了图文对话能力,能够更好地理解视觉素材,实现图文对话和图文创作等任务,并提升图像生成的质量。同时,它还能够生成图文并茂的回答内容。在去年9月,天工推出了多模态大模型Sky-MMv1,它由一个视觉编码器、一个可学习采样器模块和一个经过LoRA调优的大语言模型组成。通过自研的MentalNotes技术,模型模拟人类的认知过程,显著降低了幻觉问题,并增强了中文指令追随能力和中文相关场景的识别能力,减轻了文化偏见对于多模态理解的影响。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...