百川智能隆重上市 (百川智能隆重推出超越GPT的千亿参数中文模型)

百川智能隆重上市

追上ChatGPT水平

根据我观察,51CTO技术栈预计在今年内能够追上ChatGPT的水平。但是,要达到GPT-4或者GPT-5的水平,可能需要至少3年的时间,可能不会在2年内实现。去年4月,百川智能创始人王小川曾经对自己进入大模型赛道后的进度做出了这样的判断。

最近,百川智能发布了参数规模达到千亿的大语言模型Baichuan3。在多项权威评估如CMMLU、GAOKAO和AGI-Eval中,Baichuan3展现出了出色的能力,在中文任务上甚至超越了GPT-4。而在数学和代码评估中,如MATH、HumanEval和MBPP等方面,Baichuan3同样表现出色,在自然语言处理和代码生成领域展现了强大的实力。它在医疗任务的评估中,如MCMLE、MedExam和CMExam等对逻辑推理能力和专业性要求极高的任务中,中文效果也超过了GPT-4,成为表现最佳的中文医疗任务大模型。Baichuan3还在诗词创作方面突破了迭代式强化学习技术,在格式、韵律和表意等方面表现得非常出色,领先于其他大模型。我也尝试了一下测试,效果令人惊艳。

Baichuan3在多个英文评估中表现出色,接近甚至超过了GPT-4的水平。而在CMMLU、GAOKAO等多个中文评估榜单上,Baichuan3超越了GPT-4,展现了在中文任务上的优势。在MT-Bench、IFEval等对齐榜单的评估中,Baichuan3超过了GPT-3.5、Claude等大模型,处于行业领先水平。与传统的亿级和几百亿级参数模型训练不同,千亿级参数模型在训练过程中对高质量数据、训练稳定性和训练效率的要求都更高。为了更好地解决这些问题,百川智能采用了动态数据选择、重要度保持和异步CheckPoint存储等创新技术手段和方案,有效地提升了Baichuan3的各种能力。

在数据质量方面,传统的数据筛选方法依赖于人工定义,通过滤重筛选、质量打分、Textbook筛选等方法对数据进行筛选。百川智能认为数据的优化和采样应该是一个动态过程,应该随着模型训练过程本身的优化而进行,而不仅仅依靠人工先验进行数据的采样和筛选。为了全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大地提升了数据质量。

在训练稳定性方面,由于千亿级参数模型的参数量巨大,训练过程中常常出现梯度爆炸、损失跑飞、模型不收敛等问题。为了应对这些问题,百川智能提出了重要度保持(Salience-Consistency)的渐进式初始化方法,以保证模型训练初期的稳定性。他们还优化了模型训练过程的监控方案,在梯度、损失等指标上引入了参数有效秩的方法,以便更早地发现训练过程中的问题,大大加快了对训练问题的定位,确保了最终模型的收敛效果。为了确保在数千张GPU上高效且稳定地训练超千亿参数模型,百川智能还同步优化了模型的训练稳定性和训练框架,并采用了异步CheckPoint存储机制,可以无性能损失地提高存储频率,减少机器故障对训练任务的影响,使Baichuan3的稳定训练时间超过一个月,故障恢复时间不超过10分钟。

在训练效率方面,百川智能针对千亿参数模型的并行训练问题进行了一系列优化措施,如高度优化的RoPE和SwiGLU计算算子,实现了数据并行和序列并行中的参数通信与计算的重叠,从而有效降低了通信时间的比重。他们还引入了将激活值卸载至CPU的技术来解决流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新,Baichuan3的训练框架在性能方面相比业界主流框架提升超过30%。

2、医疗

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...