最近,一种名为7B开源模型的数学模型被推出,其数学能力超过了千亿规模的GPT-4。这个模型名为DeepSeekMath,展现出了令人惊喜的表现。它在竞赛水平的MATH数据集上达到了51.7%的准确率,成为开源模型中第一个在该数据集上达到一半准确率的模型,甚至超过了早期和API版本的GPT-4。这一表现让整个开源社区为之震撼,StabilityAI的创始人EmadMostaque也表示研发团队让人印象深刻,而且潜力被低估了。
7B数学大模型DeepSeekMath在评估其数学能力时,研究团队使用了中英双语的数据集进行了测试。在没有使用任何外部工具的情况下,DeepSeekMath的表现超过了其他开源模型,包括70B的数学大模型MetaMATH。与其自家推出的67B通用大模型相比,DeepSeekMath的成绩也有了大幅提高。如果考虑闭源模型,DeepSeekMath在几个数据集上都超过了GeminiPro和GPT-3.5,在中文的CMATH上超过了GPT-4,在MATH上的表现也接近。
DeepSeekMath参数量只有7B,而GPT-4按泄露规格是一个千亿参数的庞然大物。即使允许使用辅助工具,DeepSeekMath在竞赛难度数据集上的表现仍然能再提高7个百分点。
那么,DeepSeekMath取得优异表现的背后采用了哪些技术呢?研究团队使用了代码模型DeepSeek-Coder-v1.5对DeepSeekMath进行初始化,以获得比通用模型更好的数学能力。因为研究团队发现,相比于通用数据训练,代码训练可以提升模型的数学能力。在Coder的基础上,研究团队还继续训练了5000亿token。
DeepSeekMath使用的训练数据是从CommonCrawl提取的120B高质量数学网页数据,经过四次迭代,研究团队收集了3500多万个数学网页,Token数量达到了1200亿。为了确保训练数据中不包含测试集的内容,研究团队进行了过滤。为了验证DeepSeekMath训练数据的质量,研究团队使用了MathPile等多个数据集进行了训练,结果显示DeepSeekMathCorpus在多个数学基准上效果明显领先。
在对齐阶段,研究团队构建了一个包含776K样本的中英文数学指导监督微调数据集。而在强化学习阶段,研究团队使用了一种名为基于组的相对策略优化的高效算法。这种算法使用了基于组的相对奖励估计来替代传统的价值函数,以减少训练过程中的计算和内存需求。同时,该算法通过迭代过程进行训练,以确保策略的不断改进。
创造了DeepSeekMath的深度求索团队是国内开源模型领域的领先选手。他们之前推出的DeepSeekMoE模型的7B版本以40%的计算量击败了相同规模的密集模型Llama2。DeepSeekMoE在代码和数学任务上的表现十分出色,并且资源消耗非常低。它在编程能力、跨文件代码补全以及解数学题等任务上超过了同等规模的开源标杆CodeLllama,也击败了GPT-3.5-Turbo,成为最接近GPT-4-Turbo的模型。