2月1日,面壁智能发布了旗舰端侧模型MiniCPM,它以小博大的性能超越了Mistral-7B,并在MT-Bench等榜单上表现出色。
MiniCPM是一款能说会看、具备编程能力、拥有多模态能力的端侧模型。它不仅在性能上优秀,而且具有极低的成本,支持CPU推理。MiniCPM开源,并已在主流移动操作系统上进行了适配和测试。
1、端侧成本极致降低:Mistral的1/100,GPT-4的1/360
在终端硬件厂商加速产品AI化的趋势下,面壁智能认为,成本是大模型的隐形竞争力,比起size,我们更在意成本。以搭载了骁龙855芯片的OPPO手机为例,MiniCPM每秒能处理7.5Tokens,运行5年后报废,成本为600元,由此可得170万Tokens的推理成本仅1元——MiniCPM的推理成本仅Mistral的1/100,GPT-4的1/360。
据介绍,目前MiniCPM-2B在CPU(比GPU计算吞吐量低)上就能跑起来,相较于用GPU才能运行的大模型,能够降低推理成本。与此同时,即便将大小压缩75%,MiniCPM的性能也能做到基本无损耗。在性能上,MiniCPM-2B的中文知识能力、代码能力、数学能力已经超过Mistral-7B,而英文知识能力、逻辑能力和常识问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单MT-Bench上,MiniCPM-2B的表现超过了Llama2-70B-Chat。
2、手机芯片也可运行
面壁智能团队目前验证了MiniCPM使用手机芯片进行推理的可行性。据悉,进行Int4量化后,MiniCPM只占2GB空间,具备在端侧手机进行模型部署的条件。其中,对于Android、Harmony系统,使用开源框架MLC-LLM进行模型适配,支持文本模型、多模态模型;对于iOS,使用开源框架LLMFarm进行模型适配,仅支持文本模型。MiniCPM让手机上具备了无需联网、无需搜索也能识图解答的能力。此前尚未有工作尝试在手机上部署多模态大模型。我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性,能够正常输入输出,但也存在图片处理时间较长的问题,需要进一步优化。下图是测试的手机型号、系统和处理器信息。目前代码已开源:
3、多模态模型开源
据介绍面壁还开源了一个多模态模型OmniLMM,展现出了实时动作识别和精准理解等能力。在发布会上,面壁智能展示了Gemini发布时同款的石头剪刀布demo。用英文向AI提问:我正在玩什么游戏?大模型会回答:石头剪子布。
4、团队平均年龄28岁80%清北
据了解,面壁智能源于清华NLP实验室,是在国内较早开展大模型研究的团队之一,其在2018年发布了全球首个基于知识指导的预训练模型ERNIE。2022年8月开始公司化运作的面壁智能,去年经历了两轮融资,其推出的应用「面壁露卡」也拿到了网信办第二批大模型备案。目前,面壁智能已经组建起100余人的科研团队,其中80%人员来自清北,平均年龄28岁。面壁智能正在构建大模型+Agent的双引擎战略,希望能构建出更小规模、更快速度、更低成本的解决方案。面壁智能联合创始人还做了一个剧透:我们会在春节之后不断发布MiniCPM的新版本,性能还会进一步提升。我们要给大家春节的休息时间。