微软Phi-3小模型科林详细测试报告

更新时间：2024-04-25 00:38:33作者：xtcz2

刚刚微软推出了 Phi-3「科林」第一时间带来详细测试

关于 Phi 系列模型

Phi 是由微软 AI 研究院开发的一个开源「小型语言模型」，可商用，卖点是小，需要的资源少。

今天发布的 Phi-3

新发布的 Phi-3，包括 Phi-3-Mini、Phi-3-Small 和 Phi-3-Medium。

其中，Phi-3-Mini 最小，只有 3.8B 的参数，但在重要的基准测试中的表现可与大型模型如 Mixtral 8x7B 和 GPT-3.5 媲美。

而更大的 Small 和 Medium ，在扩展的数据集的加持下就更牛逼了。

第 1 部分刚刚发布的 Phi-3

就在中午，在 arXiv 上悄咪咪的出现了一篇论文《Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone》，即：《Phi-3 技术报告：一个能跑在手机上的牛逼模型》，地址在这：https://arxiv.org/abs/2404.14219，宣示着 Phi-3 的到来。

模型概述

Phi-3-mini

3.8B 的参数，3.3T token 训练数据。在多个学术基准测试中，Phi-3-mini 性能接近或等同于市场上的大型模型，例如在 MMLU 测试中得分为 69%，在 MT-bench 测试中得分为 8.38 分。

Phi-3-small 和 Phi-3-medium

这两个是扩展模型：

- Small 是 7B 参数，4.8T token 训练数据，MMLU 75%，MT-bench 8.7 分。

- Medium 是 14B 参数，4.8T token 训练数据，MMLU 78%，MT-bench 8.9 分。

核心优势

小，特别小

小到在手机上就能跑：在 iPhone 上，每秒能出 16 token 的信息，相当于 12 个单词

本地跑，意味着很多

提供 GPT-3.5 水平的输出，还不需要联网，意味着很多东西：离线部署、隐私保护... 很多事情的玩法彻底变了

一些缺点

文化有限

脑袋小了，装的东西就少，在面对需要广泛事实知识支撑的任务（如 TriviaQA 测试）时尤为明显，表现为性能下降、幻觉提升。这种问题可以通过与搜索引擎集成来弥补，利用搜索引擎提供额外的信息支持，增强模型的知识库和应对能力。

只懂英文

Phi-3-mini 还目前只能处理英语。但 Small/Medium 已经包含了更多的多语言数据，相信以后会慢慢迭代的。

第 2 部分技术性能

从分数上看，仅仅是 Phi-3-mini 这一最小版本，就已经全面超越刚刚发布的Llama 3了。对此，我人肉整理了个 Excel...以及所有评比的 Excel

性能测试

基准测试

Phi-3-mini 在大规模多任务语言理解（MMLU）上的得分为69%，在 MT-bench 上的得分为8.38，与 Mixtral 8x7B 和 GPT-3.5 等大型模型具有竞争力。Phi-3-small（7B）和 phi-3-medium（14B）性能更强，在 MMLU 上分别达到 75% 和 78%，在 MT-bench 上分别为 8.7 和 8.9。各种比较，见下图：微软Phi-3小模型科林详细测试报告

架构与优化

Phi-3-mini 的架构

采用了为移动设备部署优化的 Transformer 解码器架构，默认 4k 上下文，可通过 LongRope 系统扩展至最多128K，以支持更长上下文的处理需求。Phi-3-mini 在结构设计上与 Llama-2 模型相似，使用了相同的分词器。这使得为 Llama-2 系列开发的各种软件包可以直接与 Phi-3-mini 兼容。

Small 和 Medium

这两个模型引入了分组查询注意力机制和块状稀疏注意力机制等先进配置，这些配置有助于在保持长期上下文检索性能的同时，最大限度地减少键值（KV）缓存的占用。

数据训练

使用高水平的网页数据和合成数据进行训练。分为两个阶段进行训练：第一阶段以网页源数据为主，旨在教授通用知识和语言理解能力；第二阶段结合更多严格筛选的网页数据和一些合成数据，培养模型的逻辑推理能力和特定技能。

低资源占用

对于 Phi-3-mini，内存占用约为1.8GB，能够在 iPhone 14 上配备 A16 Bionic 芯片的设备上运行，离线状态下 12+ token/s。

第 3 部分好玩的思路

Azure AI Platform 的副总裁 Eric Boyd，在接受 The Verge 采访的时候，提到里以下几个信息：

Phi-3 的训练方法受到儿童学习方式的启发，采用了“课程”式的训练训练灵感源自孩子们从睡前故事、简化的书籍和谈论更大主题的句子结构中学习由于缺乏足够的儿童读物，他们列出了一个超过 3000 个单词的清单，并要求一个LLM制作“儿童读物”来教导 Phi-3虽然 Phi-3 在编码和推理方面表现出色，但由于其训练数据和模型规模的限制，其知识广度不及像 GPT-4 这样的大型模型。Phi-3 虽然能够解决特定任务，但无法像更大的模型那样覆盖广泛的主题和内容公司发现 Phi-3 等小型模型更适用于定制应用，尤其是对于那些数据集较小的企业而言。这些小型模型不仅价格相对实惠，而且能够更好地适应有限的数据集，提供高性能的解决方案