首页 > 快讯 > 身材虽小智慧大！微软推出Phi-4系列推理模型，性能媲美GPT-4o

身材虽小智慧大！微软推出Phi-4系列推理模型，性能媲美GPT-4o

发布时间：2025-05-02 12:30:36 | 责任编辑：张毅 | 浏览量：88 次

微软正积极扩展其Phi系列紧凑型语言模型，最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。这些模型旨在通过结构化推理和内部反思处理复杂的问答，同时保持轻量级特性，使其能够在包括移动设备在内的低端硬件上高效运行，延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。
Phi-4-reasoning 拥有140亿个参数，并借鉴OpenAI o3-mini的推理路径，通过监督微调进行训练。更高级的Phi-4-reasoning-plus在此基础上增加了强化学习机制，处理的token数量是基础模型的1.5倍，从而提升了准确率，但同时也增加了响应时间和计算成本。令人瞩目的是，尽管参数量仅为140亿，Phi-4推理模型的性能却能匹敌甚至超越参数量高达700亿的DeepSeek-R1-Distill-Llama等大型模型。在著名的美国数学奥林匹克预选赛AIME-2025基准测试中，Phi模型甚至超越了拥有6710亿参数的DeepSeek-R1。
微软表示，这些模型在编程、算法问题解决和规划任务方面也展现出卓越的性能。逻辑推理能力的提升也积极促进了更通用功能的改进，例如更好地遵循用户提示或基于长篇内容回答问题。研究人员指出，这些改进在通用基准测试中也产生了显著的迁移效应。在HumanEvalPlus（代码能力）和MMLUPro(语言理解)等基准测试中，Phi-4推理模型的表现已能与GPT-4o和o3-mini等更大规模的模型相媲美。
此次发布中最引人注目的是Phi-4-mini-reasoning，这款仅有38亿参数的小型模型专为教育工具和辅导系统等移动和嵌入式应用而设计。它接受了超过一百万道涵盖中学到研究生水平的数学题的训练，使其在数学推理方面表现出色。尽管体积小巧，Phi-4-mini-reasoning在多项评估中均超越了OpenThinker-7B和DeepSeek-R1-Distill-Qwen-7B等模型，在数学问题求解方面甚至能与OpenAI的o1-mini相媲美。
值得一提的是，微软已针对Windows系统对这些新模型进行了优化。Copilot+ PC上部署了一个名为Phi Silica的变体，该模型集成到Outlook等工具中，用于离线摘要和“点击执行”等上下文文本功能。Phi Silica直接在神经处理单元（NPU）上运行，从而实现了更快的响应速度和更低的功耗，为用户带来更流畅的本地化AI体验。
目前，Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 这三款模型均已在Azure AI Foundry和Hugging Face上开放权重，供开发者和研究人员使用。微软此举无疑将进一步推动紧凑型高性能语言模型的发展和应用，特别是在移动和资源受限的环境中。

微软于2025年4月30日发布了Phi-4系列推理模型，该系列模型包括Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。这些模型专为复杂推理任务设计，通过监督微调和高质量数据训练，展现了强大的推理能力。

模型性能表现

Phi-4-reasoning：拥有140亿参数，通过监督微调结合高质量推理数据训练，能够生成详细的推理链条。在数学推理和博士级科学问题测试中，其表现超越了OpenAI的o1-mini和DeepSeek-R1-Distill-Llama-70B等模型。
Phi-4-reasoning-plus：在此基础上通过强化学习进一步提升性能，tokens用量比标准版多1.5倍，支持更高精度。在AIME 2025测试中，Phi-4-reasoning-plus的表现甚至超过了6710亿参数的DeepSeek-R1满血模型。
Phi-4-mini-reasoning：仅有38亿参数，专为计算资源有限的环境设计，优化用于数学推理。在多项数学基准测试中，其表现超越了OpenThinker-7B和Llama-3.2-3B-instruct等更大模型。

与GPT-4o的对比

目前公开的测试结果显示，Phi-4系列模型在某些特定任务上表现优异，例如在数学推理和科学问题测试中，Phi-4-reasoning-plus在AIME 2025测试中的表现接近甚至超过了一些大型模型。然而，在更广泛的知识问答、多语言处理或特定编程基准测试中，Phi-4系列与GPT-4o相比仍存在一定差距。

总体而言，Phi-4系列模型以其“小身材”在特定复杂推理任务中展现了“大智慧”，具备挑战大型模型的潜力，但在更全面的性能表现上仍有提升空间。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。