首页 > 快讯 > 斯坦福最新评估显示：DeepSeek R1医疗AI脱颖而出，超越Google与OpenAI获高分

斯坦福最新评估显示：DeepSeek R1医疗AI脱颖而出，超越Google与OpenAI获高分

发布时间：2025-06-04 12:09:52 | 责任编辑：吴昊 | 浏览量：257 次

近日，斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测，DeepSeek R1以66% 的胜率和0.75的宏观平均分，在九个前沿大模型中脱颖而出，成为冠军。这一评测的亮点在于，它不仅关注传统医疗执照考试题，更深入到临床医生的日常工作场景，给出了更切实的评估。
评测团队构建了一个名为 MedHELM 的综合评估框架，包含35个基准测试，覆盖22个医疗任务子类别。这个框架的设计经过了29名来自14个医学专科的执业医生验证，确保了其合理性与实用性。最终，评测结果揭示了 DeepSeek R1的优越性能，紧随其后的是 o3-mini 和 Claude3.7Sonnet。
具体而言，DeepSeek R1在各项基准测试中表现稳健，胜率标准差仅为0.10，表明其在不同测试中的稳定性。而 o3-mini 则在临床决策支持类别的基准测试中表现突出，以64% 的胜率和0.77的最高宏观平均分位居第二。其他模型如 Claude3.5和3.7Sonnet 分别以63% 和64% 的胜率紧随其后。
值得一提的是，此次评测还创新性地采用了大语言模型评审团（LLM-jury）方法进行结果评估，结果显示该方法与临床医生的评分高度一致，证明了其有效性。此外，研究团队还进行了成本效益分析，发现推理模型的使用成本相对较高，而非推理模型成本较低，适合不同需求的用户。
此次评测不仅为医疗 AI 的发展提供了宝贵的数据支持，也为未来的临床实践提供了更多的可能性和灵活性。

斯坦福大学最近发布了一项关于临床医疗AI模型的全面评测，DeepSeek R1在九个前沿大模型中脱颖而出，以66%的胜率和0.75的宏观平均分获得第一名。

评测框架

此次评测构建了一个名为MedHELM的综合评估框架，包含35个基准测试，覆盖22个医疗任务子类别，如临床决策支持、临床病例生成、医学研究辅助等。该框架经过29名来自14个医学专科的执业医生验证，确保了其合理性和实用性。

评测结果

DeepSeek R1：胜率为66%，宏观平均分为0.75，胜率标准差仅为0.10，表现出较高的稳定性和一致性。
o3-mini：胜率为64%，宏观平均分最高，达到0.77，尤其在临床决策支持类别中表现出色。
Claude 3.5和Claude 3.7 Sonnet：胜率分别为63%和64%，宏观平均分均为0.73。

评估方法

此次评测创新性地采用了大语言模型评审团（LLM-jury）方法进行结果评估，与临床医生的评分高度一致，一致性达到0.47的组内相关系数，优于传统的自动化评估指标。

成本效益分析

DeepSeek R1的使用成本为1806美元，属于较高的推理模型。而非推理模型如GPT-4o mini和Gemini 2.0 Flash成本较低，分别为805美元和815美元。

此次评测不仅为医疗AI的发展提供了宝贵的数据支持，也为未来的临床实践提供了更多的可能性和灵活性。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。