首页 > 快讯 > 斯坦福最新评估显示:DeepSeek R1医疗AI脱颖而出,超越Google与OpenAI获高分

斯坦福最新评估显示:DeepSeek R1医疗AI脱颖而出,超越Google与OpenAI获高分

发布时间:2025-06-04 12:09:52 | 责任编辑:吴昊 | 浏览量:18 次

近日,斯坦福大学发布了一项有关临床医疗 AI 模型的全面评测,DeepSeek R1以66% 的胜率和0.75的宏观平均分,在九个前沿大模型中脱颖而出,成为冠军。这一评测的亮点在于,它不仅关注传统医疗执照考试题,更深入到临床医生的日常工作场景,给出了更切实的评估。
评测团队构建了一个名为 MedHELM 的综合评估框架,包含35个基准测试,覆盖22个医疗任务子类别。这个框架的设计经过了29名来自14个医学专科的执业医生验证,确保了其合理性与实用性。最终,评测结果揭示了 DeepSeek R1的优越性能,紧随其后的是 o3-mini 和 Claude3.7Sonnet。
具体而言,DeepSeek R1在各项基准测试中表现稳健,胜率标准差仅为0.10,表明其在不同测试中的稳定性。而 o3-mini 则在临床决策支持类别的基准测试中表现突出,以64% 的胜率和0.77的最高宏观平均分位居第二。其他模型如 Claude3.5和3.7Sonnet 分别以63% 和64% 的胜率紧随其后。
值得一提的是,此次评测还创新性地采用了大语言模型评审团(LLM-jury)方法进行结果评估,结果显示该方法与临床医生的评分高度一致,证明了其有效性。此外,研究团队还进行了成本效益分析,发现推理模型的使用成本相对较高,而非推理模型成本较低,适合不同需求的用户。
此次评测不仅为医疗 AI 的发展提供了宝贵的数据支持,也为未来的临床实践提供了更多的可能性和灵活性。

斯坦福最新评估显示:DeepSeek R1医疗AI脱颖而出,超越Google与OpenAI获高分

斯坦福大学最近发布了一项关于临床医疗AI模型的全面评测,DeepSeek R1在九个前沿大模型中脱颖而出,以66%的胜率和0.75的宏观平均分获得第一名。

评测框架

此次评测构建了一个名为MedHELM的综合评估框架,包含35个基准测试,覆盖22个医疗任务子类别,如临床决策支持、临床病例生成、医学研究辅助等。该框架经过29名来自14个医学专科的执业医生验证,确保了其合理性和实用性。

评测结果

  • DeepSeek R1:胜率为66%,宏观平均分为0.75,胜率标准差仅为0.10,表现出较高的稳定性和一致性。

  • o3-mini:胜率为64%,宏观平均分最高,达到0.77,尤其在临床决策支持类别中表现出色。

  • Claude 3.5和Claude 3.7 Sonnet:胜率分别为63%和64%,宏观平均分均为0.73。

评估方法

此次评测创新性地采用了大语言模型评审团(LLM-jury)方法进行结果评估,与临床医生的评分高度一致,一致性达到0.47的组内相关系数,优于传统的自动化评估指标。

成本效益分析

DeepSeek R1的使用成本为1806美元,属于较高的推理模型。而非推理模型如GPT-4o mini和Gemini 2.0 Flash成本较低,分别为805美元和815美元。

此次评测不仅为医疗AI的发展提供了宝贵的数据支持,也为未来的临床实践提供了更多的可能性和灵活性。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复