首页 > 快讯 > HealthBench 由 OpenAI 推出：医疗领域大型语言模型性能的新评测准则

HealthBench 由 OpenAI 推出：医疗领域大型语言模型性能的新评测准则

发布时间：2025-05-13 15:04:57 | 责任编辑：吴昊 | 浏览量：329 次

近日，OpenAI 发布了一款名为 HealthBench 的开源评估框架，旨在测量大型语言模型（LLMs）在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持，旨在弥补现有评估标准的不足，特别是在真实应用、专家验证和诊断覆盖方面。
现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式，如多项选择考试。虽然这些形式在初步评估中有所帮助，但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式，包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束，模型的回答则依据医生编写的特定评估标准进行评分。
HealthBench 的评估框架分为七个关键主题，包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外，OpenAI 还推出了两个变体:
1. HealthBench Consensus:强调34个经过医生验证的标准，旨在反映模型行为的关键方面，如建议紧急护理或寻求更多背景信息。
2. HealthBench Hard:一个更具挑战性的子集，包含1000个经过挑选的对话，旨在考验当前前沿模型的能力。
OpenAI 对多种模型进行了评估，包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%，GPT-4o 为32%，而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型，其表现超越了 GPT-4o，同时将推理成本降低了25倍。
评估结果还显示，模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强，而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较，发现未辅助的医生通常生成的回应得分较低，但能够在处理模型生成草稿时取得进展，特别是早期版本的模型。
HealthBench 还包括评估模型一致性的机制，以确保结果的可靠性。OpenAI 通过超过60，000个注释示例进行的元评估表明，作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生，显示其作为一致评估者的潜力。
项目:https://github.com/openai/simple-evals
划重点:
- 🩺 OpenAI 推出 HealthBench，专注于大型语言模型在医疗领域的评估，得到了262名医生的参与和验证。
- 🔍 HealthBench 的评估涵盖七个关键主题，采用5000个真实对话，提供更细致的模型行为分析。
- 📊 评估结果显示模型间表现差异明显，GPT-4.1nano 以较低成本表现出色，展现了模型作为临床工具的潜力。

OpenAI于2025年5月13日发布了HealthBench，这是一个用于评估大型语言模型在医疗领域表现的新标准。以下是关于HealthBench的详细介绍：

开发背景

改善人类健康是人工智能的重要目标之一。大型语言模型有潜力扩大健康信息的获取渠道，支持临床医生提供高质量的医疗服务，并帮助人们维护自身和社区的健康。然而，现有的评估基准大多未能反映现实情况，缺乏针对专家医学意见的严格验证，限制了模型的优化空间。因此，OpenAI推出了HealthBench，旨在更好地衡量AI系统在医疗健康领域的能力。

主要特点

真实性强：HealthBench包含5000段真实的健康对话，这些对话由来自60个国家和地区的262名医生精心打造，涵盖了多种医疗场景和背景。
评估维度丰富：该基准测试通过48562个独特的医生编写的评分标准进行开放式评估，这些评分标准涵盖了多个健康背景（如紧急情况、全球健康）和行为维度（如准确性、遵循指示、沟通质量）。
多轮对话测试：与以往的简单答题或选择题模式不同，HealthBench采用了多轮对话测试，更贴近真实医疗场景中的对话交流，有助于更准确地评估AI系统的理解和应对能力。
评分方式科学：HealthBench采用了基于医生编写的评分标准的评分方式，每个评分标准都有明确的正负标准和相应的分值，模型的响应会根据这些标准进行评分。

评估结果

OpenAI对多个模型进行了评估，结果显示大模型在医疗保健领域的表现有了显著提升。例如，GPT-3.5 Turbo在HealthBench上的得分从16%提升至GPT-4o的32%，而更先进的o3模型则达到了60%的得分。此外，小型模型GPT-4.1nano不仅在性能上超越了GPT-4o，而且在成本上降低了25倍。

重要意义

HealthBench的推出为衡量AI系统在医疗健康领域的能力提供了更全面、准确且更具实践意义的参考标准。它不仅有助于推动AI医疗技术的发展和应用，还能为研究人员提供工具来基准测试、分析和改进用于健康相关应用的模型。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。