HealthBench 由 OpenAI 推出:医疗领域大型语言模型性能的新评测准则
发布时间:2025-05-13 15:04:57 | 责任编辑:吴昊 | 浏览量:57 次
近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。
现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。虽然这些形式在初步评估中有所帮助,但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式,包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束,模型的回答则依据医生编写的特定评估标准进行评分。
HealthBench 的评估框架分为七个关键主题,包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外,OpenAI 还推出了两个变体:
1. HealthBench Consensus:强调34个经过医生验证的标准,旨在反映模型行为的关键方面,如建议紧急护理或寻求更多背景信息。
2. HealthBench Hard:一个更具挑战性的子集,包含1000个经过挑选的对话,旨在考验当前前沿模型的能力。
OpenAI 对多种模型进行了评估,包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%,GPT-4o 为32%,而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型,其表现超越了 GPT-4o,同时将推理成本降低了25倍。
评估结果还显示,模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强,而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较,发现未辅助的医生通常生成的回应得分较低,但能够在处理模型生成草稿时取得进展,特别是早期版本的模型。
HealthBench 还包括评估模型一致性的机制,以确保结果的可靠性。OpenAI 通过超过60,000个注释示例进行的元评估表明,作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生,显示其作为一致评估者的潜力。
项目:https://github.com/openai/simple-evals
划重点:
- 🩺 OpenAI 推出 HealthBench,专注于大型语言模型在医疗领域的评估,得到了262名医生的参与和验证。
- 🔍 HealthBench 的评估涵盖七个关键主题,采用5000个真实对话,提供更细致的模型行为分析。
- 📊 评估结果显示模型间表现差异明显,GPT-4.1nano 以较低成本表现出色,展现了模型作为临床工具的潜力。
OpenAI于2025年5月13日发布了HealthBench,这是一个用于评估大型语言模型在医疗领域表现的新标准。以下是关于HealthBench的详细介绍:
开发背景
改善人类健康是人工智能的重要目标之一。大型语言模型有潜力扩大健康信息的获取渠道,支持临床医生提供高质量的医疗服务,并帮助人们维护自身和社区的健康。然而,现有的评估基准大多未能反映现实情况,缺乏针对专家医学意见的严格验证,限制了模型的优化空间。因此,OpenAI推出了HealthBench,旨在更好地衡量AI系统在医疗健康领域的能力。
主要特点
-
真实性强:HealthBench包含5000段真实的健康对话,这些对话由来自60个国家和地区的262名医生精心打造,涵盖了多种医疗场景和背景。
-
评估维度丰富:该基准测试通过48562个独特的医生编写的评分标准进行开放式评估,这些评分标准涵盖了多个健康背景(如紧急情况、全球健康)和行为维度(如准确性、遵循指示、沟通质量)。
-
多轮对话测试:与以往的简单答题或选择题模式不同,HealthBench采用了多轮对话测试,更贴近真实医疗场景中的对话交流,有助于更准确地评估AI系统的理解和应对能力。
-
评分方式科学:HealthBench采用了基于医生编写的评分标准的评分方式,每个评分标准都有明确的正负标准和相应的分值,模型的响应会根据这些标准进行评分。
评估结果
OpenAI对多个模型进行了评估,结果显示大模型在医疗保健领域的表现有了显著提升。例如,GPT-3.5 Turbo在HealthBench上的得分从16%提升至GPT-4o的32%,而更先进的o3模型则达到了60%的得分。此外,小型模型GPT-4.1nano不仅在性能上超越了GPT-4o,而且在成本上降低了25倍。
重要意义
HealthBench的推出为衡量AI系统在医疗健康领域的能力提供了更全面、准确且更具实践意义的参考标准。它不仅有助于推动AI医疗技术的发展和应用,还能为研究人员提供工具来基准测试、分析和改进用于健康相关应用的模型。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。