谷歌推出新的 FACTS 测试标准:展示所有顶级 AI 模型在“事实检测”中的准确率均未达到70%
发布时间:2025-12-11 10:50:02 | 责任编辑:吴昊 | 浏览量:11 次
谷歌的 FACTS (Factual Consistency and Truthfulness Score) 团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。这是一个旨在衡量生成式人工智能模型在企业任务中事实性 (Factuality) 和真实性的综合评估框架。
此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力,而非输出信息与真实世界数据的客观一致性,特别是当信息嵌入在图像或图表中时。对于法律、金融、医疗等对准确性要求极高的行业而言,FACTS 建立了一个关键的标准化衡量体系。
FACTS 的初步结果向业界发出了明确信号:尽管模型越来越智能,但它们远非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有参测模型,在所有问题上的综合准确率均未能超过 70%。
正如 FACTS 团队的新闻稿所指出的,这意味着未来仍有巨大的提升空间。对于技术领导者而言,目前的行业信息是:“信任但要核实” 的时代远未结束。
FACTS 测试套件超越了简单的问答,由四个旨在模拟真实生产环境中的故障模式的子基准测试构成:
参数基准测试 (内部知识): 衡量模型仅依赖训练数据(内部记忆)回答问题的准确性。
搜索基准测试 (工具使用): 评估模型使用网络搜索工具检索和综合实时信息的能力(RAG 能力)。
多模态基准测试 (视觉): 衡量模型准确解释图表、示意图和图像,同时避免“幻觉”的能力。
Grounding Benchmark v2(上下文): 评估模型严格遵循所提供的源文本(上下文)的能力。
为了防止模型“污染”,谷歌已向公众发布了3,513个示例,而 Kaggle 则负责维护防止训练的私有数据集。
初始排行榜显示,Gemini3Pro 以68.8% 的综合 FACTS 得分领先,但细分数据显示了模型在不同任务上的真实差距:
对构建 RAG(检索增强生成)系统的开发人员而言,数据验证了当前的企业架构标准:不要依赖模型的内部存储器来获取关键信息。
数据显示,模型的**“查找”能力 (搜索)** 远远优于其**“认知”能力 (参数化)。例如,Gemini3Pro 在搜索任务中得分高达83.8%,而在参数化任务中仅获得76.4%。FACTS 结果强烈建议,对于内部知识机器人,连接搜索工具或向量数据库是唯一**能将准确率提升到可接受生产水平的方法。
对于产品经理而言,最令人担忧的是多模态任务的低分。该项指标普遍偏低,即使是表现最好的 Gemini2.5Pro,准确率也仅为46.9%。由于任务涉及阅读图表、解读示意图,这表明多模态人工智能尚未准备好进行无监督数据提取。
如果产品路线图依赖 AI 自动从发票或财务图表中抓取数据而无需人工审核,那么系统将很可能引入高达三分之一的严重错误率。
FACTS 基准测试很可能成为企业级 AI 模型采购领域的新标准。技术负责人应根据用例匹配的具体子基准测试进行评估:
客户支持机器人: 关注 合规性评分(Gemini2.5Pro 在此项得分74.2%,高于 Gemini3Pro 的69.0%)。
研究助手: 优先考虑 搜索评分。
图像分析工具: 务必极其谨慎,并假定原始模型在约三分之一的情况下可能会出错。
这是一篇关于谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
