首页 > 快讯 > 谷歌推出新的 FACTS 测试标准：展示所有顶级 AI 模型在“事实检测”中的准确率均未达到70%

谷歌推出新的 FACTS 测试标准：展示所有顶级 AI 模型在“事实检测”中的准确率均未达到70%

发布时间：2025-12-11 10:50:02 | 责任编辑：吴昊 | 浏览量：38 次

谷歌的 FACTS （Factual Consistency and Truthfulness Score）团队与数据科学平台 Kaggle 于今日联合发布了 FACTS 基准测试套件。这是一个旨在衡量生成式人工智能模型在企业任务中事实性（Factuality）和真实性的综合评估框架。
此举弥补了现有基准测试的重大缺陷——即只关注问题解决能力，而非输出信息与真实世界数据的客观一致性，特别是当信息嵌入在图像或图表中时。对于法律、金融、医疗等对准确性要求极高的行业而言，FACTS 建立了一个关键的标准化衡量体系。
FACTS 的初步结果向业界发出了明确信号:尽管模型越来越智能，但它们远非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有参测模型，在所有问题上的综合准确率均未能超过 70%。
正如 FACTS 团队的新闻稿所指出的，这意味着未来仍有巨大的提升空间。对于技术领导者而言，目前的行业信息是:“信任但要核实” 的时代远未结束。
FACTS 测试套件超越了简单的问答，由四个旨在模拟真实生产环境中的故障模式的子基准测试构成:
参数基准测试（内部知识）: 衡量模型仅依赖训练数据（内部记忆）回答问题的准确性。
搜索基准测试（工具使用）: 评估模型使用网络搜索工具检索和综合实时信息的能力（RAG 能力）。
多模态基准测试（视觉）: 衡量模型准确解释图表、示意图和图像，同时避免“幻觉”的能力。
Grounding Benchmark v2（上下文）: 评估模型严格遵循所提供的源文本（上下文）的能力。
为了防止模型“污染”，谷歌已向公众发布了3，513个示例，而 Kaggle 则负责维护防止训练的私有数据集。
初始排行榜显示，Gemini3Pro 以68.8% 的综合 FACTS 得分领先，但细分数据显示了模型在不同任务上的真实差距:
对构建 RAG（检索增强生成）系统的开发人员而言，数据验证了当前的企业架构标准:不要依赖模型的内部存储器来获取关键信息。
数据显示，模型的**“查找”能力（搜索）** 远远优于其**“认知”能力 (参数化)。例如，Gemini3Pro 在搜索任务中得分高达83.8%，而在参数化任务中仅获得76.4%。FACTS 结果强烈建议，对于内部知识机器人，连接搜索工具或向量数据库是唯一**能将准确率提升到可接受生产水平的方法。
对于产品经理而言，最令人担忧的是多模态任务的低分。该项指标普遍偏低，即使是表现最好的 Gemini2.5Pro，准确率也仅为46.9%。由于任务涉及阅读图表、解读示意图，这表明多模态人工智能尚未准备好进行无监督数据提取。
如果产品路线图依赖 AI 自动从发票或财务图表中抓取数据而无需人工审核，那么系统将很可能引入高达三分之一的严重错误率。
FACTS 基准测试很可能成为企业级 AI 模型采购领域的新标准。技术负责人应根据用例匹配的具体子基准测试进行评估:
客户支持机器人: 关注合规性评分（Gemini2.5Pro 在此项得分74.2%，高于 Gemini3Pro 的69.0%）。
研究助手: 优先考虑搜索评分。
图像分析工具: 务必极其谨慎，并假定原始模型在约三分之一的情况下可能会出错。

这是一篇关于谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Google 新推托管 MCP 服务器：一键连接 BigQuery 和 Maps，Agent 使用无需配置

下一篇：阿里揭晓全新Qwen3-TTS语音模型，提供49种独特音色满足你的语音需求！

谷歌推出新的 FACTS 测试标准：展示所有顶级 AI 模型在“事实检测”中的准确率均未达到70%

最新Ai信息

最新Ai工具

热门AI推荐