xAI推出Grok 4.20,降低幻觉率,引领行业品质革命而非性能竞争
发布时间:2026-03-13 14:30:59 | 责任编辑:张毅 | 浏览量:1 次
在 AI 巨头们疯狂堆料、追逐跑分巅峰的当下,马斯克旗下的 xAI 却另辟蹊径,试图解决 AI 领域最令人头疼的“一本正经胡说八道”问题。今日,xAI 正式发布了 Grok4.20Beta。尽管在绝对智力跑分上它仍与顶级梯队保持距离,但在“诚实度”这一关键指标上,它却刷新了行业纪录。
根据 Artificial Analysis 的最新评测,Grok4.20在推理模式下的智力指数分数为48,虽然落后于和(两者均为57),但其在事实可靠性上的表现极其惊人:
最低幻觉率:在 AA Omniscience 测试中,Grok4.20达到了 78% 的“非幻觉率”,创下历史新高。
知之为知之:该模型在面对无法回答的问题时,不再倾向于编造虚假事实,而是能更准确地承认“我不知道”。这种“诚实”对于严谨的办公和研究场景至关重要。
为了满足不同层级的需求,xAI 此次推出了三种 API 变体:
推理模式(Reasoning):牺牲速度换取深度逻辑思考,是此次打破幻觉记录的核心。
标准模式(Non-reasoning):侧重于快速响应与常规交互。
多智能体模式(Multi-agent):支持多个 AI 实例协同处理复杂任务。
除了性能上的独特性,Grok4.20在商业逻辑上也极具攻击性:
海量上下文:支持高达 200万 token 的上下文窗口,能够一次性吞下整本书或海量代码库。
价格优势:其定价定在每百万 token2至6美元之间,不仅比前代 Grok4更便宜,在目前的西方主流模型中也极具竞争力。
Grok4.20的发布反映出 xAI 战略的转变——不再执着于在通往 AGI 的总分跑道上死磕,而是精准切入“企业级可靠性”这一痛点。正如测评机构所言,如果说其他模型是在努力成为“全知全能的先知”,那么 Grok4.20则在努力成为一个“绝不撒谎的助手”。
对于那些对数据准确性有极高要求的用户来说,Grok4.20或将成为除 OpenAI 和谷歌之外的第三个重量级选项。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
