Kimi-Researcher:月之暗面揭幕首个独立智能实体
发布时间:2025-06-23 12:04:32 | 责任编辑:张毅 | 浏览量:9 次
月之暗面(Moonshot AI)今日推出其备受期待的 Kimi 研究功能,正式加入日益激烈的 AI 智能体(Agent)竞争。据称,该功能在多项基准测试中表现出色,尤其在名为“人类终极考验”(Humanity's Last Exam,HLE)的测试中,其性能超越了谷歌和 OpenAI 的同类产品,一举登顶。
Kimi 研究功能的核心是 Kimi-Researcher,这是一款擅长多轮搜索与推理的自主智能体。根据官方数据,在执行每个任务时,Kimi-Researcher 平均会进行23个推理步骤,并浏览 超过200个网址,展现出强大的信息处理和分析能力。
Kimi-Researcher 基于 Kimi k-系列模型的内部版本构建,并完全通过 端到端的智能体强化学习(RL) 进行训练。在“人类终极考验”(HLE)这项测试中,它取得了26.9% 的 Pass@1得分率,达到了业界顶尖水平;其 Pass@4准确率更是高达40.17%。
值得注意的是,Kimi-Researcher 的 HLE 初始得分仅为8.6%,最终能达到26.9% 的高分,几乎完全得益于端到端的强化学习训练。月之暗面表示,这有力地证明了端到端智能体强化学习可以极大地推动智能体智能水平的提升。
此外,Kimi-Researcher 在多个复杂且具挑战性的真实世界基准测试中也表现出色。例如,在 xbench 测试(一套全新的、动态的、与专业需求对齐的测试套件)的 xbench-DeepSearch 项目上,Kimi-Researcher 取得了69% 的 Pass@1(4次运行平均值),其表现优于配备了搜索工具的 o3等模型。在针对多轮搜索推理(如 FRAMES、Seal-0)和事实性信息问答(如 SimpleQA)的基准测试中,Kimi-Researcher 同样表现出色。
月之暗面宣布,Kimi-Researcher 将于今日起逐步向用户开放,现在用户可以访问 kimi.com 申请内测。更令人振奋的是,未来几个月内,月之暗面将 开源 Kimi-Researcher 背后的基础预训练模型以及经过强化学习训练后的模型,这将为 AI 社区的发展带来重要贡献。
GitHub:https://moonshotai.github.io/Kimi-Researcher/
2025年6月20日晚间,月之暗面(Moonshot AI)正式推出其首款Agent产品——Kimi-Researcher(深度研究),并已启动小范围灰度测试。该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。
Kimi-Researcher是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不同,它采用零结构设计,无需复杂提示词或预设流程,完全依靠自主决策能力在动态环境中运行。例如,它能自行判断信息冲突时的权衡策略、任务节点的切换时机,以及中间信息的取舍标准,其核心驱动力始终是任务的实际解决效果。
作为一款深度研究模型,Kimi-Researcher整合了多源数据,并支持每条引用的直接追溯,确保研究严谨性,有效减少幻觉问题。月之暗面表示,未来将逐步开源Kimi-Researcher的基础预训练模型及强化学习优化版本,以推动Agent强化学习领域的探索与发展。
此外,Kimi-Researcher在“人类终极考验”(Humanity's Last Exam)测试中取得了26.9%的Pass@1得分率,达到了业界顶尖水平,其Pass@4准确率也高达40.17%。在xbench测试的DeepSearch项目中,Kimi-Researcher取得了69%的pass@1(4次运行平均值),表现优于配备了搜索工具的o3等模型。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。