kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
发布时间:2025-04-14 10:45:33 | 责任编辑:字母汇 | 浏览量:23 次
《kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o》相关软件官网

备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型——Kimi-VL 与 Kimi-VL-Thinking。这两款模型以其轻量级的架构和卓越的多模态理解与推理能力,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。
与动辄拥有数百亿甚至千亿参数的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE(Mixture-of-Experts,混合专家)架构,其激活参数仅约 30亿。这意味着它们在运行和部署上更加高效,对计算资源的要求更低。然而,令人惊讶的是,即便在如此轻量级的架构下,这两款模型依然在多项基准测试中取得了令人瞩目的优异成绩,充分展现了其强大的推理能力。
Kimi-VL 系列模型在多模态推理和智能体能力方面表现突出。在考验模型多模态数学推理能力的 MathVision 基准测试中,Kimi-VL 取得了 36.8% 的成绩,这一表现足以媲美参数量远超其十倍的大型模型。
更令人印象深刻的是,在评估智能体操作能力的 ScreenSpot-Pro 任务上,Kimi-VL 的得分达到了 34.5%。这表明该模型在理解复杂用户界面并执行相应操作方面拥有出色的潜力,为未来开发更智能的人机交互应用奠定了基础。
得益于 MoonViT 架构,Kimi-VL 系列模型具备强大的图文识别与理解能力。在 OCRBench 基准测试中,其得分高达 867,充分证明了其在处理高分辨率图像和识别复杂文本方面的卓越性能。这一特性对于处理包含大量图像和文档信息的应用场景至关重要。
超长上下文理解能力是 Kimi-VL 系列模型的另一大亮点。它们支持高达 128K tokens 的上下文输入。这意味着模型可以同时处理更长的文档、视频等复杂长文本信息,并进行更深入的理解和分析.
在长文档理解测试 MMLongBench-Doc 中,Kimi-VL 取得了 35.1% 的成绩,而在长视频理解测试 LongVideoBench 上,更是获得了高达 64.5% 的高分。这使得 Kimi-VL 系列模型在文档问答、视频分析等需要处理大量上下文信息的场景中具备巨大的应用潜力.
Moonshot AI 强调,此次开源发布 Kimi-VL 和 Kimi-VL-Thinking 只是迈向通用多模态智能的一小步。他们希望通过开源的方式,吸引更多社区开发者参与到模型的应用开发中,共同探索 Kimi-VL 系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能性。
目前,开发者可以通过以下方式获取 Kimi-VL 系列模型的相关信息和代码:
根据最新的信息,Moonshot AI(月之暗面)开源的视觉语言模型Kimi-VL和Kimi-VL-Thinking在多项基准测试中确实展现了超越GPT-4o的性能,以下是具体表现:
多模态推理能力
- 数学推理任务:在MathVision基准测试中,Kimi-VL取得了36.8%的成绩,Kimi-VL-Thinking更是达到了71.3%,均超过了GPT-4o。
- 智能体操作任务:在ScreenSpot-Pro任务上,Kimi-VL得分达到了34.5%,表现出了出色的复杂界面理解和执行力。
- OCR任务:Kimi-VL在OCRBench基准测试中得分高达867,其原生分辨率视觉编码器MoonViT在InfoVQA任务上也取得了83.2%的成绩,展现了强大的图文识别与理解能力。
长上下文理解能力
- 长文档理解:Kimi-VL支持高达128K tokens的上下文输入,在MMLongBench-Doc测试中取得了35.1%的成绩,领先于同类模型。
- 长视频理解:在LongVideoBench测试中,Kimi-VL获得了64.5%的高分,紧随GPT-4o。
复杂推理能力
Kimi-VL-Thinking通过长链推理(CoT)监督微调和强化学习训练,展现了强大的长期推理能力。在MMMU任务上取得了61.7%的成绩,在MathVista任务上取得了68.7%的成绩,均超过了GPT-4o。
总体性能对比
在24项基准测试中,Kimi-VL在19项中超越了Qwen2.5-VL-7B,并且在多个关键领域超越了GPT-4o。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
上一篇: AI在自动化测试中的作用是什么?