首页 > 快讯 > 揭秘 Kimi-2506：月背开源项目迎来视觉感知力的显著增强，展现多模态智能的全新面貌

揭秘 Kimi-2506：月背开源项目迎来视觉感知力的显著增强，展现多模态智能的全新面貌

发布时间：2025-06-23 09:54:41 | 责任编辑：吴昊 | 浏览量：146 次

近日，国内知名大模型平台 “月之暗面” 正式发布了其开源的多模态模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。这一版本的发布标志着智能体和视觉理解技术的重大进步。
Kimi-2506的开源地址为 [此处插入链接]，而在线演示可在 [此处插入链接] 进行体验。在性能方面，Kimi-2506展现出了更为出色的智能性和节省 token 的能力。在多模态推理的基准测试中，该模型在 MathVision 上取得了56.9的分数，比之前提升了20.1;在 MathVista 上达到了80.1，提升幅度为8.4。其他如 MMMU-Pro 和 MMMU 的得分也有所上升，整体思考长度平均减少了20%，进一步提升了推理效率。
在视觉理解方面，Kimi-2506的能力显著增强，与之前版本相比，其在常规视觉感知任务上的表现也更为优越。例如，在 MMBench-EN-v1.1和 MMStar 的得分分别为84.4和70.4，显示出更全面的视觉理解实力。此外，Kimi-2506支持更高分辨率的图像处理，单张图像的总像素达到320万，相较前一版本提升了四倍。这使得模型在高分辨率感知任务中也取得了可喜的进展。
在应用领域，Kimi-2506在图像理解、图表推理、数学计算、OS 智能体接地、长 PDF 理解和视频分析等多个方面展现了出色的表现。它能够准确识别猫的品种、分析图表中的语义标签、解决数字填空题，并能有效处理长文档的内容。模型还能够将视频拆分为多个场景并提供详细描述。
Kimi-VL-A3B-Thinking 模型由三个主要部分组成:MoonViT 视觉编码器、MLP 投影器和语言模型。MoonViT 能够直接处理不同分辨率的图像，提升了训练效率。MLP 投影器则起到了视觉特征与语言模型之间的桥梁作用，确保了两者的有效结合。而 Kimi 的语言模型则基于 Moonlight，经过大规模的多模态数据和纯文本数据的联合预训练，增强了模型的语言能力与多模态理解能力。
优化方面，Kimi-VL 还采用了增强版的 Muon 优化器，通过引入权重衰减和分布式实现，进一步提高了训练效果与内存使用效率，为模型的性能优化提供了强有力的支持。
开源地址:https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506
在线demo:https://huggingface.co/spaces/moonshotai/Kimi-VL-A3B-Thinking
划重点:
🌟 Kimi-2506版本的多模态模型在推理效率和视觉理解能力上均有显著提升。
🖼️ 新版本支持更高分辨率图像处理，单张图像总像素提升至320万。
🧠 模型在多个应用领域表现出色，涵盖图像理解、数学计算和视频分析等功能。

月之暗面于2025年6月开源了最新多模态模型 Kimi-VL-A3B-Thinking-2506（简称Kimi-2506），在视觉理解、多模态推理及智能体能力方面实现重大突破。以下是核心升级点及性能表现：

1. 视觉理解能力显著提升

高分辨率支持：

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。