首页 > 快讯 > 升级版“书生・万象 3.0”多模态大模型由上海人工智能实验室发布

升级版“书生・万象 3.0”多模态大模型由上海人工智能实验室发布

发布时间：2025-04-17 14:24:19 | 责任编辑：字母汇 | 浏览量：304 次

在人工智能迅速发展的今天，上海人工智能实验室再次引领潮流，推出了全新的多模态大模型 “书生・万象3.0”。这一升级版本不仅在技术上进行了全面提升，还在多模态预训练和后训练方法的加持下，展现出了更强大的基础能力和应用潜力。
“书生・万象3.0” 具备同时处理文本和多种多模态输入的能力，这使得它在多个应用场景中都能表现出色。例如，在 GUI 智能体、建筑图纸理解和空间推理等方面，该模型的表现都相当领先。这样的功能无疑为设计师、工程师以及各种需要视觉与文本结合的工作带来了新的机遇。
在实际测试中，“书生・万象3.0” 的表现相较于前版本有了明显的进步。这不仅体现在性能指标的提升上，也体现在用户体验的优化中。模型的响应速度更快，理解能力更强，能够更好地满足用户的需求。
此次开源不仅展示了上海人工智能实验室的技术实力，也为广大的开发者和研究人员提供了一个全新的平台。开源的举措鼓励了更多的创新和应用，使得这个大模型的潜力能够被充分挖掘和利用。未来，我们可以期待更多有趣的应用场景，以及来自社区的优秀项目。
随着 AI 技术的不断进步，“书生・万象3.0” 将不仅仅是一款工具，更将成为推动行业发展的重要助力。对于关注人工智能和相关领域的从业者来说，紧跟这股技术潮流，无疑是提升竞争力的明智选择。

上海人工智能实验室于2025年4月16日宣布升级并开源了通用多模态大模型“书生・万象3.0”（InternVL3）。以下是该模型的主要特点和优势：

技术创新

原生多模态预训练方法：与传统先优化大语言模型再添加视觉能力的方法不同，“书生・万象3.0”在预训练阶段将文本数据与多模态数据无缝结合，让模型能够同时学习语言和视觉。
性能提升：在专家级基准测试和多模态性能全面测试中，该模型的10亿至780亿参数的全量级版本在开源模型中性能均位列第一。

多模态能力

通用多模态任务：能够同时处理文本和多模态输入，适用于多种应用场景。
专项能力增强：大幅提升了图形用户界面（GUI）智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。例如，它可以作为GUI智能体操作电脑或手机上的专业软件。

开源与应用潜力

开源策略：该模型的开源为开发者和研究人员提供了全新的平台，鼓励更多创新和应用。
广泛应用前景：在教育、医疗、建筑设计、城市规划等领域，“书生・万象3.0”能够发挥重要作用，例如辅助个性化教学、提供医疗诊断建议、分析建筑图纸等。

“书生・万象3.0”的推出标志着人工智能多模态技术的又一重大进步，其开源策略也将进一步推动相关领域的技术创新和应用开发。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。