首页 > 快讯 > 豆包1.5多模态深层思维模型由字节推出：确保低延迟和深度思考

豆包1.5多模态深层思维模型由字节推出：确保低延迟和深度思考

发布时间：2025-04-17 12:36:26 | 责任编辑：字母汇 | 浏览量：602 次

在4月17日的火山引擎 AI 创新巡展杭州站上，字节跳动旗下的火山引擎总裁谭待正式发布了最新的豆包1.5・深度思考模型。此次发布会吸引了众多行业人士的关注，谭待在会上分享了该模型在多个领域的优异表现。
据悉，豆包1.5模型在数学、编程、科学推理等专业领域，以及创意写作等任务中，都展现出了卓越的能力。这款新模型采用了 MoE（混合专家）架构，总参数达200亿，而激活参数仅为20亿，显著低于行业同类模型的参数规模，因而在推理成本上也具备了明显的优势。
谭待还详细介绍了豆包1.5深度思考模型的强大功能，包括结合视觉理解技术提供的多种应用。这些功能不仅可以根据照片分析地貌，还能在旅行时帮助用户点餐，甚至能辅助企业完成项目管理流程图。
此外，火山引擎还对豆包文生图模型进行了3.0版本的升级。此次升级带来了更美观的文字排版、更精细的图片生成能力以及2K 图片的直出能力。用户能够享受到更加丰富的视觉体验。
更值得注意的是，新模型的视频搜索能力得到了提升，用户在进行搜索时，模型能够在视频中迅速找到相关的答案。这一功能极大地提升了用户获取信息的便利性。
根据谭待的介绍，豆包大模型的使用量正以惊人的速度增长。截至2025年3月，豆包大模型日均 tokens 的使用量超过了12.7万亿，相比于发布初期，增长幅度超过了106倍。这一数据充分反映了豆包模型在市场上的受欢迎程度。
划重点:
📈 豆包1.5模型在多个专业领域和创意写作中表现出色，采用先进的 MoE 架构，参数配置优越。
🌍 新模型结合视觉理解技术，可分析照片、辅助旅行和项目管理，功能强大。
🎥 视频搜索能力显著增强，用户可快速获取视频中的相关信息，使用量持续增长。

字节跳动于2025年4月17日在火山引擎AI创新巡展杭州站上发布了豆包1.5深度思考模型，该模型具有以下特点：

多模态深度思考能力

视觉理解与推理：豆包1.5深度思考模型具备强大的视觉推理能力，能够像人类一样对看到的事物进行联想和思考。例如，它可以看懂复杂的企业项目管理流程图表，快速定位到关键信息，并严格按照流程图回答客户的问题；还能分析航拍图，结合地貌特征判断区域开发的可行性。
多模态融合：该模型将语言、视觉等多种模态的能力融合在一起，形成了覆盖语言、语音、视觉的全模态能力矩阵，能够更好地处理复杂的多模态任务。

低延迟

基于高效算法和高性能推理系统，豆包1.5深度思考模型的API服务在保障高并发的同时，延迟低至20毫秒。

高效的MoE架构

参数规模与激活参数：该模型采用先进的混合专家（MoE）架构，总参数达到200B，但在实际应用中仅激活20B参数。这种架构使得模型在推理成本上具有显著优势，与业界同类模型相比，参数规模降低了50%，推理成本也大幅降低。
性能表现：尽管激活参数较少，但豆包1.5深度思考模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出。例如，在数学推理AIME 2024测试中，其得分追平了OpenAI的o3-mini-high。

丰富的应用场景

专业领域：在数学、编程、科学推理等专业领域，豆包1.5深度思考模型能够高效处理复杂问题，展现出卓越的精准性。
创意写作与通用任务：该模型在创意写作、人文知识问答等通用任务上也展示出优秀的泛化能力，能胜任更广泛的使用场景。
企业应用：企业可以通过火山引擎API接入豆包1.5深度思考模型，将其灵活应用于创意文案生成、代码自动补全、多语言实时翻译、视频内容理解等场景。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。