豆包1.5多模态深层思维模型由字节推出:确保低延迟和深度思考
发布时间:2025-04-17 12:36:26 | 责任编辑:字母汇 | 浏览量:14 次
在4月17日的火山引擎 AI 创新巡展杭州站上,字节跳动旗下的火山引擎总裁谭待正式发布了最新的豆包1.5・深度思考模型。此次发布会吸引了众多行业人士的关注,谭待在会上分享了该模型在多个领域的优异表现。
据悉,豆包1.5模型在数学、编程、科学推理等专业领域,以及创意写作等任务中,都展现出了卓越的能力。这款新模型采用了 MoE(混合专家)架构,总参数达200亿,而激活参数仅为20亿,显著低于行业同类模型的参数规模,因而在推理成本上也具备了明显的优势。
谭待还详细介绍了豆包1.5深度思考模型的强大功能,包括结合视觉理解技术提供的多种应用。这些功能不仅可以根据照片分析地貌,还能在旅行时帮助用户点餐,甚至能辅助企业完成项目管理流程图。
此外,火山引擎还对豆包文生图模型进行了3.0版本的升级。此次升级带来了更美观的文字排版、更精细的图片生成能力以及2K 图片的直出能力。用户能够享受到更加丰富的视觉体验。
更值得注意的是,新模型的视频搜索能力得到了提升,用户在进行搜索时,模型能够在视频中迅速找到相关的答案。这一功能极大地提升了用户获取信息的便利性。
根据谭待的介绍,豆包大模型的使用量正以惊人的速度增长。截至2025年3月,豆包大模型日均 tokens 的使用量超过了12.7万亿,相比于发布初期,增长幅度超过了106倍。这一数据充分反映了豆包模型在市场上的受欢迎程度。
划重点:
📈 豆包1.5模型在多个专业领域和创意写作中表现出色,采用先进的 MoE 架构,参数配置优越。
🌍 新模型结合视觉理解技术,可分析照片、辅助旅行和项目管理,功能强大。
🎥 视频搜索能力显著增强,用户可快速获取视频中的相关信息,使用量持续增长。
字节跳动于2025年4月17日在火山引擎AI创新巡展杭州站上发布了豆包1.5深度思考模型,该模型具有以下特点:
多模态深度思考能力
-
视觉理解与推理:豆包1.5深度思考模型具备强大的视觉推理能力,能够像人类一样对看到的事物进行联想和思考。例如,它可以看懂复杂的企业项目管理流程图表,快速定位到关键信息,并严格按照流程图回答客户的问题;还能分析航拍图,结合地貌特征判断区域开发的可行性。
-
多模态融合:该模型将语言、视觉等多种模态的能力融合在一起,形成了覆盖语言、语音、视觉的全模态能力矩阵,能够更好地处理复杂的多模态任务。
低延迟
基于高效算法和高性能推理系统,豆包1.5深度思考模型的API服务在保障高并发的同时,延迟低至20毫秒。
高效的MoE架构
-
参数规模与激活参数:该模型采用先进的混合专家(MoE)架构,总参数达到200B,但在实际应用中仅激活20B参数。这种架构使得模型在推理成本上具有显著优势,与业界同类模型相比,参数规模降低了50%,推理成本也大幅降低。
-
性能表现:尽管激活参数较少,但豆包1.5深度思考模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出。例如,在数学推理AIME 2024测试中,其得分追平了OpenAI的o3-mini-high。
丰富的应用场景
-
专业领域:在数学、编程、科学推理等专业领域,豆包1.5深度思考模型能够高效处理复杂问题,展现出卓越的精准性。
-
创意写作与通用任务:该模型在创意写作、人文知识问答等通用任务上也展示出优秀的泛化能力,能胜任更广泛的使用场景。
-
企业应用:企业可以通过火山引擎API接入豆包1.5深度思考模型,将其灵活应用于创意文案生成、代码自动补全、多语言实时翻译、视频内容理解等场景。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。