首页 > 快讯 > 百度文小言全面升级，推出多模型融合调度与新语音大模型

百度文小言全面升级，推出多模型融合调度与新语音大模型

发布时间：2025-03-31 16:55:46 | 责任编辑：字母汇 | 浏览量：278 次

在刚刚结束的百度 AI DAY 上，百度文小言正式宣布了品牌焕新和功能升级的消息。此次升级不仅包括全新的视觉形象，更重要的是引入了多模型融合调度技术，这将极大增强其语音识别和图片问答的能力。
文小言的多模型融合调度是本次升级的核心亮点。通过整合百度自研的文心 X1、文心4.5等模型，并引入了诸如 DeepSeek-R1和可灵等第三方优质模型，用户可以根据需求灵活选择使用最适合的模型。用户只需轻松点击 “自动模式”，系统就会智能选择最佳模型组合，显著提高响应速度与任务处理能力，真正实现了一键解决问题的理想体验
在语音能力方面，全新升级的语音大模型支持多种方言对话、复杂知识问答，甚至可以随时打断对话。这意味着用户不仅可以通过语音获取知识回答，还可以进行趣味角色扮演，交互体验更为丰富。百度语音首席架构师贾磊指出，这款模型是行业首个基于全新互相关注意力（Cross-Attention）技术的端到端语音语言大模型，相比行业平均水平，其调用成本降低了50%-90%。同时，该模型的推理响应速度极快，等待时间缩短至1秒左右，让用户的交互体验更加流畅。
此外，文小言还推出了创新的图片问答功能，用户可以通过拍照或上传图片，直接以文字或语音提问，获取详细解析。例如，用户拍摄一道数学题，可以实时获得解题思路与视频解析;上传商品图片则能帮助比较参数和价格，方便购物决策。新增的 “图个冷知识” 功能更是富有趣味，用户可以预设 “历史学者” 或 “科技达人” 等视角，从多维度解读同一图片，提升了互动的乐趣。
百度文小言的这次升级无疑为用户带来了更为智能和便捷的体验，未来的互动将会更加多样化。

百度推出业界首个基于互相关注意力（Cross-Attention）的端到端语音语言大模型，显著优化交互体验：

超低延迟：响应时间压缩至1秒左右（行业平均3-5秒）。
成本降低50%-90%：适用于电话语音问答等高并发场景。
方言与角色扮演：支持重庆、广西等方言，可模拟不同角色语音（如广西版睡前故事）。

3. 图片问答与多模态升级

多图联合分析：上传多张商品图，AI对比参数、价格，生成购物建议。
教育辅助：拍摄数学题自动生成解题思路与视频解析。
趣味冷知识：预设“历史学者”等视角，解读“猫为何爱窗边”等话题。

4. 生态开放与行业影响

技术普惠：百度通过开放模型调度，推动AI从“参数竞赛”转向“场景落地”。
商业应用：文小言已覆盖法律、电商等30余行业，月活超千万。

此次升级标志着百度AI战略向多模型协同与用户体验优化深化，未来或成为行业新标杆。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：阿里云与南京大学联合启动人工智能人才培养合作计划

下一篇： ChatGPT图像生成功能上线，免费用户迎来创作新机遇

百度文小言全面升级，推出多模型融合调度与新语音大模型

3. 图片问答与多模态升级

4. 生态开放与行业影响

最新Ai信息

最新Ai工具

热门AI推荐