百度文小言全面升级,推出多模型融合调度与新语音大模型
发布时间:2025-03-31 16:55:46 | 责任编辑:字母汇 | 浏览量:57 次
在刚刚结束的百度 AI DAY 上,百度文小言正式宣布了品牌焕新和功能升级的消息。此次升级不仅包括全新的视觉形象,更重要的是引入了多模型融合调度技术,这将极大增强其语音识别和图片问答的能力。
文小言的多模型融合调度是本次升级的核心亮点。通过整合百度自研的文心 X1、文心4.5等模型,并引入了诸如 DeepSeek-R1和可灵等第三方优质模型,用户可以根据需求灵活选择使用最适合的模型。用户只需轻松点击 “自动模式”,系统就会智能选择最佳模型组合,显著提高响应速度与任务处理能力,真正实现了一键解决问题的理想体验
在语音能力方面,全新升级的语音大模型支持多种方言对话、复杂知识问答,甚至可以随时打断对话。这意味着用户不仅可以通过语音获取知识回答,还可以进行趣味角色扮演,交互体验更为丰富。百度语音首席架构师贾磊指出,这款模型是行业首个基于全新互相关注意力(Cross-Attention)技术的端到端语音语言大模型,相比行业平均水平,其调用成本降低了50%-90%。同时,该模型的推理响应速度极快,等待时间缩短至1秒左右,让用户的交互体验更加流畅。
此外,文小言还推出了创新的图片问答功能,用户可以通过拍照或上传图片,直接以文字或语音提问,获取详细解析。例如,用户拍摄一道数学题,可以实时获得解题思路与视频解析;上传商品图片则能帮助比较参数和价格,方便购物决策。新增的 “图个冷知识” 功能更是富有趣味,用户可以预设 “历史学者” 或 “科技达人” 等视角,从多维度解读同一图片,提升了互动的乐趣。
百度文小言的这次升级无疑为用户带来了更为智能和便捷的体验,未来的互动将会更加多样化。

百度推出业界首个基于互相关注意力(Cross-Attention)的端到端语音语言大模型,显著优化交互体验:
- 超低延迟:响应时间压缩至1秒左右(行业平均3-5秒)。
- 成本降低50%-90%:适用于电话语音问答等高并发场景。
- 方言与角色扮演:支持重庆、广西等方言,可模拟不同角色语音(如广西版睡前故事)。
3. 图片问答与多模态升级
- 多图联合分析:上传多张商品图,AI对比参数、价格,生成购物建议。
- 教育辅助:拍摄数学题自动生成解题思路与视频解析。
- 趣味冷知识:预设“历史学者”等视角,解读“猫为何爱窗边”等话题。
4. 生态开放与行业影响
- 技术普惠:百度通过开放模型调度,推动AI从“参数竞赛”转向“场景落地”。
- 商业应用:文小言已覆盖法律、电商等30余行业,月活超千万。
此次升级标志着百度AI战略向多模型协同与用户体验优化深化,未来或成为行业新标杆。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。