字节跳动火山引擎推出豆包语音播客与实时语音解决方案
发布时间:2025-06-11 17:02:11 | 责任编辑:张毅 | 浏览量:22 次
字节跳动火山引擎发布了两款全新的豆包语音大模型,旨在提升语音识别和语音生成的智能水平。这两款模型分别是豆包・语音播客模型和豆包・实时语音模型,均在多项技术指标上实现了显著的突破。
豆包・语音播客模型
根据官方介绍,只需输入一句话、网页链接、长文本或文档,语音播客模型即可快速搜索学习,生成播客脚本后创作出来;模型可秒级生成双人对话式播客作品,效果自然,具有互相附和、插话、犹豫等播客节奏;自带的深度搜索功能可生成跟进热点话题的播客内容。
豆包・实时语音模型:即刻沟通,无缝交流
豆包・实时语音模型则专注于实时语音识别与生成,广泛应用于在线会议、教育培训等场景。其主要功能包括:
豆包・实时语音模型对企业客户开放使用。该模型支持自然语言高级指令控制,具备唱歌表演、声线模仿、方言演绎等多种能力,语气、用语、思考方式等拟人感大幅提升,能随时打断与主动搭话。
随着这两款豆包语音大模型的上线,字节跳动火山引擎在语音技术领域的布局进一步深化。无论是在播客内容创作,还是实时语音交流方面,这两款模型都展现了极大的应用潜力和市场前景。未来,火山引擎将继续致力于技术创新,不断推动语音交互的发展,助力智能时代的到来。
字节跳动旗下的火山引擎于2025年5月20日发布了豆包·语音播客模型。该模型基于流式模型构建,能够将文本秒级转化为双人对话式播客,具有以下特点和功能:
特点
-
自然流畅:对话自然流畅,高度拟人化,结合了真人专业播客中的口语习惯。
-
高效快捷:构建了端到端的便捷链路,无需复杂剪辑,热点内容能瞬间转化为生动播客。
-
紧跟热点:具备深度搜索功能,用户输入热点话题,5秒即可生成利用最新信息生成的播客音频。
功能
-
低时延与可打断:用户在语音通话时几乎感受不到延迟,可以随时打断对话。
-
支持超长文本转播客:用户输入文档或URL网页地址,可轻松创作媲美真人的播客作品。
-
高度拟人语音效果:对话自然流畅,能高度还原真人播客风格。
此外,豆包·实时语音模型也即将在火山引擎Force大会中全量上线。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。