首页 > 快讯 > Stream-Omni:实现多模态融合互动,集成文本、图像与语音三位一体的应用

Stream-Omni:实现多模态融合互动,集成文本、图像与语音三位一体的应用

发布时间:2025-07-07 18:11:21 | 责任编辑:张毅 | 浏览量:8 次

在人工智能技术飞速发展的今天,中国科学院计算技术研究所自然语言处理团队推出了一款名为 Stream-Omni 的文本 - 视觉 - 语音多模态大模型。这一模型的核心亮点在于它能够同时支持多种模态的交互方式,为用户带来更加灵活和丰富的体验。
Stream-Omni 是一个基于 GPT-4o 架构的多模态大模型,展现了在文本、视觉和语音三种模态上的卓越能力。通过在线语音服务,用户不仅可以进行语音交互,还能在此过程中实时获取中间文本结果,使得交互体验更为自然,犹如 “边看边听”。
现有多模态大模型通常通过将不同模态的表示拼接在一起,以输入到大语言模型中生成响应。然而,这种方法依赖于大量的数据,且缺乏灵活性。Stream-Omni 通过更有针对性的模态关系建模,减少了对大规模三模态数据的依赖。它强调语音与文本之间的语义一致性,并使视觉信息在语义上与文本互补,从而实现了更加高效的模态对齐。
Stream-Omni 独特的语音建模方式使其在语音交互过程中能够像 GPT-4o 一样,同时输出中间的文本转录结果。这一设计为用户提供了更全面的多模态交互体验,尤其在需要语音到文本实时转换的场景中,极大提升了效率和便利性。
Stream-Omni 的设计允许通过灵活组合视觉编码器、语音层和大语言模型,支持多种模态组合的交互。这种灵活性使得用户能够在不同场景下自由选择输入方式,无论是文本、语音还是视觉,均可获得一致的响应。
在多项实验中,Stream-Omni 的视觉理解能力与同规模的视觉大模型相当,而其语音交互能力则显著优于现有技术。这种基于层级维度的语音 - 文本映射机制,确保了语音与文本之间的语义精确对齐,使得不同模态的响应更加一致。
Stream-Omni 不仅在多模态交互中提供了新思路,更以其灵活、高效的特性,推动了文本、视觉和语音技术的深度融合。尽管在拟人化表现和音色多样性上仍有待提升,但它无疑为未来的多模态智能交互奠定了坚实基础。
论文链接:https://arxiv.org/abs/2506.13642
开源代码:https://github.com/ictnlp/Stream-Omni
模型下载:https://huggingface.co/ICTNLP/stream-omni-8b

Stream-Omni:实现多模态融合互动,集成文本、图像与语音三位一体的应用

Stream-Omni 是由中国科学院计算技术研究所自然语言处理团队提出的一款能够同时支持文本、视觉和语音多种模态组合交互的多模态大模型。以下是其主要特点和优势:

核心技术

  • 模态对齐方式

    • 视觉-文本对齐:采用序列维度拼接的方式,将视觉编码器提取的特征与文本特征进行拼接,充分利用视觉与文本的语义互补性。

    • 语音-文本对齐:采用基于连接时序分类(CTC)的层维度映射,通过在大语言模型(LLM)的底部和顶部引入语音层,实现语音到文本的精准映射。

  • 多任务学习:同时训练视觉文本、语音文本及全模态任务,提升模型的泛化能力和适应性。

  • 实时语音生成:在生成文本的同时,实时生成对应的语音输出,为用户提供“边看边听”的交互体验。

交互能力

  • 多种模态组合支持:Stream-Omni 支持多种模态组合的交互方式,包括:

    • 文本 + 视觉 → 文本

    • 文本 + 视觉 → 语音

    • 语音 + 视觉 → 文本

    • 语音 + 视觉 → 语音

  • 中间文本结果输出:在语音交互过程中,能够同步输出中间文本结果(如自动语音识别 ASR 转录和模型响应),提升交互的透明度。

数据效率

Stream-Omni 仅需使用 2.3 万小时的语音数据进行训练,相比其他多模态模型(如 TWIST 使用 15 万小时、SpeechGPT 使用 6 万小时),数据需求量显著减少,训练效率更高。

应用前景

Stream-Omni 在视觉理解、语音交互和视觉引导的语音交互任务上表现出色,适用于智能车载系统、教育辅助工具、智能家居控制、医疗辅助诊断和智能客服服务等多个领域。

局限性

尽管 Stream-Omni 在多模态交互方面取得了显著成果,但在语音的表现力和类人性方面仍有提升空间。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复