首页 > 快讯 > 松下发布“OmniFlow”多功能AI，支持文本、图片和音频的无缝互换

松下发布“OmniFlow”多功能AI，支持文本、图片和音频的无缝互换

发布时间：2025-06-04 15:39:43 | 责任编辑：张毅 | 浏览量：398 次

松下控股公司（Panasonic HD）联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员，成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力，可以实现文本、图像和音频之间的自由转换，极大地提升了多模态生成 AI 的应用潜力。
近年来，多模态生成 AI 的研究越来越受到关注，尤其是结合音频的生成技术。然而，传统方法在数据获取上存在局限，尤其是在同时处理文本、图像和音频数据时，所需的训练数据量和成本大幅增加。针对这一难题，OmniFlow 通过灵活结合针对不同数据格式的生成 AI（如文本与音频、文本与图像），即使在小样本情况下，也能学习到高精度的 “任意对任意” 模型，从而显著降低了数据采集的成本。
OmniFlow 的技术创新已获得国际认可，并将在2025年计算机视觉与模式识别会议（CVPR）上进行展示。该技术的核心在于，它能够通过连接和处理三种不同数据特征，学习更为复杂的数据关系，而不是简单地对输入数据进行平均处理。这种方法让 OmniFlow 在生成过程中不仅保留了各模态的特点，也提升了表达能力。
在评估实验中，OmniFlow 在 “文本转图像” 和 “文本转音频” 的生成任务中，表现优于其他传统方法，展现出最佳的性能。实验结果显示，与其他 “任意对任意” 生成方法相比，OmniFlow 所需的训练数据量可减少至1/60，这一显著的优势让其在多模态 AI 领域脱颖而出。
展望未来，OmniFlow 有望在工厂、生活方式等多个领域进行应用，能够生成各种专门针对特定场景的数据。松下控股将继续推动 AI 的社会化应用，致力于开发能为客户生活与工作带来便利的 AI 技术。

松下控股公司（Panasonic HD）联合美国松下推出了“OmniFlow”多模态生成AI，它实现了文本、图像与音频的自由转换。OmniFlow是一种新颖的生成模型，专为文本到图像、文本到音频以及音频到图像等任意生成任务而设计。它在文本到图像模型中使用的修正流（RF）框架上取得了进展，以处理多模态的联合分布。OmniFlow在各种任务上均优于先前的任意生成模型，如文本到图像和文本到音频合成。

OmniFlow的三个关键贡献如下：

将RF扩展到多模态设置，并引入了一种新颖的引导机制，使用户能够灵活控制生成输出中不同模态之间的对齐。
提出了一种新颖的架构，扩展了Stable Diffusion 3的文本到图像MMDiT架构，实现了音频和文本的生成。这些扩展模块可以高效地单独进行预训练，并与基本文本到图像MMDiT合并以进行微调。
对大规模音频和文本生成的修正流变压器的设计选择进行了全面研究，为优化跨多种模态的性能提供了宝贵的见解。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。