首页 > 快讯 > 快手携手上交大发布Orthus模型，开拓多模态生成新领域

快手携手上交大发布Orthus模型，开拓多模态生成新领域

发布时间：2025-07-23 18:05:21 | 责任编辑：张毅 | 浏览量：10 次

在刚刚结束的国际机器学习大会（ICML）上，快手与上海交通大学携手推出了一款令人瞩目的多模态生成理解模型 ——Orthus。这款模型以其自回归 Transformer 架构为基础，能够在图文之间自如转换，展现出前所未有的生成能力，目前已正式开源。
Orthus 的最大亮点在于其卓越的计算效率与强大的学习能力。研究表明，在仅需极少计算资源的情况下，Orthus 在多个图像理解指标上超越了现有的混合理解生成模型，如 Chameleon 和 Show-o。在文生图生成的 GenEval 指标上，Orthus 更是表现出色，超越了专为此设计的扩散模型 SDXL。
该模型不仅能处理文本和图像之间的交互关系，还在图像编辑和网页生成等应用中展现出巨大潜力。Orthus 的架构设计非常巧妙，采用了自回归 Transformer 作为主干网络，配备了特定模态的生成头，分别用于生成文本和图像。这种设计有效解耦了图像细节的建模和文本特征的表达，使得 Orthus 能够专注于建模文本和图像之间的复杂关系。
具体来说，Orthus 由多个核心组件构成，包括文本分词器、视觉自编码器以及两个特定模态的嵌入模块。它将文本和图像特征融合到一个统一的表示空间中，让主干网络在处理模态间的依赖关系时更加高效。模型在推理阶段会根据特定的标记，自回归地生成下一个文本 token 或图像特征，展现了极强的灵活性。
通过这些创新设计，Orthus 不仅避免了端到端扩散建模与自回归机制之间的分歧，还减少了图像离散化带来的信息损失。这一模型可以被视为何恺明在图像生成领域的 MAR 工作向多模态领域的成功拓展。
快手与上海交通大学的这一合作，无疑为多模态生成模型的发展带来了新的可能性，值得业界和学界的关注与期待。

快手与上海交通大学联合推出的 Orthus 模型 是一种全新的统一多模态生成框架，在图像与文本的交错理解与生成任务中实现了重要突破，标志着多模态生成技术迈向新阶段。

核心创新：统一架构，模态解耦

自回归 Transformer 主干：Orthus 采用统一的自回归 Transformer 架构，处理离散的文本 token 和连续的图像特征，避免传统方法中矢量量化（VQ）带来的信息损失，从而保留图像细节。
模态特定输出头：
- 语言头（Language Head）：基于线性层，负责生成离散文本 token。
- 扩散头（Diffusion Head）：基于扩散模型的 MLP 结构，生成连续图像特征，实现高保真图像生成。

性能表现：超越现有模型

图像理解：在多个图像理解基准测试中，Orthus 超越了现有的混合理解生成模型 Chameleon 和 Show-o。
文生图生成：在 GenEval 指标上，Orthus 优于专用扩散模型 SDXL，展现出卓越的图像生成能力。
计算效率：仅需 72 个 A100 GPU 小时 即可构建基础模型，显著降低了训练成本。

应用潜力：图文交错生成

图像编辑：支持复杂的图像编辑任务，如风格转换、内容修改等。
网页生成：能够根据文本描述生成完整的网页布局和设计，展现了在实际应用中的巨大潜力。

开源与社区

代码开源：项目代码已在 GitHub 开源，方便研究人员和开发者进一步探索和应用。
论文发布：相关研究已发表于 ICML 2025，并获得广泛认可。

未来展望

研究团队计划通过 扩大参数规模 和 引入更多模态（如视频、音频），进一步提升 Orthus 的多模态生成能力，推动该技术在更广泛领域的应用。

总结：Orthus 模型通过创新的统一架构和模态解耦策略，打破了多模态生成的技术边界，在图像理解、文本生成及图文交错任务中均实现了显著的性能提升，为多模态 AI 的发展树立了新的标杆。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。