首页 > 快讯 > Manzano：苹果推出的新模型打破图像识别与创作的壁垒

Manzano：苹果推出的新模型打破图像识别与创作的壁垒

发布时间：2026-01-15 09:04:14 | 责任编辑：张毅 | 浏览量：46 次

长期以来，人工智能领域存在一个技术痛点:让模型“理解图像”和“生成图像”往往难以兼得。通常，擅长分析图片的内容（视觉理解）的模型，在从头创作高质量图片(图像生成)时表现乏力，反之亦然。然而，苹果公司最新发表的研究论文推出了一款名为“Manzano”的多模态模型，试图彻底解决这一难题。
Manzano 的核心突破在于其创新的“双修”架构。研究人员指出，传统的视觉理解偏好连续的数据流，而图像生成则依赖离散的数据块，这导致模型在同时处理两项任务时容易产生冲突。为了实现近乎无损的融合，Manzano 引入了“混合视觉分词器”。它能同时生成连续和离散的视觉表示，再通过大语言模型预测图像语义，最后由扩散解码器完成像素级的精细渲染。
在实际测试中，Manzano 展现出了惊人的逻辑理解力。即使面对“一只鸟在大象下方飞翔”这种违背常规物理常识的复杂指令，它的表现也与 GPT-4o 等顶尖模型旗鼓相当。此外，该模型不仅能画画，还能处理深度估计、风格迁移和图像修复等多种复杂任务。
虽然 Manzano 目前仍处于研究阶段，但小编认为，这项底层技术的成熟预示着苹果未来的 AI 功能将更加强大。该技术极有可能被整合进苹果的“图乐园”（Image Playground）等工具中，为用户提供更智能、更具想象力的创作体验。
项目:https://machinelearning.apple.com/research/manzano
划重点:
👁️ 全能架构: Manzano采用了创新的三段式架构，成功融合了“视觉理解”与“图像生成”功能，解决了传统模型难以兼顾两者的冲突。
🧠 逻辑领先: 在处理反直觉和复杂空间关系的指令时，Manzano 的逻辑准确性已达到行业顶尖水平，足以媲美GPT-4o等主流模型。
🚀 潜力巨大: 该模型支持从3亿到300亿参数的灵活扩展，未来有望显著提升 iPhone 和 Mac 等端侧设备的 AI 绘图与修图能力。

这是一篇关于苹果发布多模态新模型 Manzano:打破“看图”与“绘图”的界限的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。