Manzano:苹果推出的新模型打破图像识别与创作的壁垒
发布时间:2026-01-15 09:04:14 | 责任编辑:张毅 | 浏览量:46 次
长期以来,人工智能领域存在一个技术痛点:让模型“理解图像”和“生成图像”往往难以兼得。通常,擅长分析图片的内容(视觉理解)的模型,在从头创作高质量图片(图像生成)时表现乏力,反之亦然。然而,苹果公司最新发表的研究论文推出了一款名为“Manzano”的多模态模型,试图彻底解决这一难题。
Manzano 的核心突破在于其创新的“双修”架构。研究人员指出,传统的视觉理解偏好连续的数据流,而图像生成则依赖离散的数据块,这导致模型在同时处理两项任务时容易产生冲突。为了实现近乎无损的融合,Manzano 引入了“混合视觉分词器”。它能同时生成连续和离散的视觉表示,再通过大语言模型预测图像语义,最后由扩散解码器完成像素级的精细渲染。
在实际测试中,Manzano 展现出了惊人的逻辑理解力。即使面对“一只鸟在大象下方飞翔”这种违背常规物理常识的复杂指令,它的表现也与 GPT-4o 等顶尖模型旗鼓相当。此外,该模型不仅能画画,还能处理深度估计、风格迁移和图像修复等多种复杂任务。
虽然 Manzano 目前仍处于研究阶段,但 小编 认为,这项底层技术的成熟预示着苹果未来的 AI 功能将更加强大。该技术极有可能被整合进苹果的“图乐园”(Image Playground)等工具中,为用户提供更智能、更具想象力的创作体验。
项目:https://machinelearning.apple.com/research/manzano
划重点:
👁️ 全能架构: Manzano采用了创新的三段式架构,成功融合了“视觉理解”与“图像生成”功能,解决了传统模型难以兼顾两者的冲突。
🧠 逻辑领先: 在处理反直觉和复杂空间关系的指令时,Manzano 的逻辑准确性已达到行业顶尖水平,足以媲美GPT-4o等主流模型。
🚀 潜力巨大: 该模型支持从3亿到300亿参数的灵活扩展,未来有望显著提升 iPhone 和 Mac 等端侧设备的 AI 绘图与修图能力。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
