“Manzano” – 苹果推出视觉与创新相结合的全新多模态AI时代之作
发布时间:2026-01-15 09:08:37 | 责任编辑:吴昊 | 浏览量:51 次
近日科技媒体 Appleinsider,苹果发表了一篇磅研究论文,介绍了最新研发的多模态 AI 模型 “zano”。这一模型将 “视觉” 和 “文本生成图像” 这两项功能有机结合,标志 AI 技术的又一次重大突破。
“Manzano” 的核心创新在于其 “双修” 能力:它不仅能够像人类一样精准地图像内容能根据文本生成高质量的图片。这技术的前无疑是令人振奋的在行业内,能同时满足两项需求的模型并多见,而现有模型往在画质理解能力之间存在妥协。
为了克服这一难题,Manzano 采用了的三段式架构。首先引入了一种 “混合器”,能同时生成连续和离散的视觉表示接着,强大的大语言模型(LLM)对像的义内容进行预测,通过 “扩散解码器” 进行像素级一设计使得 Manzano 在和图方面都表现出,甚至能够处理一些复杂任务,比如深估计、风格移和图像修复。
数据显示,Manzano 在对反直觉和违物理常识的复杂指令时,表现非常出色。例如,当生成 “一只鸟在大下方飞翔” 的画面时,Manzano 的逻辑准确性与 OpenAI 的 GPT4o 和谷歌 Nano Banana 模型不相上下。研究团队还测试了不同参数版本的模型,结果表明,随着模型规模的扩大,其性能提升依然显著。
尽管目前 zano 仍处于研究尚被直接应用于 iPhone 或 Mac 设备,但这无疑显示出苹果在构建更强大的底层方面的雄心。未来,业内普遍认为 Manzano 技术很可能会融入苹果即将推出的 “图乐园 Image Playground” 功能,为用户提供更智能的修图体验和更想象力画面生成能力,从而进一步巩固苹果在端 AI 领域的竞争力。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
