全新 Uni-1 图像模型由 Luma AI 推出,基于自回归结构同时创造文字与图像像素
发布时间:2026-03-24 10:45:32 | 责任编辑:吴昊 | 浏览量:1 次
Luma Labs 于 3 月 23 日发布图像生成模型 Uni-1,这是该公司基于 Unified Intelligence 架构推出的首款公开模型。官网已开放免费试用,API 定价同步公布,企业接入通道将逐步上线。
架构变化:从扩散模型到自回归
Uni-1 放弃了当前主流的扩散模型路线,转而使用 decoder-only 自回归 Transformer,将文本 token 与图像 token 交错排列成单一序列,在同一个前向传播中完成推理和像素生成。
Luma CEO Amit Jain 解释,传统方案通常是先用语言模型规划、再交给扩散模型生成,两个阶段之间存在信息损耗。Uni-1 的设计目标是消除这个断层。
Jain 此前任职 Apple,参与过 Vision Pro 工程工作。
功能:参考图控制与跨风格生成
Uni-1 支持单张或多张参考图引导生成,可保留人物身份、姿势和构图。官方测试显示,在处理角色一致性和人像控制时,多参考图模式表现稳定。
模型声称支持 76 种视觉风格,覆盖写实摄影、漫画、浮世绘等类别。
演示中有一个场景:输入"画一张金门大桥信息图",模型自动规划布局,生成桥梁结构图并标注"1711 Meters"等数据,内部推理过程实时可见。
基准测试:空间推理与参考生成领先
Luma 公布的数据显示,Uni-1 在 RISEBench 推理基准上总分 0.51,高于 Google Nano Banana 2 的 0.50 和 OpenAI GPT Image 1.5 的 0.46;空间推理单项 0.58,逻辑推理 0.32,后者约为 GPT Image 的两倍。
ODinW-13 物体检测得分 46.2 mAP,接近 Google Gemini 3 Pro 的 46.3。
人类偏好 Elo 排名方面,Uni-1 在整体偏好、风格与编辑、参考生成三项排名第一,文生图单项排名第二。
定价
API 按 token 计费:输入文本 $0.50/百万 token,输入图像 $1.20/百万 token,输出文本与思考链 $3.00/百万 token,输出图像 $45.45/百万 token。
换算为单张图像:文生图(2048px)约 $0.0909,带单张参考图的编辑约 $0.0933, 8 张参考图约 $0.1101。
VentureBeat 报道称,在 2K 分辨率企业场景下,Uni-1 成本比 Google Nano Banana 2 低 10% 至 30%。
背景
Luma Labs 此前以视频生成产品 Dream Machine(Ray3 系列)为主要业务,今年 3 月 5 日发布了基于 Unified Intelligence 架构的 Luma Agents 创意代理平台。Uni-1 是该架构首次在静态图像产品上落地。
发布数小时内,相关帖子在 X 平台获得超过 230 万次浏览。Luma 表示后续将推出视频和音频版本,具体时间未公布。
试用地址:lumalabs.ai/uni-1
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
