全新Gemini 2.5 Flash图像编辑功能由谷歌发布,轻松实现精准修图无压力
发布时间:2025-08-27 09:38:01 | 责任编辑:吴昊 | 浏览量:6 次
近日,科技媒体 The Decoder 报道,谷歌 DeepMind 推出了全新的 Gemini2.5Flash 图像编辑模型。这款升级版模型在 Gemini 应用中为用户提供了更加精准的图像编辑体验,允许用户通过文字指令对照片进行大幅修改,而不影响人物和动物的外观。
与之前的图像生成工具相比,Gemini2.5Flash 在处理复杂的文字指令时展现出了更高的准确性,甚至在多项任务中超过了 ChatGPT 使用的 GPT-4o。这一进步让用户在进行图像编辑时,能够更轻松地实现他们的创意。
Gemini2.5Flash 的一个亮点是其 “角色一致性” 功能。即使在生成多张图像时,用户所指定的人物、动物或物体的外观也能保持一致,无论姿势、背景或光线如何变化。这一功能对于品牌的系列照片、产品多角度展示尤其有价值,大大提升了素材与产品目录的制作效率。
此外,Gemini2.5Flash 支持精准的局部文字编辑,用户无需手动圈选,便能轻松实现背景虚化、去除瑕疵、添加颜色或移除物体等多种操作。它甚至能够一次融合最多三张图像,比如将产品照与室内照片结合成一个逼真的场景。此外,它还具备 “风格迁移” 功能,可以将一种纹理、颜色或图案应用到另一物体上,同时保持形状与细节的完整性。
Gemini2.5Flash 的 “现实推理” 功能更是突破了传统图像编辑的限制,能够模拟简单的因果关系,比如生成气球飞向仙人掌及随后的结果画面。这些创新功能使得 Gemini2.5Flash 不仅是一个强大的修图工具,更是一个能让用户发挥想象力的创作平台。
目前,用户只需在 Gemini 应用中将模型切换至 “Flash” 即可体验这款新功能。值得注意的是,生成的图像将附带可见水印和不可见的 SynthID 数字水印,以确保作品的版权保护。开发者们也可以通过 Gemini API、Google AI Studio 与 Vertex AI 进行试用,使用费用为每百万输出 token30美元,单张图像的成本约为0.039美元。
。
核心亮点:
-
自然语言精准编辑
用户可通过简单文字指令实现复杂修图操作,例如:-
模糊背景、移除物体(如T恤污渍、合照中的某人)
-
改变人物姿势、为黑白照片上色
-
无需手动圈选,模型自动识别并精准修改目标区域
。
-
-
角色一致性突破
在生成多图时,完美保持同一人物/动物/物体的外观一致性,即使场景、光线、姿势变化也不失真。这一功能对品牌素材、产品目录、故事化内容创作尤为关键。
-
多模态融合与风格迁移
-
融合最多三张图像(如将产品与室内场景合成逼真广告图)
。
-
风格迁移:将纹理、颜色或图案应用到另一物体,保留原形状细节(如用蝴蝶翅膀花纹设计连衣裙)
。
-
现实推理:模拟因果场景(如气球触碰仙人掌后的爆裂效果)
。
-
-
性能优势
-
速度提升40%,支持实时预览与多轮迭代编辑
。
-
优于GPT-4o:在LMArena基准测试中评分1362分(第二名1191分),综合偏好、角色生成等维度领先
。
-
使用与接入:
-
用户端:已上线Gemini应用,切换至“Flash”模式即可体验,生成图片带可见水印及隐形SynthID标识
。
-
开发者端:通过Gemini API、Google AI Studio、Vertex AI调用,单张图像成本约0.039美元
。
应用场景示例:
-
电商:批量生成产品多角度展示图,保持商品细节一致。
-
创意设计:快速迭代广告视觉方案,如将同一模特置于不同年代场景
。
-
个人修图:用“一句话”修复老照片或创意合成(如与宠物同框打篮球)
。
。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。