腾讯全新AI绘画功能升级:微调技术助力图像美感显著提升至300%
发布时间:2025-09-16 12:24:55 | 责任编辑:张毅 | 浏览量:75 次
近日,腾讯推出了一种新方法,旨在提升 AI 生成图像的真实感与美学评分。据悉,这一微调技术在仅用32块 H20显卡训练10分钟后就能实现显著的收敛效果,其人工评估得分甚至提升了300% 以上。
当前的扩散模型虽然能够借助奖励机制来优化图像质量,但却面临着一些挑战。首先,模型优化步骤较少,容易出现所谓的 “奖励作弊” 现象,即模型为了获取高分而生成质量较低的图像。其次,离线调整奖励模型的过程不够灵活,限制了实时优化的能力。
为了解决这些问题,腾讯团队提出了两个创新性的方法。第一个是名为 “Direct-Align” 的技术,通过预先注入噪声,模型能够从任何时间点恢复原图。这种方法减少了早期反向传播中的梯度爆炸现象,使得模型在整个扩散过程中都能够进行优化,而不仅仅局限于最后的几个步骤。
第二个创新是 “语义相对偏好优化”(SRPO)。这一方法将奖励信号转变为可受文本控制的信号。通过添加正面和负面提示词,模型能够灵活地调整生成图像的风格,而无需额外数据。这意味着,用户只需在提示词前加上简单的控制短语,即可实现如亮度调整或风格转换等功能。
实验结果显示,经过 SRPO 训练的 FLUX.1-dev 模型在真实感和美学质量上的表现均大幅提升。在一项包含3200个提示词的测试中,经过 SRPO 训练的模型在真实感维度上的优秀率由8.2% 提升至38.9%,而美学质量的优秀率从9.8% 提升至40.5%。相较于其它方法,SRPO 不仅在保持高美学质量的同时,生成的图像纹理更加自然。
这一技术的成功应用,不仅表明腾讯在 AI 绘画领域的进一步探索,也为未来的 AI 图像生成技术指明了方向。
论文地址:https://arxiv.org/pdf/2509.06942
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。