最新CoMPaSS-FLUX.1模型:增强Flux文本转图像的空间认知力
发布时间:2025-09-02 10:52:05 | 责任编辑:吴昊 | 浏览量:18 次
近日,来自研究团队的一项新成果引起了广泛关注 ——CoMPaSS-FLUX.1模型。这是一种基于 FLUX.1文本到图像扩散模型的 LoRA 适配器,旨在显著提升生成图像时对物体空间关系的理解能力。该模型在处理物体的特定空间关系方面取得了显著进展,为图像生成领域带来了新的可能性。
CoMPaSS-FLUX.1的基础模型为 FLUX.1-dev,其 LoRA 等级为16,文件大小约为50MB,使用了 Diffusers 框架。它的主要用途是生成具有准确空间关系的图像,能够创造需要特定空间排列的构图,同时在保持其他能力的基础上增强空间理解能力。
在性能表现上,CoMPaSS-FLUX.1的关键改进令人瞩目。根据 VISOR 基准测试,该模型的相对提升达到了98%;在 T2I-CompBench 空间测试中,提升幅度为67%;而在 GenEval 位置评估中,更是达到了131% 的相对改善。此外,CoMPaSS-FLUX.1在图像保真度上也表现不俗,FID 和 CMMD 分数均低于基础模型,表明其在生成质量上有所提升。
使用该模型时,用户可以参考其有效提示。模型在描述空间关系时表现最佳,特别是当提示中包含清晰的空间关系描述(如 “左边”、“右边”、“上面”、“下面”)时,或者是包含两个不同物体的明确空间关系描述(例如 “照片中 A 在 B 的右边”)。
在训练过程中,CoMPaSS-FLUX.1使用了来自 SCOP(空间约束导向配对)数据引擎的数据,涵盖了约28,000个经过精心挑选的物体对。这些数据在视觉重要性、语义区别、空间清晰度、物体关系和视觉平衡等方面都有严格的标准。
训练过程持续了24,000步,使用了批量大小为4的配置,学习率设定为1e-4,并采用了 AdamW 优化器,权重衰减设定为1e-2。
huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1
划重点:
🌟 CoMPaSS-FLUX.1模型显著提升了文本到图像生成时的空间理解能力,特别是在物体之间的关系处理上。
📊 性能评估显示该模型在多个基准测试中都有明显的提升,保持了高质量的生成效果。
📚 模型训练使用了严格筛选的数据集,确保生成的图像在视觉上具有良好的空间关系和清晰度。
。
核心技术与创新
CoMPaSS 框架由两个关键模块组成:
-
SCOP(Spatial Constraint-Oriented Pairing)数据引擎:该引擎通过施加一系列原则性空间约束,从现有数据集中精心策划和验证具有明确空间关系的图像-文本对,从而生成高质量的训练数据。这一过程有效解决了现有数据集中空间关系模糊或不准确的问题
。
-
TENOR(Token Encoding Order)模块:这是一个无参数的模块,通过引入文本输入的令牌排序信息,增强文本编码器对空间语义的解析和保留能力。TENOR 模块在不增加额外计算开销的情况下,显著提升了模型对空间关系的理解和生成准确性
。
性能表现
CoMPaSS-FLUX.1 在多个权威基准测试中表现优异:
-
VISOR 基准测试:相对提升达 98%,显著增强了模型对复杂空间关系的理解和生成能力
。
-
T2I-CompBench Spatial 基准测试:提升 67%,表明模型在处理特定空间关系时的准确性大幅提高
。
-
GenEval Position 基准测试:提升高达 131%,进一步证明了其在空间定位方面的显著进步
。
。
应用与使用
。用户在使用时,建议在文本提示中包含清晰的空间关系描述,例如“左边”、“右边”、“上面”、“下面”等,以获得最佳效果
。
总结
。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。