首页 > 快讯 > 最新CoMPaSS-FLUX.1模型：增强Flux文本转图像的空间认知力

最新CoMPaSS-FLUX.1模型：增强Flux文本转图像的空间认知力

发布时间：2025-09-02 10:52:05 | 责任编辑：吴昊 | 浏览量：181 次

近日，来自研究团队的一项新成果引起了广泛关注 ——CoMPaSS-FLUX.1模型。这是一种基于 FLUX.1文本到图像扩散模型的 LoRA 适配器，旨在显著提升生成图像时对物体空间关系的理解能力。该模型在处理物体的特定空间关系方面取得了显著进展，为图像生成领域带来了新的可能性。
CoMPaSS-FLUX.1的基础模型为 FLUX.1-dev，其 LoRA 等级为16，文件大小约为50MB，使用了 Diffusers 框架。它的主要用途是生成具有准确空间关系的图像，能够创造需要特定空间排列的构图，同时在保持其他能力的基础上增强空间理解能力。
在性能表现上，CoMPaSS-FLUX.1的关键改进令人瞩目。根据 VISOR 基准测试，该模型的相对提升达到了98%;在 T2I-CompBench 空间测试中，提升幅度为67%;而在 GenEval 位置评估中，更是达到了131% 的相对改善。此外，CoMPaSS-FLUX.1在图像保真度上也表现不俗，FID 和 CMMD 分数均低于基础模型，表明其在生成质量上有所提升。
使用该模型时，用户可以参考其有效提示。模型在描述空间关系时表现最佳，特别是当提示中包含清晰的空间关系描述（如 “左边”、“右边”、“上面”、“下面”）时，或者是包含两个不同物体的明确空间关系描述(例如 “照片中 A 在 B 的右边”)。
在训练过程中，CoMPaSS-FLUX.1使用了来自 SCOP（空间约束导向配对）数据引擎的数据，涵盖了约28，000个经过精心挑选的物体对。这些数据在视觉重要性、语义区别、空间清晰度、物体关系和视觉平衡等方面都有严格的标准。
训练过程持续了24，000步，使用了批量大小为4的配置，学习率设定为1e-4，并采用了 AdamW 优化器，权重衰减设定为1e-2。
huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1
划重点:
🌟 CoMPaSS-FLUX.1模型显著提升了文本到图像生成时的空间理解能力，特别是在物体之间的关系处理上。
📊 性能评估显示该模型在多个基准测试中都有明显的提升，保持了高质量的生成效果。
📚 模型训练使用了严格筛选的数据集，确保生成的图像在视觉上具有良好的空间关系和清晰度。

CoMPaSS-FLUX.1 是由研究团队推出的新型文本到图像扩散模型，它在 FLUX.1 的基础上，通过引入 CoMPaSS 框架，显著提升了模型对文本描述中空间关系的理解能力

。

核心技术与创新

CoMPaSS 框架由两个关键模块组成：

SCOP（Spatial Constraint-Oriented Pairing）数据引擎：该引擎通过施加一系列原则性空间约束，从现有数据集中精心策划和验证具有明确空间关系的图像-文本对，从而生成高质量的训练数据。这一过程有效解决了现有数据集中空间关系模糊或不准确的问题

。
TENOR（Token Encoding Order）模块：这是一个无参数的模块，通过引入文本输入的令牌排序信息，增强文本编码器对空间语义的解析和保留能力。TENOR 模块在不增加额外计算开销的情况下，显著提升了模型对空间关系的理解和生成准确性

。

性能表现

CoMPaSS-FLUX.1 在多个权威基准测试中表现优异：

VISOR 基准测试：相对提升达 98%，显著增强了模型对复杂空间关系的理解和生成能力

。
T2I-CompBench Spatial 基准测试：提升 67%，表明模型在处理特定空间关系时的准确性大幅提高

。
GenEval Position 基准测试：提升高达 131%，进一步证明了其在空间定位方面的显著进步

。

此外，CoMPaSS-FLUX.1 在提升空间理解能力的同时，并未牺牲图像的整体质量和真实感。FID（Fréchet Inception Distance）和 CMMD（Composite Multimodal Distance）等指标显示，其生成图像的保真度优于基础模型

。

应用与使用

CoMPaSS-FLUX.1 是基于 FLUX.1-dev 的 LoRA 适配器，等级为 16，文件大小约为 50MB，使用 Diffusers 框架开发

。用户在使用时，建议在文本提示中包含清晰的空间关系描述，例如“左边”、“右边”、“上面”、“下面”等，以获得最佳效果

。

总结

CoMPaSS-FLUX.1 通过创新的数据引擎和模块设计，显著提升了文本到图像扩散模型在空间关系理解方面的能力，为需要精确空间控制的应用开辟了新的可能性

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： “asa”——苹果的秘密AI对话工具被揭露，专为零售店员设计的个性化AI助手

下一篇： Mistral 发布全新企业级 AI 伙伴 Le Chat Enterprise 与 Medium 3 系列模型

最新CoMPaSS-FLUX.1模型：增强Flux文本转图像的空间认知力

核心技术与创新

性能表现

应用与使用

总结

最新Ai信息

最新Ai工具

热门AI推荐