港大联手英伟达发布先进视觉模型,显著加速高分辨率生成能力达84倍以上!
发布时间:2025-06-10 15:33:57 | 责任编辑:张毅 | 浏览量:7 次
近日,香港大学与英伟达共同研发了一种新的视觉注意力机制,名为广义空间传播网络(GSPN),该机制在高分辨率图像生成方面取得了显著的突破。
传统的自注意力机制虽然在自然语言处理和计算机视觉领域取得了不错的效果,但在处理高分辨率图像时却面临计算量巨大和空间结构损失的双重挑战。传统的自注意力机制的计算复杂度为 O (N²),这使得处理长上下文时非常耗时,并且将二维图像转化为一维序列会导致空间关系的丢失。
为了解决这些问题,GSPN 采用了创新的二维线性传播方法,并结合 “稳定性–上下文条件” 理论,将计算复杂度降低到√N 级别,同时保留了图像的空间连贯性。这种新的机制大幅提升了计算效率,并在多个视觉任务上刷新了性能纪录。
GSPN 的核心技术包括两大部分:二维线性传播和稳定性 - 上下文条件。通过逐行或逐列的线扫描,GSPN 能够实现对二维图像的高效处理。与传统的注意力机制相比,GSPN 不仅减少了参数量,还保持了信息的完整传播。此外,研究人员还提出了稳定性 - 上下文条件,确保在长距离传播时系统的稳定性与可靠性。
在实验中,GSPN 展现出了卓越的性能。在图像分类任务中,GSPN 在5.3GFLOPs 的计算量下,实现了82.2% 的 Top-1准确率,超越了多种现有模型。在图像生成方面,GSPN 在处理256×256的任务时,生成速度提升了1.5倍。尤其在文本到图像生成任务中,GSPN 能够在16K×8K 分辨率下进行快速生成,推理时间加速超过84倍,展示了其在实际应用中的巨大潜力。
综上所述,GSPN 通过独特的设计理念和结构,使得视觉注意力机制在保持空间连贯性的同时,实现了计算效率的显著提升,为未来的多模态模型和实时视觉应用开辟了新的可能。
项目主页: https://whj363636.github.io/GSPN/
代码:https://github.com/NVlabs/GSPN
划重点:
🌟 GSPN 通过创新的二维线性传播机制,将高分辨率生成速度提升超过84倍。
💡 该机制解决了传统自注意力在高分辨率图像处理中的计算复杂度和空间结构损失问题。
🚀 GSPN 在多个视觉任务中刷新了性能纪录,为未来的应用提供了新方向。
香港大学与英伟达联合推出了广义空间传播网络(GSPN),在视觉注意力机制方面取得了重大突破。
技术原理
-
二维线性传播:GSPN采用二维线性传播机制,直接对二维图像进行逐行或逐列的顺序处理。通过稳定性-上下文条件确保传播的稳定性和长距离依赖,有效序列长度降至√N级别,大幅降低了计算量。
-
稳定性-上下文条件:为保证线性系统的稳定性,研究人员提出了定理1和定理2,统称为“稳定性–上下文条件”。通过将传播矩阵设计成行随机矩阵,确保信息在传播过程中不丢失、不过度放大或衰减。
-
模块化设计:GSPN模块通过共享1×1卷积进行降维,再通过三个独立的1×1卷积生成依赖于输入的参数,用于二维线性传播。这种模块化设计使得GSPN可以灵活地集成到各种现代视觉架构中。
实验结果
-
图像分类:在ImageNet数据集上,GSPN-T在5.3 GFLOPs计算量下,Top-1准确率达82.2%,超越了LocalVMamba-T(81.9%)和ViT类模型。
-
图像生成:在类条件生成任务中,GSPN-XL/2在ImageNet 256×256任务中以65.6%参数实现FID 3.2,优于DiT-XL/2(FID 3.5),生成速度提升1.5倍。
-
文本到图像生成:在SD-XL模型中,生成16K×8K图像的推理时间加速超84倍,且在未见分辨率外推的场景下FID分数(30.86)优于基线(32.71)。
优势与应用前景
-
任意尺寸兼容:GSPN可直接处理2K至16K分辨率图像,无需额外归一化层。
-
实时生成场景:单卡支持16K分辨率生成,适用于电影特效、虚拟场景搭建等对高分辨率和速度敏感的领域。
GSPN通过二维结构感知和线性复杂度设计,重新定义了视觉注意力机制的范式。它在保持空间连贯性的同时实现计算效率的跃升,尤其在高分辨率生成任务中的突破,为多模态模型和实时视觉应用提供了新方向。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。