首页 > 快讯 > 苹果重磅出击！FastVLM 助力视觉语言模型在 iPhone 上疾速“突飞猛进”

苹果重磅出击！FastVLM 助力视觉语言模型在 iPhone 上疾速“突飞猛进”

发布时间：2025-05-12 15:25:20 | 责任编辑：吴昊 | 浏览量：316 次

苹果最近又搞了个大新闻，偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵，但简单来说，这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”，不仅能看懂图片里的各种复杂信息，还能像个段子手一样跟你“贫嘴”!而且最厉害的是，它速度快到飞起，苹果官方宣称，首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!
现在的视觉语言模型，就像个不断进化的小天才，能同时理解图像和文本信息。它的应用可广了，从帮咱们理解图片里的内容，到辅助创作图文并茂的作品，都不在话下。一般来说，VLMs 是把预训练的视觉骨干网络提取的视觉 token，通过投影层传给预训练的大语言模型（LLM）。之前好多研究都在探索怎么训练和微调这几个组件，让模型变得更强。
研究发现，提高图像分辨率能显著提升 VLMs 在一些任务上的表现，尤其是处理那些文字和图表丰富的图像时。你想啊，图片越清晰，模型能 “看” 到的细节就越多，理解起来不就更准确嘛!但这也带来了不少麻烦。一方面，很多预训练的视觉编码器不太支持高分辨率图像，强行用的话，预训练效率会变得超级低。为了解决这个问题，有人尝试持续预训练视觉骨干网络，让它适应高分辨率;还有人把图像切成小块，像拼图一样分别处理，不过这也挺麻烦的。
另一方面，高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理，还是把图像切块后进行低分辨率推理，都会产生很大的延迟。而且高分辨率图像生成的 token 更多，这又增加了 LLM 处理这些 token 的时间，导致整个模型输出首个 token 的时间（TTFT）变长。这就好比你让一个人一下子处理太多任务，他肯定会手忙脚乱，速度变慢。
面对这些难题，苹果的研究团队搞出了 FastVLM，它就像是给 VLMs 注入了一剂 “加速药水”，能在保证性能的同时，大幅提升运行效率。
FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时，团队发现混合视觉编码器（卷积层加上 Transformer 块）是个不错的选择。卷积层可以轻松处理不同分辨率的图像，Transformer 块则能进一步优化视觉 token，让 LLM 更好地理解。他们用的 FastViT 就是基于这种架构，经过 MobileCLIP 预训练，效果还不错。比如，在相同的 VLM 基准测试中，FastViT 生成视觉 token 的速度比 ViT 模型快4倍多，准确率也更高。
不过，团队并没有满足于此。为了让模型在高分辨率下表现更出色，他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层，让 self - attention 层处理的张量更小，这样就能减少图像编码延迟，还能为计算密集型的 LLM 解码器生成更少的 token，从而降低 TTFT。打个比方，这就像是给模型的 “信息高速公路” 拓宽了车道，还优化了交通规则，让信息传递得又快又稳。
训练 FastVLM 就像培养一个优秀的运动员，需要精心规划。研究人员采用了两阶段训练法，和 LLaVA -1.5的设置类似。第一阶段，只训练投影仪，用的是 LLaVA -558K 对齐数据集，训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段，用 LLaVA -665K 监督微调数据集，把模型的所有模块都拿来训练，这时图像分辨率就设置成目标分辨率。
为了让模型更好地适应不同的任务和数据集，研究人员还做了很多优化。比如，他们尝试了多尺度特征提取，把网络不同阶段的信息整合起来，让模型能更好地理解图像。就像我们看一幅画，不仅要看整体，还要关注细节，多尺度特征提取就起到了这个作用。此外，他们还对比了不同的池化策略和连接器设计，发现用深度卷积进行池化能让模型性能更优。
在实验环节，FastVLM 简直就是 “学霸”，成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估，包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示，在和其他模型的对比中，FastVLM 优势明显。
和基于卷积的 ConvLLaVA 相比，同样的 LLM 和相似的训练数据规模下，FastVLM 在 TextVQA 任务上性能提升了8.4%，在 DocVQA 任务上提升了12.5%，而且速度还快了22%。在高分辨率下，这种优势更加明显，FastVLM 的速度比 ConvLLaVA 快了2倍，在多个基准测试中都取得了更好的成绩。
和其他用多个视觉编码器的模型比，FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器，视觉编码在总 TTFT 中占比很大，而 FastVLM 用单个编码器，不仅速度比它快7.9倍，在相似的视觉指令调优数据集训练下，性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中，FastVLM 也能凭借更少的视觉 token 取得更好的成绩。
FastVLM 的出现，给视觉语言模型领域带来了新的希望。它最大的优势就是在保证模型性能的同时，大幅提升了运行效率。以前的模型在处理高分辨率图像时，要么速度慢，要么准确率低，FastVLM 很好地解决了这些问题。
对于我们普通用户来说，这意味着以后在手机上使用相关应用时，体验会大大提升。比如用图像搜索功能，以前可能要等半天才能出结果，现在用搭载 FastVLM 的应用，瞬间就能得到答案。对于开发者来说，FastVLM 提供了一个高效的模型框架，能让他们开发出更强大、更智能的应用。
从更宏观的角度看，FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法，可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来，会有更多基于 FastVLM 的创新应用出现，让我们的生活变得更加智能和便捷。
论文地址：https://www.arxiv.org/pdf/2412.13303
项目地址：https://github.com/apple/ml-fastvlm

苹果近期发布的FastVLM模型，让视觉语言模型在iPhone等移动设备上实现了高效运行。以下是其具体介绍：

核心架构

FastVLM的核心是FastViTHD新型混合视觉编码器。它在FastViT基础上改进，增加额外阶段和下采样层，减少图像编码延迟，为LLM解码器生成更少token，降低首次生成token时间。其还具备动态分辨率调整、层次化令牌压缩和硬件优化等特点。

性能表现

FastVLM在多个基准测试中表现优异。与ConvLLaVA相比，其在TextVQA任务上性能提升8.4%，DocVQA任务上提升12.5%，且速度更快。其7B变体基于Qwen2-7B，在COCO Caption基准上达到82.1%准确率，同时保持7.9倍的首次令牌时间优势。

移动端部署

FastVLM专为苹果生态优化，支持通过MLX框架在iPhone、iPad和Mac上本地运行。其采用INT8动态量化，减少40%内存使用率，同时保持98%准确率。苹果还发布了iOS演示应用，展示其在移动设备上的实时性能。

开源与生态

FastVLM的代码和模型已通过GitHub和Hugging Face开源，开发者可根据提供的推理和微调指南定制模型。这体现了苹果推动AI生态开放的决心，也标志着其在移动端AI战略的重要一步。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。