首页 > 快讯 > 全新苹果 FastVLM 现已推出: 在您设备上享受85倍视觉AI体验，全程仅需5分钟，数据安全无忧

全新苹果 FastVLM 现已推出: 在您设备上享受85倍视觉AI体验，全程仅需5分钟，数据安全无忧

发布时间：2025-09-02 11:13:16 | 责任编辑：张毅 | 浏览量：79 次

小编报道 - Apple 几个月前发布的 FastVLM 视觉语言模型现已向公众开放，用户可在搭载 Apple Silicon 芯片的 Mac 上直接体验这项革命性技术。
FastVLM 是一种能够提供近乎即时高分辨率图像处理的视觉语言模型，基于 Apple 专为 Apple Silicon 设计的开放 ML 框架 MLX 构建。相比同类模型，FastVLM 在视频字幕处理速度上提升了85倍，同时体积缩小了3倍以上。
Apple 在完善项目后，FastVLM 不仅在 GitHub 上开源，还登陆了 Hugging Face 平台。用户现在可以直接在浏览器中加载轻量级的 FastVLM-0.5B 版本，无需复杂安装过程即可体验其强大功能。
根据实测，在16GB M2Pro MacBook Pro 上，模型加载需要几分钟时间。加载完成后，模型能够实时准确描述用户外貌、背景环境、面部表情以及视野中的各种物体。
该模型支持多种预设提示，用户可以要求模型:
高级用户还可结合虚拟摄像头应用，观察模型如何即时详细描述复杂的多场景视频内容。
FastVLM 的一大亮点是完全在浏览器本地运行，数据永不离开设备，甚至支持离线使用。这种设计为可穿戴设备和辅助技术应用提供了理想解决方案，轻便性和低延迟特性为更广泛的应用场景奠定了基础。
目前浏览器演示使用的是5亿参数的轻量级版本，FastVLM 系列还包含15亿和70亿参数的更强大变体，能够提供更优异的性能表现，尽管这些大型模型可能无法直接在浏览器中运行。

苹果昨晚在 Hugging Face 上线了 FastVLM 系列模型，0.5 B 版首次在移动设备上实现了 85 倍的首 token 响应速度，而且所有计算都在本地完成，数据“永不出设备”

。

速度体验

• 官方给出的 TTFT（Time-to-First-Token）指标，FastVLM-0.5 B 比同量级 LLaVA-OneVision 快了 85×

。
• 在 iPhone 16 Pro 上实测，几乎可以做到“秒答”，后续生成也保持连贯，官方 Demo 已开放体验

。
本地运行与隐私

• 模型针对 A18、M2/M4 等苹果芯片深度优化，支持 CoreML、INT8/4 量化，0.5 B 版 App 只占 1.8 GB 内存

。
• 所有推理在端侧完成，无需联网，图片、语音、文本数据均不会上传云端，符合苹果一贯强调的隐私策略

。
技术亮点

• FastViTHD 混合视觉编码器：把高分辨率图片压缩成极少的高质量视觉 token（比传统 ViT 少 16 倍），显著减轻 LLM 负担

。
• 动态分辨率 + 多尺度池化：针对图像关键区域分配算力，整体计算量再降约 47 %

。
• WebGPU / MLX 支持：不仅能在 iOS、macOS 原生 App 跑，还能直接在浏览器里实时运行

。
适用场景

• 实时图文问答、AR 眼镜字幕、生产线质检、医疗影像即时分析等对延迟和隐私要求高的场景

。
• 已提供 0.5 B / 1.5 B / 7 B 三档权重及 iOS Demo，开发者可即刻上手

。

一句话总结：FastVLM 把原来需要云端 GPU 才能跑的高分辨率多模态模型，压缩到了 iPhone 本地，且速度提升了接近两个数量级——真正做到“5 分钟上手，85 倍提速，数据永不出机”。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： Mistral 发布全新企业级 AI 伙伴 Le Chat Enterprise 与 Medium 3 系列模型

下一篇：革命性的AI方法：HRM层次推理模型实现推理效率百倍飞跃

全新苹果 FastVLM 现已推出: 在您设备上享受85倍视觉AI体验，全程仅需5分钟，数据安全无忧

最新Ai信息

最新Ai工具

热门AI推荐