首页 > 快讯 > Liquid AI 亮相 LFM2-VL：一款实现低延迟的视觉语言模型，性能卓越

Liquid AI 亮相 LFM2-VL：一款实现低延迟的视觉语言模型，性能卓越

发布时间：2025-08-21 09:59:56 | 责任编辑：张毅 | 浏览量：145 次

Liquid AI 正式推出 LFM2-VL，这是一款全新的视觉语言基础模型系列，专为低延迟和设备适应性部署而优化。此次发布的 LFM2-VL 模型包括两个高效的变体:LFM2-VL-450M 和 LFM2-VL-1.6B，这标志着多模态 AI 在智能手机、笔记本电脑、可穿戴设备和嵌入式系统中的应用取得了重要进展，而不牺牲速度和准确性。
LFM2-VL 模型经过精心设计，相比现有的视觉语言模型，其 GPU 推理速度提高了两倍，同时在图像描述、视觉问答和多模态推理等任务上保持了竞争力的基准表现。450M 参数的版本专为资源受限的环境而设计，而1.6B 参数的版本则在保持轻量级的同时，提供更强大的能力，适合单 GPU 或高端移动设备使用。
在技术创新方面，LFM2-VL 采用模块化架构，结合了语言模型主干（LFM2-1.2B 或 LFM2-350M）、SigLIP2NaFlex 视觉编码器(400M 或86M 参数)和多模态投影器，使用 “像素解混” 技术动态减少图像标记数量，以实现更快的处理速度。此外，模型能够以原始分辨率处理图像，最高可达512×512像素，避免了因放大而造成的失真。较大的图像会被分割为不重叠的512×512补丁，确保细节和长宽比的保留。1.6B 版本还会编码全图的缩小缩略图，以便提供全球上下文理解。
LFM2-VL 模型的灵活推理能力使用户能够在推理时调整速度和质量的平衡，适应设备能力和应用需求。模型经过预训练、联合中训练以融合视觉和语言能力，最终在大约1000亿个多模态标记上进行了微调，确保了其在图像理解方面的出色表现。
在公共基准测试中，LFM2-VL 的表现与 InternVL3和 SmolVLM2等大型模型相媲美，但内存占用更小、处理速度更快，非常适合边缘和移动应用。两种模型均为开放权重，并可在 Hugging Face 上下载，适用于研究和商业使用。对于大型企业，则需联系 Liquid AI 以获取商业许可证。这些模型与 Hugging Face Transformers 无缝集成，并支持量化，以进一步提升在边缘硬件上的效率。
LFM2-VL 旨在帮助开发者和企业快速、准确且高效地在设备上部署多模态 AI，减少对云的依赖，推动机器人、物联网、智能摄像头和移动助手等新应用的出现。
huggingface:https://huggingface.co/collections/LiquidAI/lfm2-vl-68963bbc84a610f7638d5ffa
划重点:
🌟 LFM2-VL 模型提供超高效的 GPU 推理速度，比现有模型快两倍，适合各种设备使用。
🖼️ 支持原始分辨率处理图像，并且能够处理大图像，确保细节不失真。
🚀 两种模型均为开放权重，可在 Hugging Face 上下载，适合研究和商业应用。

Liquid AI 最新发布的 LFM2-VL 是一系列专为端侧（智能手机、可穿戴设备、嵌入式系统等）设计的超高效视觉-语言基础模型，主打低延迟、低功耗、高精度。

📌 核心亮点

特性	LFM2-VL 实现方式
超低延迟	推理速度比同类视觉语言模型提升2倍，在 RTX 4090 上处理 1024×1024 图像仅需 120ms。
超轻量	两个版本：
原生分辨率	支持 512×512 像素原生输入，避免失真；大图自动切块 + 全局缩略图，兼顾细节和整体场景。
灵活可调	用户可在推理阶段实时调整图像 token 数量、分块大小，无需重训即可平衡速度与精度。
开源友好	已在 Hugging Face 开源，兼容 transformers / TRL，附赠 Colab 微调示例。

🏗️ 技术架构

语言模型骨干：继承自 LFM2-1.2B/350M。
视觉编码器：采用 SigLIP2 NaFlex，提供 86M（Base）和 400M（Shape-optimized）两种规格。
跨模态连接器：2 层 MLP + Pixel Unshuffle 技术，将图像 token 数量压缩 4 倍，显著提升吞吐量。

📊 基准成绩

基准测试	LFM2-VL-1.6B 得分
RealWorldQA	65.23（接近 7B 模型）
InfoVQA	58.68
OCRBench	742
MMBench	79.4（超越同量级 SmolVLM2-2.2B）

🚀 应用场景

智能手机：实时图像问答、拍照识物。
可穿戴设备：离线语音+视觉助手。
嵌入式系统：无人机、机器人等低功耗场景。
隐私敏感场景：完全离线运行，保障数据安全。

📜 许可与获取

开源平台：Hugging Face（含权重 + 示例代码）。
许可证：基于 Apache 2.0 的 LFM1.0 许可证，年收入低于 1000 万美元的企业可免费商用。

Liquid AI 通过 LFM2-VL 系列，正在推动 AI 从“云端垄断”走向“端侧普及”，让高性能多模态 AI 真正“跑得快、跑得省、跑得好”。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： OpenAI 月收入首破十亿美元大关，计算资源依旧供不应求

下一篇：发布 OpenSearch 3.2：新功能提升由 AI 支撑的搜索与分析体验

Liquid AI 亮相 LFM2-VL：一款实现低延迟的视觉语言模型，性能卓越

📌 核心亮点

🏗️ 技术架构

📊 基准成绩

🚀 应用场景

📜 许可与获取

最新Ai信息

最新Ai工具

热门AI推荐