首页 > 快讯 > Liquid AI 亮相 LFM2-VL:一款实现低延迟的视觉语言模型,性能卓越

Liquid AI 亮相 LFM2-VL:一款实现低延迟的视觉语言模型,性能卓越

发布时间:2025-08-21 09:59:56 | 责任编辑:张毅 | 浏览量:3 次

Liquid AI 正式推出 LFM2-VL,这是一款全新的视觉语言基础模型系列,专为低延迟和设备适应性部署而优化。此次发布的 LFM2-VL 模型包括两个高效的变体:LFM2-VL-450M 和 LFM2-VL-1.6B,这标志着多模态 AI 在智能手机、笔记本电脑、可穿戴设备和嵌入式系统中的应用取得了重要进展,而不牺牲速度和准确性。
LFM2-VL 模型经过精心设计,相比现有的视觉语言模型,其 GPU 推理速度提高了两倍,同时在图像描述、视觉问答和多模态推理等任务上保持了竞争力的基准表现。450M 参数的版本专为资源受限的环境而设计,而1.6B 参数的版本则在保持轻量级的同时,提供更强大的能力,适合单 GPU 或高端移动设备使用。
在技术创新方面,LFM2-VL 采用模块化架构,结合了语言模型主干(LFM2-1.2B 或 LFM2-350M)、SigLIP2NaFlex 视觉编码器(400M 或86M 参数)和多模态投影器,使用 “像素解混” 技术动态减少图像标记数量,以实现更快的处理速度。此外,模型能够以原始分辨率处理图像,最高可达512×512像素,避免了因放大而造成的失真。较大的图像会被分割为不重叠的512×512补丁,确保细节和长宽比的保留。1.6B 版本还会编码全图的缩小缩略图,以便提供全球上下文理解。
LFM2-VL 模型的灵活推理能力使用户能够在推理时调整速度和质量的平衡,适应设备能力和应用需求。模型经过预训练、联合中训练以融合视觉和语言能力,最终在大约1000亿个多模态标记上进行了微调,确保了其在图像理解方面的出色表现。
在公共基准测试中,LFM2-VL 的表现与 InternVL3和 SmolVLM2等大型模型相媲美,但内存占用更小、处理速度更快,非常适合边缘和移动应用。两种模型均为开放权重,并可在 Hugging Face 上下载,适用于研究和商业使用。对于大型企业,则需联系 Liquid AI 以获取商业许可证。这些模型与 Hugging Face Transformers 无缝集成,并支持量化,以进一步提升在边缘硬件上的效率。
LFM2-VL 旨在帮助开发者和企业快速、准确且高效地在设备上部署多模态 AI,减少对云的依赖,推动机器人、物联网、智能摄像头和移动助手等新应用的出现。
huggingface:https://huggingface.co/collections/LiquidAI/lfm2-vl-68963bbc84a610f7638d5ffa
划重点:
🌟 LFM2-VL 模型提供超高效的 GPU 推理速度,比现有模型快两倍,适合各种设备使用。
🖼️ 支持原始分辨率处理图像,并且能够处理大图像,确保细节不失真。
🚀 两种模型均为开放权重,可在 Hugging Face 上下载,适合研究和商业应用。

Liquid AI 亮相 LFM2-VL:一款实现低延迟的视觉语言模型,性能卓越

Liquid AI 最新发布的 LFM2-VL 是一系列专为端侧(智能手机、可穿戴设备、嵌入式系统等)设计的超高效视觉-语言基础模型,主打低延迟、低功耗、高精度

📌 核心亮点

特性 LFM2-VL 实现方式
超低延迟 推理速度比同类视觉语言模型提升2倍,在 RTX 4090 上处理 1024×1024 图像仅需 120ms
超轻量 两个版本:

原生分辨率 支持 512×512 像素原生输入,避免失真;大图自动切块 + 全局缩略图,兼顾细节和整体场景。
灵活可调 用户可在推理阶段实时调整图像 token 数量、分块大小,无需重训即可平衡速度与精度。
开源友好 已在 Hugging Face 开源,兼容 transformers / TRL,附赠 Colab 微调示例。

🏗️ 技术架构

  • 语言模型骨干:继承自 LFM2-1.2B/350M。

  • 视觉编码器:采用 SigLIP2 NaFlex,提供 86M(Base)和 400M(Shape-optimized)两种规格。

  • 跨模态连接器:2 层 MLP + Pixel Unshuffle 技术,将图像 token 数量压缩 4 倍,显著提升吞吐量。

📊 基准成绩

基准测试 LFM2-VL-1.6B 得分
RealWorldQA 65.23(接近 7B 模型)
InfoVQA 58.68
OCRBench 742
MMBench 79.4(超越同量级 SmolVLM2-2.2B)

🚀 应用场景

  • 智能手机:实时图像问答、拍照识物。

  • 可穿戴设备:离线语音+视觉助手。

  • 嵌入式系统:无人机、机器人等低功耗场景。

  • 隐私敏感场景:完全离线运行,保障数据安全。

📜 许可与获取

  • 开源平台:Hugging Face(含权重 + 示例代码)。

  • 许可证:基于 Apache 2.0 的 LFM1.0 许可证,年收入低于 1000 万美元的企业可免费商用。

Liquid AI 通过 LFM2-VL 系列,正在推动 AI 从“云端垄断”走向“端侧普及”,让高性能多模态 AI 真正“跑得快、跑得省、跑得好”。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐