首页 > 快讯 > 英伟达推出Llama Nemotron Nano VL AI，OCRBench测试中表现出色，提供高效文档处理技术

英伟达推出Llama Nemotron Nano VL AI，OCRBench测试中表现出色，提供高效文档处理技术

发布时间：2025-06-05 10:10:48 | 责任编辑：张毅 | 浏览量：293 次

英伟达（NVIDIA）于2025年6月3日正式发布 Llama Nemotron Nano VL，一款专为文档智能处理优化的紧凑型视觉-语言模型(VLM)。该模型在 OCRBench v2基准测试中荣登榜首，展现了其在处理复杂文档、图表和视频帧方面的卓越能力。凭借高效的推理性能和灵活的部署方式，Llama Nemotron Nano VL 为企业提供了从云端到边缘设备的高精度文档处理解决方案。
Llama Nemotron Nano VL:紧凑高效的文档处理利器
Llama Nemotron Nano VL 基于 Meta 的 Llama3.1架构，结合轻量级视觉编码器 CRadioV2-H，参数规模仅为8B，却在文档理解任务中表现出色。该模型支持多模态输入，覆盖多页文档、扫描表格、财务报告和技术图表等复杂场景，上下文长度可达16K 令牌，适用于长文档处理和多跳推理任务。
其核心优势在于高效推理性能，通过 AWQ4bit 量化技术，模型可在单块 NVIDIA RTX GPU 或 Jetson Orin 边缘设备上运行，显著降低部署成本。这使得 Llama Nemotron Nano VL 成为需要在资源受限环境中运行 AI 代理的企业的理想选择。
OCRBench v2登顶，文档解析能力领先
Llama Nemotron Nano VL 在 OCRBench v2基准测试中取得最高分，超越同类紧凑型视觉-语言模型。OCRBench v2包含超过10，000个人工验证的问答对，覆盖金融、医疗、法律和科学出版等领域的文档，测试内容包括光学字符识别（OCR）、表格解析和图表推理。
该模型在提取结构化数据（如表格和键值对）以及回答基于布局的问题方面表现出色，尤其在非英语文档和低质量扫描场景下展现了强大的鲁棒性。这种高精度和泛化能力使其在自动化文档问答、智能 OCR 和信息提取等场景中具有广泛应用前景。
灵活部署，赋能企业多场景应用
Llama Nemotron Nano VL 支持从数据中心到边缘设备的灵活部署，兼容 NVIDIA 的 TensorRT-LLM 框架，确保在 GPU 加速系统上的高效运行。企业可通过 NVIDIA NeMo 微服务对其进行定制，适配特定领域需求，如财务分析、医疗记录处理或法律文档审核。
此外，该模型支持单图和视频推理，适用于图像摘要、文本-图像分析和交互式问答等任务。其开源特性（遵循 NVIDIA Open Model License 和 Llama3.1Community License）允许商业用途，为开发者提供了构建定制化 AI 代理的自由。
英伟达在智能代理领域的战略布局
Llama Nemotron Nano VL 是英伟达 Nemotron 模型家族的重要组成部分，体现了其在智能代理（Agentic AI）领域的持续投入。通过结合 Llama 架构和英伟达的优化技术，该模型不仅提升了推理效率，还在文档处理领域树立了新标杆。
英伟达还计划通过 NeMo 框架和 NIM 微服务进一步扩展模型功能，支持更多多模态任务，如视频搜索和物理感知视频生成。这表明英伟达正致力于构建一个覆盖从边缘到云端的全面 AI 生态，为企业数字化转型提供强大支持。
Llama Nemotron Nano VL 的发布标志着紧凑型视觉-语言模型在企业级应用中的新突破。其高效性和高精度为自动化文档处理、知识管理和智能协作开辟了新可能。小编将持续跟踪英伟达在 AI 领域的最新进展，为读者提供前沿技术洞察。
入口:https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1

英伟达于2025年6月3日正式发布了Llama Nemotron Nano VL AI，这是一款专为文档智能处理优化的紧凑型视觉-语言模型（VLM），在OCRBench v2基准测试中登顶，展现了其卓越的高精度文档处理能力。

模型特点

架构设计：Llama Nemotron Nano VL基于Meta的Llama 3.1架构，结合了轻量级视觉编码器CRadioV2-H，参数量仅为8B。该模型支持多模态输入，能够处理多页文档、扫描表格、财务报告和技术图表等复杂场景，上下文长度可达16K tokens。
性能表现：在OCRBench v2基准测试中，该模型在OCR、表格解析和图表推理等任务上展现了领先精度，尤其在结构化数据提取（如表格和键值对）及布局相关问题解答方面表现出色。此外，它在非英语文档和低质量扫描场景中也表现出强大的鲁棒性。
推理效率：通过AWQ 4bit量化技术，该模型可以在单个NVIDIA RTX GPU或Jetson Orin边缘设备上高效运行，显著降低了部署成本。

部署灵活性

Llama Nemotron Nano VL支持从数据中心到边缘设备的灵活部署，兼容NVIDIA的TensorRT-LLM框架，确保在GPU加速系统上的高效运行。此外，它还支持单图像和视频推理，适用于图像总结、图文分析和交互式问答等任务。

应用场景

该模型适用于多种企业级文档处理场景，包括但不限于：

企业自动化：自动处理发票、合同审核和合规性检查。
医疗信息学：从扫描的病历中提取诊断信息和实验室数据。
金融服务：解析收益报告和表格资产负债表。
教育与研究：总结学术论文和注释图表。
公共部门：处理多语言表格和行政文件。

开源与商业化

Llama Nemotron Nano VL在NVIDIA开放模型许可和Llama 3.1社区许可下开源，允许商业使用，为开发者提供了构建定制AI代理的自由。

Llama Nemotron Nano VL的发布标志着紧凑型视觉-语言模型在企业级应用中的新突破，其高效性和高精度为自动化文档处理、知识管理和智能协作开辟了新的可能性。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。