开源企业级文档AI模型Granite-Docling-258M由IBM正式发布
发布时间:2025-09-18 10:55:26 | 责任编辑:张毅 | 浏览量:1 次
近日,IBM 正式发布了 Granite-Docling-258M,这是一个开源的视觉语言模型,专为端到端文档转换而设计。与传统的 OCR(光学字符识别)技术相比,Granite-Docling 注重保持文档的布局信息,能够有效提取表格、代码、公式、列表、标题等元素,并输出结构化的机器可读格式,而非简化的 Markdown 格式。该模型已在 Hugging Face 平台上线,用户可以进行现场演示并获得适用于 Apple Silicon 的 MLX 版本。
Granite-Docling 是 SmolDocling-256M 的改进版。IBM 对原有的技术架构进行了优化,采用了 Granite165M 语言模型,并升级了视觉编码器为 SigLIP2,同时保持了 Idefics3风格的连接器。这一系列更新使得 Granite-Docling 的参数量达到了258M,并在布局分析、全页 OCR、代码、公式及表格的精确度上都有显著提升。此外,IBM 还解决了在预览模型中发现的不稳定性问题,如重复令牌循环现象。
Granite-Docling 采用了基于 Idefics3的架构,使用了 nanoVLM 训练框架。其输出的 DocTags 是 IBM 开发的一种标记语言,能够清晰地表示文档结构,包括元素、坐标和关系,方便后续工具将其转换为 Markdown、HTML 或 JSON 格式。这种结构化的输出方式,不仅保持了表格拓扑、数学公式、代码块及标题的顺序,还提高了数据索引的质量和增强了检索能力。
在多语言支持方面,Granite-Docling 首次增加了对日语、阿拉伯语和中文的实验性支持,但目前以英语为主要目标。IBM 建议用户将 Granite-Docling 与 Docling 集成,利用其 CLI/SDK 自动转换 PDF、办公文档及图片至多种格式。这款模型能够在 Transformers、vLLM、ONNX 和 MLX 等运行环境中流畅运行,特别为 Apple Silicon 进行了优化。
Granite-Docling 的推出标志着企业级文档 AI 技术的又一次重大进步。通过整合 IBM 的 Granite 基础架构、SigLIP2视觉编码器以及 nanoVLM 训练框架,该模型在保持轻量级的同时,提供了卓越的性能表现,为表格、公式、代码和多语言文本处理提供了坚实基础。总的来看,Granite-Docling 为精确和可靠的文档转换以及增强检索工作流提供了切实可行的解决方案。
huggingface:https://huggingface.co/collections/ibm-granite/granite-docling-682b8c766a565487bcb3ca00
划重点:
🌟 新模型 Granite-Docling-258M 旨在提高文档转换精度,并保持布局信息。
🔧 采用先进的技术架构,相较于前版本 SmolDocling 在多个领域表现出色。
🌍 新增对多种语言的支持,增强了模型的应用范围和灵活性。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。