Granite-Docling-258M 模型新推:IBM 引领文件转换技术创新
发布时间:2025-09-22 11:12:33 | 责任编辑:张毅 | 浏览量:1 次
近日,IBM 正式发布了一款名为 Granite-Docling-258M 的轻量级视觉语言 AI 模型。该模型专为文件转换设计,具备强大的多语言支持,包括中文、阿拉伯语和日语,旨在提升文档处理的效率和准确性。Granite-Docling-258M 的参数量为2.58亿,是一款专为文档表格处理而优化的模型。
与传统的 OCR 软件相比,Granite-Docling-258M 在识别准确度上有显著提升。其输出结果不仅能够完整保留原始文档的版面结构,还能有效识别表格、数学公式、列表和代码块等多种元素。这一新技术的核心在于 IBM Research 开发的 DocTags,这是一套通用文件结构标记语言,能够精确描述页面元素的类型、位置和阅读顺序。
Granite-Docling-258M 在文档转换的过程中,首先识别文档中的各个元素,然后再执行 OCR 识别。这种方法使得内容的提取和输出更加高效和准确。完成转换后,用户可以将内容导出为 Markdown、JSON、HTML 等多种格式,满足不同的使用需求。此外,IBM 还计划将 DocTags 词汇表纳入 Granite 的分词器和训练流程,以进一步提升模型的性能。
目前,Granite-Docling-258M 还未达到企业级的应用水平,但 IBM 表示,他们将持续扩展语言的覆盖范围,并提升模型的可靠性。未来,IBM 还将致力于增强 DocTags 与 IBM watsonx.ai 模型的兼容性,确保技术的全面应用。
这款新模型的发布,无疑为文档处理领域带来了新的技术选择,也为相关行业的效率提升提供了强有力的支持。
huggingface:https://huggingface.co/ibm-granite/granite-docling-258M
划重点:
📄 ** 轻量级模型 **:IBM 发布 Granite-Docling-258M,专为文件转换设计。
🔍 ** 高准确度 **:该模型在识别准确度上优于传统 OCR 软件,支持多种文档元素。
🌍 ** 多语言支持 **:Granite-Docling-258M 目前支持中文、阿拉伯语和日语,未来将扩展更多语言。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。