首页 > 快讯 > 蚂蚁数科发布多语言视觉大模型训练系统，精准检测文档篡改与逻辑冲突

蚂蚁数科发布多语言视觉大模型训练系统，精准检测文档篡改与逻辑冲突

发布时间：2025-11-04 15:55:48 | 责任编辑：吴昊 | 浏览量：174 次

近日，蚂蚁数科在香港金融科技节上发布了一项革命性的技术 ——“多语种多模态大模型训练框架”，旨在解决当前大模型在多语言环境中的应用瓶颈。随着人工智能技术的飞速发展，大模型正逐渐成为提升各行业效率的重要工具。然而，传统以英文为母语的大模型在小语种环境中表现不佳，常常面临 “语言错乱” 和推理信息混乱的问题，这严重制约了其全球化应用。
为应对这一挑战，蚂蚁数科的研究团队开发了这一新框架，并在多文化多语言视觉问答基准测试（CVQA）中取得了显著成果。该框架在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等资源稀缺的小语种上表现尤为突出，展现出卓越的多语言识别能力，成功跻身榜首。
这一突破的核心在于创新的语言感知优化框架。该框架通过 “以目标语言进行思考” 的机制，结合细粒度多维度的奖励策略与自动化数据解决方案，实现在小语种的深度理解和处理。根据测试结果，与同等规模的开源模型相比，该框架在主流多语言视觉问答（Multilingual Visual Question Answering， VQA）基准测试中准确率提升了约9.5%，在部分任务中甚至优于 GPT-4o 和 Gemini-2.5-flash 等国际主流闭源模型，获得评测总分第一。
在安全能力方面，蚂蚁数科还推出了图像安全框架，结合视觉分析与常识推理的伪造识别路径，能够高效识别图像中的视觉不一致性和逻辑矛盾。这一技术不仅能够定位篡改区域，还能进行可解释分析，显著提升数字内容的风险控制能力。
作为蚂蚁数科全球业务的核心技术，这两项能力已在 ZOLOZ 文档识别鉴真产品（RealDoc）中实现了规模化应用，支持119种语言，能够高效处理多语种商务文档、合同和证件，覆盖保险理赔、信贷审核及跨境贸易等多个场景。

这是一篇关于蚂蚁数科推出多语种视觉大模型训练框架，高效识别文档伪造与逻辑矛盾的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：释放职场高效——Gemini Canvas全新功能登场，AI轻松打造顶级PPT！

下一篇：度小满CEO深度解读：AI赋能普惠金融，大模型如何重塑金融服务格局

蚂蚁数科发布多语言视觉大模型训练系统，精准检测文档篡改与逻辑冲突

最新Ai信息

最新Ai工具

热门AI推荐