上海人工智能实验室开源小语种多模态数据集万卷·丝路2.0
发布时间:2025-04-17 08:56:07 | 责任编辑:字母汇 | 浏览量:18 次
由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵盖文本、图片、音频、视频四大模态,数据总量超过1150万条,音视频时长超过2.6万小时,成为小语种多模态领域的重要资源。
“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。它不仅扩充了语种数量,还全面升级了数据模态和总量,新增了图片 - 文本、音频 - 文本、视频 - 文本、特色指令微调(SFT)四大模态数据,覆盖多模态研究全链路。数据经过成熟生产管线及安全加固,结合过滤算法与当地专家人工精细化标注质检,成为覆盖多模态、多领域的高质量数据集,适配文化旅游、商业贸易、科技教育等不同场景。
此次开源的内容包括:图片 - 文本累计开源超过200万条;音频 - 文本开源超过1600小时;视频 - 文本开源超过2.5万小时;SFT 数据开源18万条。开源数据覆盖了多种语种,为开发者提供了丰富的多模态数据资源。
“万卷·丝路2.0”展现出显著的模型赋能效应。基于7B 参数基础模型训练时,模型综合性能跃升52.3%;在700亿参数的大模型训练中,仍保持12.8% 的性能增益。该数据集使轻量化模型在多语言处理领域展现出超越大模型的卓越表现,为多语言模型的微调提供了有力支持。
数据集地址:
https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042
一键微调框架:
GitHub
上海人工智能实验室联合新华社新闻信息中心、上海外国语大学、外研在线等单位,于2025年3月22日发布了全新升级的“万卷·丝路2.0”多语言语料库。以下是其详细介绍:
数据集特点
- 多语言:在阿拉伯语、俄语、韩语、越南语、泰语5个语种基础上,新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。
- 大规模:涵盖四大数据模态共计1150万条数据,音视频时长超过2.6万小时。
- 多模态:在纯文本数据基础上,新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据,覆盖多模态研究全链路。
- 高质量:运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”。
数据模态
- 图片-文本:包含200万余张图片,原始图片总大小362.174G,专注于科技、自然风光、民俗传统等10个高关注度领域且数据分布均匀,采用Alt-text基础描述 + 视觉模型生成扩展描述的双重标注。
- 音频-文本:构建了涵盖8种语言的大规模语音语料库,每种语言均包含200小时超高精度标注数据,并结合环境噪声消除技术有效提高了音质,人工校验通过率为98.2%。
- 视频-文本:涵盖8种语言,每种语言提供100小时的视频数据,视频总时长超过2.6万小时,数据内容聚焦社会人文、娱乐媒体、学识教育和生活文化四大主题。
- 特色指令微调SFT:涉及8种语言,总共提供18.4万条SFT数据,覆盖本地文化、日常对话、代码、数学、科学等领域。
应用前景
- 模型训练:基于“万卷·丝路2.0”,上海AI实验室研究团队训练出匈牙利语大模型,通用能力对标国际主流大模型,在本地化特色、安全性与中国关联性上表现出显著优势。
- 应用开发:衍生出对话平台、多语言AI教师助手、AI匈中双语词典等创新应用。
下载链接
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。