粤语数字化新突破!AI-DimSum 多模态语料库平台正式上线
发布时间:2025-12-08 09:52:15 | 责任编辑:字母汇 | 浏览量:6 次
在广州市的广州大学,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会于12月6日至7日成功举行。此次大会上,广州大学的哲学社会科学重点实验室发布了全新的 AI-DimSum 粤语语料库平台,这标志着粤语的数字化发展迈入了一个崭新的阶段。
粤语,作为汉语的一个重要方言,全球使用人数超过亿人,但在互联网领域却一直被视为低资源语言。对此,广州大学网络空间安全学院的教授齐佳音指出,AI-DimSum 平台围绕 “数字中文建设” 和粤港大湾区的文化数字化需求,致力于构建一个基于岭南文化、面向人工智能应用的多模态粤语语料数据生态系统。该系统遵循 “标准先行、数据可溯、服务可用” 的原则,为粤语的学习和研究提供了良好的基础。
AI-DimSum 平台设有七个子系统,包括语料采集、标注、模型对接、确权检索、质量评估、管理以及应用商店等,形成了一个完整的数据处理链条。这意味着从数据的采集到最终的应用发布,整个过程都可以实现高效的协同工作,推动粤语语料库的构建与管理。
目前,AI-DimSum 粤语语料库已汇聚了超过100万字的文本数据,涵盖新闻、文学和社交媒体等多个领域。此外,该平台还完成了3000小时的高保真语音标注及超过1TB 的音视频资料,其中包括粤语字幕的热门动画和影视作品,如《功夫熊猫》和《小猪佩奇》。平台提供的多用途粤语生活场景音频和文字语料也超过1万句,并收录了丰富的岭南文化图像素材,累计达到10000张。
值得一提的是,AI-DimSum 还构建了一个包含6669条权威词条和30000条扩展词条的粤语安全语料库,以及超过20万道粤语内容安全多模态评测题。这些成果不仅为粤语的学习和应用提供了丰富的资源,也将为未来的粤语大模型开发奠定坚实的基础。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
