首页 > 快讯 > 开源超级语言模型 TildeOpen LLM 由 Tilde AI 推出:兼容多种欧洲语言

开源超级语言模型 TildeOpen LLM 由 Tilde AI 推出:兼容多种欧洲语言

发布时间:2025-09-08 23:23:21 | 责任编辑:张毅 | 浏览量:28 次

Latvian 语言技术公司 Tilde 于2025年9月3日发布了 TildeOpen LLM,这是一个开源的基础大语言模型(LLM),旨在支持欧洲语言,特别是那些较少被代表的国家和地区语言。这一举措标志着欧盟在语言公平和数字主权方面迈出了重要的一步。
TildeOpen LLM 是一个拥有300亿参数的稠密解码器模型,采用了 CC-BY-4.0的宽松许可证,能够支持从拉脱维亚语、立陶宛语到乌克兰语、土耳其语等多种语言。该模型的训练是在欧洲的超级计算机 LUMI(芬兰)和 JUPITER 上进行的,使用了欧盟委员会的大型人工智能大奖挑战赛所提供的200万 GPU 小时的计算资源。
在技术细节方面,TildeOpen LLM 通过受 EleutherAI 启发的 GPT-NeoX 脚本进行训练,共进行了45万次更新,使用了约2万亿个令牌。其训练过程包含三阶段采样:首先在语言间均匀分布,其次是对高数据量语言的自然分布进行增强,最后再进行均匀的扫查以确保平衡。模型的超参数包括60层、嵌入维度6144、48个注意力头、8192-token 的上下文窗口,以及使用 SwiGLU 激活、RoPE 位置编码和 RMSNorm 层规范化。
在语言公平和数据主权方面,传统的主流模型往往侧重于英语和其他主要语言,导致在处理波罗的海、斯拉夫及其他较小的欧洲语言时表现不佳,常常出现语法错误和奇怪的措辞。而 TildeOpen 通过引入 “公平的标记器”,使得不同语言的文本以相似方式进行表示,从而减少标记数量,提高较少代表语言的推理效率。此外,组织可以选择在本地数据中心或符合欧盟要求的安全云中自我托管,确保遵循 GDPR 及其他数据保护法规,从而解决了与美国或亚洲托管模型相关的主权问题。
TildeOpen 作为基础模型,预计会推出更多专门化版本,例如经过指令调优的翻译模型,这将进一步增强其功能。拉脱维亚通过 Tilde 的努力,期望在全球科技领域占据一席之地,同时致力于保护语言多样性。
huggingface:https://huggingface.co/TildeAI/TildeOpen-30b
技术:https://tilde.ai/lv/tildeopen-llm/
划重点:
🌍 TildeOpen LLM 是一个支持多种欧洲语言的开源大语言模型,特别关注小型国家语言的代表性。
💻 模型训练利用了欧洲超级计算机资源,采用先进的三阶段采样技术,确保不同语言的平衡性和公平性。
🔒 组织可自我托管该模型,符合 GDPR 等数据保护法规,提升数据主权的保障。

开源超级语言模型 TildeOpen LLM 由 Tilde AI 推出:兼容多种欧洲语言

这是一篇关于Tilde AI 发布开源 TildeOpen LLM:支持多种欧洲语言的超大语言模型的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐