首页 > 快讯 > 小红书强势亮相!最新公开大模型 “dots.llm1” 灿烂揭幕,拥有1420亿参数震撼世界!

小红书强势亮相!最新公开大模型 “dots.llm1” 灿烂揭幕,拥有1420亿参数震撼世界!

发布时间:2025-06-10 17:35:03 | 责任编辑:张毅 | 浏览量:27 次

近日,小红书的 hi lab 团队正式推出了其首个开源文本大模型 ——dots.llm1。这一新模型以其卓越的性能和庞大的参数量引起了业界的广泛关注。
dots.llm1是一款大规模的混合专家(MoE)语言模型,拥有惊人的1420亿个参数,其中激活参数达到140亿。经过11.2TB 的高质量数据训练,这款模型的性能可以与阿里巴巴的 Qwen2.5-72B 相媲美。这意味着 dots.llm1不仅在文本生成方面具有极高的准确性和流畅度,还能支持更复杂的自然语言处理任务。
值得注意的是,这一模型的预训练过程并没有使用合成数据,所有数据均来源于真实场景的高质量文本。这使得 dots.llm1在理解人类语言的细腻度和自然性上更具优势,能够为用户提供更贴近真实的交互体验。
小红书此次开源的决定,标志着其在人工智能领域的进一步扩张,彰显了其在技术创新方面的雄心。开源不仅有助于提升社区的参与度和贡献,也为开发者提供了更多的机会去探索和应用这一强大的工具。
作为一家以内容分享和社交为核心的平台,小红书一直在努力提升其用户体验和技术实力。通过推出 dots.llm1,小红书希望能够为用户提供更加智能化的服务,同时也希望激励更多的开发者参与到人工智能的研究和实践中来。
在未来,我们期待 dots.llm1能在更多领域展现其潜力,比如内容创作、智能客服、以及更复杂的对话系统等。小红书无疑正在以自己的方式,推动人工智能的进步。

小红书强势亮相!最新公开大模型 “dots.llm1” 灿烂揭幕,拥有1420亿参数震撼世界!

小红书于2025年6月6日正式开源了其首个自研大语言模型——dots.llm1。以下是该模型的相关信息:

模型概述

  • 参数规模:dots.llm1是一个拥有1420亿参数的专家混合模型(Mixture of Experts,MoE),但在推理过程中仅激活140亿参数。这种设计在保持高性能的同时,大幅降低了训练和推理成本。

  • 架构设计:该模型采用单向解码器Transformer架构,将前馈网络替换为MoE。它拥有128个路由专家和2个共享专家,每次任务处理时仅动态激活其中表现最佳的6个路由专家和2个共享专家。

训练数据

dots.llm1的最大特色是使用了11.2万亿token的非合成高质量训练数据。小红书构建了一套三级数据处理流水线,从杂乱无章的原始网页数据中筛选出高质量的语料。这种高质量的数据使得dots.llm1在中文测试中表现强劲,以91.3的平均分超过了DeepSeek开源的V2、V3和阿里开源的Qwen2.5 32B和72B。

开源力度

小红书的开源力度非常大,几乎达到了行业天花板:

  • 开源了dots.llm1.inst模型,可直接使用。

  • 开源了一系列pretrain base模型,包括每经过1万亿token后保存的checkpoint。

  • 开源了退火两阶段训练对应的模型checkpoint。

  • 开源了长文base模型。

  • 详细介绍了lr schedule和batch size等信息,便于开发者进行Continue Pretraining和Supervised Fine-tuning。

性能表现

dots.llm1在中英文通用场景、数学、代码、对齐任务上的表现亮眼,与Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct相比具备较强的竞争力。在与更先进的Qwen3-32B对比时,dots.llm1在中英文、数学、对齐任务上表现接近。

开源地址

dots.llm1的开源地址为:https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复