首页 > 快讯 > 小红书强势亮相！最新公开大模型 “dots.llm1” 灿烂揭幕，拥有1420亿参数震撼世界！

小红书强势亮相！最新公开大模型 “dots.llm1” 灿烂揭幕，拥有1420亿参数震撼世界！

发布时间：2025-06-10 17:35:03 | 责任编辑：张毅 | 浏览量：101 次

近日，小红书的 hi lab 团队正式推出了其首个开源文本大模型 ——dots.llm1。这一新模型以其卓越的性能和庞大的参数量引起了业界的广泛关注。
dots.llm1是一款大规模的混合专家（MoE）语言模型，拥有惊人的1420亿个参数，其中激活参数达到140亿。经过11.2TB 的高质量数据训练，这款模型的性能可以与阿里巴巴的 Qwen2.5-72B 相媲美。这意味着 dots.llm1不仅在文本生成方面具有极高的准确性和流畅度，还能支持更复杂的自然语言处理任务。
值得注意的是，这一模型的预训练过程并没有使用合成数据，所有数据均来源于真实场景的高质量文本。这使得 dots.llm1在理解人类语言的细腻度和自然性上更具优势，能够为用户提供更贴近真实的交互体验。
小红书此次开源的决定，标志着其在人工智能领域的进一步扩张，彰显了其在技术创新方面的雄心。开源不仅有助于提升社区的参与度和贡献，也为开发者提供了更多的机会去探索和应用这一强大的工具。
作为一家以内容分享和社交为核心的平台，小红书一直在努力提升其用户体验和技术实力。通过推出 dots.llm1，小红书希望能够为用户提供更加智能化的服务，同时也希望激励更多的开发者参与到人工智能的研究和实践中来。
在未来，我们期待 dots.llm1能在更多领域展现其潜力，比如内容创作、智能客服、以及更复杂的对话系统等。小红书无疑正在以自己的方式，推动人工智能的进步。

小红书于2025年6月6日正式开源了其首个自研大语言模型——dots.llm1。以下是该模型的相关信息：

模型概述

参数规模：dots.llm1是一个拥有1420亿参数的专家混合模型（Mixture of Experts，MoE），但在推理过程中仅激活140亿参数。这种设计在保持高性能的同时，大幅降低了训练和推理成本。
架构设计：该模型采用单向解码器Transformer架构，将前馈网络替换为MoE。它拥有128个路由专家和2个共享专家，每次任务处理时仅动态激活其中表现最佳的6个路由专家和2个共享专家。

训练数据

dots.llm1的最大特色是使用了11.2万亿token的非合成高质量训练数据。小红书构建了一套三级数据处理流水线，从杂乱无章的原始网页数据中筛选出高质量的语料。这种高质量的数据使得dots.llm1在中文测试中表现强劲，以91.3的平均分超过了DeepSeek开源的V2、V3和阿里开源的Qwen2.5 32B和72B。

开源力度

小红书的开源力度非常大，几乎达到了行业天花板：

开源了dots.llm1.inst模型，可直接使用。
开源了一系列pretrain base模型，包括每经过1万亿token后保存的checkpoint。
开源了退火两阶段训练对应的模型checkpoint。
开源了长文base模型。
详细介绍了lr schedule和batch size等信息，便于开发者进行Continue Pretraining和Supervised Fine-tuning。

性能表现

dots.llm1在中英文通用场景、数学、代码、对齐任务上的表现亮眼，与Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct相比具备较强的竞争力。在与更先进的Qwen3-32B对比时，dots.llm1在中英文、数学、对齐任务上表现接近。

开源地址

dots.llm1的开源地址为：https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。