首页 > 快讯 > 新一代紧凑型模型SmolLM3由Hugging Face揭幕：具备128K上下文容量与双模式推理能力

新一代紧凑型模型SmolLM3由Hugging Face揭幕：具备128K上下文容量与双模式推理能力

发布时间：2025-07-09 09:18:49 | 责任编辑：张毅 | 浏览量：84 次

近日，全球知名的大模型开放平台 Hugging Face 正式发布了其最新开源模型 ——SmolLM3。这款模型拥有30亿参数，尽管参数量相对较小，但其性能显著超过了同类的开源模型，如 Llama-3.2-3B 和 Qwen2.5-3B。
SmolLM3不仅支持128k 的上下文窗口，还能够流畅处理英语、法语、西班牙语、德语等多种语言的文本，标志着在小参数模型领域的又一重要进展。
SmolLM3具备深度思考和非思考两种推理模式，用户可以根据实际需要灵活切换。这一创新设计让模型在处理复杂问题时，能够更好地发挥其推理能力，尤其是在需要深入分析的场景下。
值得注意的是，Hugging Face 对 SmolLM3的架构细节、数据混合方法以及模型训练流程均进行了公开。这一开放策略将极大地促进开发者们对该模型的研究与优化，推动开源 AI 模型的进一步发展。
SmolLM3采用了先进的 transformer 解码器架构，借鉴了 SmolLM2的设计，同时对 Llama 进行了关键性改进，以提升效率和长上下文的表现。具体而言，模型使用了分组查询注意力机制和文档内掩码技术，以确保长上下文训练的有效性。
在训练配置方面，SmolLM3的参数量为3.08B，使用了36层的深度结构，优化器为 AdamW，经过24天的分布式训练，最终形成了强大的模型。
该模型的训练过程分为三个阶段，利用多种类型的数据进行混合训练。在第一阶段，模型通过网络、数学和代码数据的综合训练建立通用能力;第二阶段则引入更高质量的数学与代码数据;最后，在第三阶段中，模型进一步增强了对数学与代码数据的采样，提升了其推理和指令遵循能力。
随着 SmolLM3的发布，Hugging Face 再一次巩固了其在 AI 领域的领先地位。此模型不仅具备强大的推理能力，还以其高效的性能为开发者提供了丰富的应用前景。未来，随着更多的开源研究与社区合作，SmolLM3有望在各类应用场景中发挥更大的作用。
基础模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base
推理和指导模型:https://huggingface.co/HuggingFaceTB/SmolLM3-3B

Hugging Face于2025年7月9日发布了新一代小参数模型SmolLM3。以下是该模型的主要特点：

模型参数与性能

参数量：SmolLM3仅有30亿参数，但其性能显著超过了其他同类开源模型，例如Llama-3.2-3B和Qwen2.5-3B。
多语言支持：该模型支持六种语言，包括英语、法语、西班牙语、德语等。

上下文窗口

SmolLM3的上下文窗口长度达到了128K tokens，这比其训练时的64K tokens长度翻了一倍。这种长上下文能力使其能够更好地处理长文本任务。

双模式推理

SmolLM3支持“深度思考”和“非思考”两种推理模式，用户可以根据需求灵活切换。这种双模式推理方式为用户提供了更广泛的应用场景和更高的灵活性。

SmolLM3的发布进一步推动了小参数模型的发展，其在性能和效率上的优势使其在实际应用中具有很大的潜力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：全球推出Vidu Q1 考生视频服务最高可容纳七个主体输入

下一篇： “智能办公新时代：钉钉推出 ‘AI 表格’ 功能”

最新Ai工具

新

VideoLingo 中国🇨🇳

VideoLingo 是一款专注于视频内容本地化的 AI 工具，提供多语言翻译、专业术语识别、智能字幕生成和智能配音等功能，帮助用户快速实现高质量的视频本地化。

新

Vid2txt 美国🇺🇸

Vid2txt 是一款简单易用的 AI 驱动的视频和音频转录应用，支持多种格式，提供快速、准确且离线的转录服务。

新

Vespa 挪威🇳🇴

Vespa 是一个专注于开发和运营大规模应用的AI搜索平台，结合了大数据、向量搜索、机器学习排序和实时推理。它支持原生张量操作，适用于复杂排序和决策，能够实现企业级的实时AI应用，如RAG（检索增强生成）、推荐和智能搜索。Vespa 支持查询、组织和推断向量、张量、文本和结构化数据，能够在低延迟（低于100毫秒）的情况下处理数十亿动态变化的数据项和数千次查询。它还支持混合搜索、相关性模型和多向量表示，适用于生成式AI应用、推荐和个性化系统、半结构化导航以及个人/私密搜索等多种场景。

新

Vault 美国🇺🇸

Vault 是一个基于 AI 的内容智能平台，通过预测性内容智能技术，帮助媒体公司和内容创作者提前预测内容表现，优化内容生命周期中的决策。

新

Vanna 美国🇺🇸

Vanna 是一个企业级的AI解决方案平台，专注于数据检索、分析和文本到SQL的能力。它提供多种产品，包括无需设置即可使用的Vanna Cloud、可在企业内部部署的Vanna Self-Hosted Enterprise、可通过API集成到现有应用中的Vanna Embedded，以及完全开源的Vanna OSS。Vanna 的核心优势在于其高准确性、安全性设计、自学习能力和高度可定制性，支持多种数据库和前端集成，帮助用户通过自然语言查询快速获取数据库中的洞察，减少编写SQL的时间。

新

Helicone 美国🇺🇸

Helicone 是一个为快速增长的AI公司提供的平台，帮助他们路由、调试和分析应用程序。该平台支持无需信用卡的7天免费试用，旨在帮助开发者快速构建和优化AI应用。

新一代紧凑型模型SmolLM3由Hugging Face揭幕：具备128K上下文容量与双模式推理能力

模型参数与性能

上下文窗口

双模式推理

最新Ai信息

最新Ai工具

发表回复

热门AI推荐