DeepSeek-R1 等硅基流动推理模型API升级,涵盖128K长上下文支持
发布时间:2025-05-22 13:21:02 | 责任编辑:张毅 | 浏览量:6 次
硅基流动(SiliconCloud)宣布对其 DeepSeek-R1等推理模型 API 进行了一次重要升级,旨在更好地满足开发者对长上下文和灵活参数配置的需求。此次升级中,多个推理模型的最大上下文长度被提升至128K,使得模型在思考时能够更加充分,输出内容也更为完整。
在此次升级中,多个知名模型,如 Qwen3、QWQ、GLM-Z1等,均支持128K 的最大上下文长度,而 DeepSeek-R1则支持96K。这一提升为复杂推理任务,如代码生成和智能体的应用提供了强有力的支持。
更为重要的是,硅基流动还引入了独立控制 “思维链” 和 “回复内容” 长度的功能。通过这种方式,开发者能够更加高效地利用模型的推理能力。最大回复长度(max_tokens)现在仅用于限制模型最终输出给用户的内容,而思维链长度(thinking_budget)则专门用来控制模型在思考阶段的 Token 使用量。这样的设计使得开发者能够根据实际任务的复杂程度,灵活调整模型的思考深度和输出长度。
以 SiliconCloud 平台的 Qwen3-14B 为例,用户可以通过设置 thinking_budget 和 max_tokens 来分别控制模型的最大思维链长度和最大回复长度。在推理过程中,若思考阶段生成的 Token 数达到 thinking_budget,Qwen3系列推理模型会强制停止思维链推理。而对于其他推理模型,则可能会继续输出思考内容。
此外,如果最大回复长度超过 max_tokens 或上下文长度超出 context_length 限制,模型输出的回复内容将会被截断,响应中的 finish_reason 字段将标记为 length,表示因长度限制而终止输出。
欲了解更多关于 API 使用的细节,用户可以访问硅基流动的官方文档。随着硅基流动的不断创新,用户体验将持续提升,更多功能也将相继推出。
https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning
划重点:
🔹 支持128K 最大上下文长度,提升模型思考和输出能力。
🔹 独立控制思维链和回复内容长度,提高开发者灵活性。
🔹 若达到长度限制,模型输出将会被截断,并标记原因。
硅基流动(SiliconCloud)宣布对其DeepSeek-R1等推理模型API进行了重要升级,以更好地满足开发者对长上下文和灵活参数配置的需求。以下是此次升级的主要内容:
支持更长的上下文长度
-
DeepSeek-R1:最大上下文长度提升至96K。
-
其他模型:如Qwen3、QWQ、GLM-Z1等模型支持128K的最大上下文长度。
-
应用场景:这一提升使得模型能够更好地处理复杂推理任务,如代码生成、智能体应用等。
独立控制思维链与回复内容长度
-
思维链长度(thinking_budget):仅用于控制模型思考阶段的Token使用量。
-
最大回复长度(max_tokens):仅用于限制模型最终输出给用户的内容。
-
优势:开发者可以根据任务的复杂程度灵活调整模型的思考深度和输出长度。
输出行为规则
-
若思考阶段生成的Token数达到
thinking_budget
,Qwen3系列模型会强制停止思维链推理。 -
若最大回复长度超过
max_tokens
或上下文长度超出context_length
限制,模型输出的回复内容将会被截断,并在响应中的finish_reason
字段标记为length
。
其他信息
-
API使用文档:用户可以访问硅基流动的官方文档,了解更多关于API使用的细节。
-
技术架构升级:硅基流动还引入了动态批处理和连续令牌预测技术,提升了计算效率。
此次升级为开发者提供了更强大的推理能力和更高的灵活性,有助于提升模型在复杂任务中的表现。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。