首页 > 快讯 > 正式发布的Qwen3-Embedding系列模型来自通义千问

正式发布的Qwen3-Embedding系列模型来自通义千问

发布时间：2025-06-06 10:21:44 | 责任编辑：张毅 | 浏览量：938 次

近日，通义千问官方正式发布了Qwen3-Embedding系列模型，作为Qwen模型家族的新成员，该系列模型专为文本表征、检索与排序任务而设计。Qwen3-Embedding系列基于Qwen3基础模型进行训练，充分继承了Qwen3在多语言文本理解能力上的显著优势。
该系列模型在多项基准测试中表现出色，特别是在文本表征和排序任务中展现了卓越性能。测试使用了MTEB（包括英文版v2、中文版v1、多语言版以及代码版）中的检索数据集，排序结果基于Qwen3-Embedding-0.6B的top-100向量召回结果。值得一提的是，8B参数规模的Embedding模型在MTEB多语言榜单中位列第一，得分高达70.58，性能超越众多商业API服务。
Qwen3-Embedding系列提供了从0.6B到8B参数规模的三种模型配置，以满足不同场景下的性能与效率需求。开发者可以灵活组合表征与排序模块，实现功能的扩展。此外，模型还支持表征维度自定义和指令适配优化，允许用户根据实际需求调整表征维度，并自定义指令模板，以提升特定任务、语言或场景下的性能表现。
在多语言支持方面，Qwen3-Embedding系列表现出色，支持超过100种语言，涵盖主流自然语言及多种编程语言，具备强大的多语言、跨语言及代码检索能力。该系列模型采用了双塔结构和单塔结构的设计，分别用于Embedding模型和Reranker模型，通过LoRA微调最大限度地保留并继承了基础模型的文本理解能力。
训练过程中，Qwen3-Embedding系列采用了多阶段训练范式，并针对具体应用场景进行了深度优化。Embedding模型通过三阶段训练架构，包括超大规模弱监督数据的对比学习预训练、高质量标注数据的监督训练以及模型融合策略，有效平衡了模型的泛化能力与任务适配性。而Reranker模型则直接采用高质量标注数据进行监督训练，以提升训练效率。
此次发布的Qwen3-Embedding系列模型已在Hugging Face、ModelScope和GitHub平台开源，用户也可直接使用阿里云百炼平台提供的最新文本向量模型服务。官方表示，这只是一个新的起点，依托于Qwen基础模型的持续优化，将继续提升文本表征与排序模型的训练效率，并计划拓展多模态表征体系，构建跨模态语义理解能力。
ModelScope:
https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48
https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f
Hugging Face:
https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
GitHub:
https://github.com/QwenLM/Qwen3-Embedding

2025年6月6日，通义千问团队正式发布了Qwen3-Embedding系列模型。以下是该系列模型的相关信息：

模型特点

专为特定任务设计：Qwen3-Embedding系列模型专为文本表征、检索与排序任务而设计，能够为文本生成高质量的向量表示，从而更好地支持文本检索和排序等应用。
多语言支持：该系列模型支持超过100种语言，涵盖主流自然语言及多种编程语言，具备强大的多语言、跨语言及代码检索能力。
灵活的模型配置：提供了从0.6B到8B参数规模的三种模型配置，以满足不同场景下的性能与效率需求。开发者可以根据实际需求灵活选择合适的模型。
自定义能力：支持表征维度自定义和指令适配优化，用户可以根据具体任务、语言或场景需求，调整表征维度并自定义指令模板，从而优化性能。

技术架构

双塔结构和单塔结构：Qwen3-Embedding系列采用了双塔结构和单塔结构的设计，分别用于Embedding模型和Reranker模型，通过LoRA微调最大限度地保留并继承了基础模型的文本理解能力。
多阶段训练范式：Embedding模型通过三阶段训练架构，包括超大规模弱监督数据的对比学习预训练、高质量标注数据的监督训练以及模型融合策略，有效平衡了模型的泛化能力与任务适配性。而Reranker模型则直接采用高质量标注数据进行监督训练，以提升训练效率。

性能表现

卓越的测试成绩：在多项基准测试中表现出色，特别是在文本表征和排序任务中展现了卓越性能。8B参数规模的Embedding模型在MTEB多语言榜单中位列第一，得分高达70.58，性能超越众多商业API服务。

开源与服务

开源平台：Qwen3-Embedding系列模型已在Hugging Face、ModelScope和GitHub平台开源，用户可以方便地获取和使用这些模型。
云平台服务：用户也可以直接使用阿里云百炼平台提供的最新文本向量模型服务，无需自行部署和维护模型。

未来展望

官方表示，这只是一个新的起点，依托于Qwen基础模型的持续优化，将继续提升文本表征与排序模型的训练效率，并计划拓展多模态表征体系，构建跨模态语义理解能力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。