性能飞跃,幻象全消!中国移动“九天”3.0盛大发布,多项关键技术同步开放
发布时间:2025-07-29 12:47:17 | 责任编辑:吴昊 | 浏览量:8 次
7月26日,在2025世界人工智能大会“AI 焕新 产业共赢”企业人工智能产业发展论坛上,中国移动隆重发布了其自主研发的 “九天”基础大模型3.0。此次发布不仅彰显了中国移动在大模型领域的深厚自研实力和持续创新能力,更标志着其在人工智能产业化发展道路上迈出了坚实一步。
作为国务院国资委战新“百大工程”的重要成果,“九天”基础大模型3.0在继承“高安全、高可控、全国产、全行业”四大特性的基础上,实现了三大关键“焕新”:
“九天众擎语言大模型”实现了架构上的突破性创新,采用可扩展至万亿级的 MoE 架构。通过15T token 的多阶段配比预训练数据与全流程治理体系,其推理能力得到显著强化。该模型还创新构建了113域 ×53能力的二维分级后训练框架,结合动态强化学习策略,使复杂推理能力提升了 35%。
在权威榜单评测中,“九天”语言大模型成绩斐然:
在 GPQA-Diamond 评测中,以 77.67分斩获全球第二,超越 DeepSeekR1和 Qwen3。
在 ArenaHard V1.0 中,以 67.2分位居全球第一。
在 BFCL V3 评测中,达到 68分。
在性能大幅跃升的同时,模型进一步强化了可控生成能力,通过精确流程内置等技术细节,实现了专业场景下的零幻觉,破解了沉浸式角色演绎难题。
基于最新的语言大模型,中国移动还同步推出了多个专项模型:
九天代码大模型: 采用两阶段持续训练技术,支持代码生成、注释生成、单元测试生成、代码智能问答等任务,覆盖 Python、Java、JS、TS、Go、C++ 等10余种主流编程语言。在 EvalPlus、MHPP、LivecodeBenchv6等多个代码生成榜单上表现领先。
九天数学大模型: 在短思考、长思考模式下均达到业界 SOTA 水平,多项指标超越 Qwen2.5Math、Qwen3、DeepSeek Math、DeepSeek R1-Distill 等同参数量级模型。
“九天善智多模态大模型”引入复杂时空建模、流匹配图片视频渐进式联合训练、端到端局部可控注意力机制等创新技术。同时,通过融合多模态理解信息和联合图文交织数据训练,显著提升了模型对文本指令和输入条件图像视频的感知能力。这意味着模型不仅能生成高质量的图像视频,还能进行多轮对话式高可控精确编辑操作,大幅提升了视觉生成的灵活便利性。例如,在图片生成方面可支持多轮精准局部修改,如修改文字、修改背景、增加元素等。
模型的图理解和视频理解性能也得到了全面提升:
图理解方面: 在 MMStar、HallusionBench 和 OCRBench 等图理解任务中,九天模型分别获得了 82.2、64.3和94.9的高分,处于业界领先水平。
视频理解方面: 在 Videomme 和 MVbench 两个任务中均表现领先,超越 Qwen2-VL 和 InternVideo2。
中国移动此次还采取了开放策略,将多项模型及核心技术进行开源,旨在推动行业共同发展:
开源九天数童结构化数据大模型: 包括 JT-DA-8B 模型及后续演进版本,支持下载模型权重、微调代码、推理代码等。
开源九天数学大模型: 包括 JT-Math-8B 系列模型,支持下载模型权重、推理代码、技术报告。
开源九天代码大模型: 包括 JT-Coder-8B 系列模型,支持下载模型权重、推理代码、技术报告。
开源业界首创的结构化数据模型评测数据及 TReB 评测体系: 涵盖6大任务、34个能力,包括高质量、全面的数据、推理模式及评价指标,支持下载评测数据集、测试代码。
开源 CCR-Bench 行业场景复杂指令遵循评测数据集: 包含174条高质量、多样化、高难度复杂指令数据,高度模拟健康专家、智能客服、医疗助手等典型工业场景,支持下载数据集。
以上所有开源内容均已上线焕新社区、Github、HuggingFace、魔搭社区、Gitee 和 Arxiv,将为开发者和研究人员提供宝贵的资源,共同加速人工智能技术的创新与应用。
7 月 26 日,在 2025 世界人工智能大会 “AI 焕新产业共赢” 企业人工智能产业发展论坛上,中国移动发布 “九天” 基础大模型 3.0,作为国务院国资委战新 “百大工程” 的重要成果,该模型进一步强化了 “高安全、高可控、全国产、全行业” 四大特性,重点实现三大焕新。
九天众擎语言大模型 采用可扩展至万亿级的 MoE 架构,结合 15T token 多阶段配比预训练数据与全流程治理体系,创新构建 113 域 ×53 能力的二维分级后训练框架,并引入动态强化学习策略,使复杂推理能力提升 35%。在权威评测中,该模型在 GPQA-Diamond 中以 77.67 分斩获全球第二(超越 DeepSeekR1 和 Qwen3),在 ArenaHard V0.1 中以 67.2 分位居全球第一,在 BFCL V3 中达到 68 分,同时强化了可控生成能力,实现了专业场景 “零幻觉”。
此外,基于最新语言大模型,中国移动推出 九天代码大模型(支持 Python、Java 等 10 余种主流编程语言的代码生成、注释生成、单元测试生成等任务)和 九天数学大模型(在短思考、长思考模式下均达到业界 SOTA 水平,多项指标超越同参数量级模型)。
九天善智多模态大模型 引入复杂时空建模、流匹配图片视频渐进式联合训练、端到端局部可控注意力机制等创新技术,显著提升了生成可控性和理解能力,支持多轮对话式高可控精确编辑操作,在图理解和视频理解任务中表现领先。
同时,中国移动同步开源了九天数童结构化数据大模型、九天数学大模型、九天代码大模型等多项核心技术成果,并上线了 TReB 评测体系、CCR-Bench 行业场景复杂指令遵循评测数据集等。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。