DeepSeek关联企业发布大型语言模型创新部署专利,促进AI技术革新发展
发布时间:2025-08-01 15:52:15 | 责任编辑:吴昊 | 浏览量:17 次
《DeepSeek关联企业发布大型语言模型创新部署专利,促进AI技术革新发展》相关软件官网

近日,DeepSeek 的关联公司 —— 杭州深度求索人工智能基础技术研究有限公司,公开了一项名为 “一种大语言模型的部署方法及系统” 的专利。这项专利的公布,标志着该公司在人工智能领域的又一重要进展,尤其是在大语言模型的部署方面。
根据专利的摘要,该发明主要涉及到人工智能的核心技术。其创新之处在于将大语言模型的两个关键阶段 —— 预填充阶段和解码阶段,分别部署在高性能计算能力和大内存的机器上。这种分布式的部署方式能够有效均衡负载任务,最大限度地利用硬件资源。通过减少闲置的计算能力,该方法不仅降低了整体的延迟,还显著提高了系统的吞吐量。
在当前的 AI 技术发展中,系统的扩展性和容错性显得尤为重要。DeepSeek 的这一专利,正是通过优化资源配置,增强了系统在面对不同工作负载时的适应能力。这种创新部署方法,预示着未来的 AI 模型将更高效、更智能,有望为各类应用场景提供更好的支持。
值得一提的是,DeepSeek-V3作为该公司的核心产品之一,其强大的 Mixture-of-Experts (MoE) 语言模型,拥有671B 个参数,每个 token 的激活参数达到37B。这一技术的进步,无疑将推动 AI 技术的普及和应用,助力各行各业的数字化转型。
划重点:
🌟 DeepSeek 发布新专利,创新部署大语言模型的方法,提高系统性能。
🚀 分布式部署实现硬件资源的最大化利用,减少整体延迟。
📈 增强系统的扩展性和容错性,助力未来 AI 技术的发展。
DeepSeek关联公司(杭州深度求索人工智能基础技术研究有限公司)公布“一种大语言模型的部署方法及系统”专利,该专利将大语言模型的预填充阶段和解码阶段分别部署在高性能计算能力和大内存的机器上,均衡负载任务,最大化硬件利用,减少闲置算力,降低整体延迟,提高吞吐量,增强系统扩展性和容错性。
DeepSeek通过技术创新(如混合专家模型MoE架构、FP8精度训练、MTP多token生成优化等)大幅降低算力开销和训练成本,其V3模型单次训练成本仅557万美元,R1模型训练成本约560万美元,远低于国际顶尖模型(如GPT-4)的训练成本,同时性能对标国际领先水平。此外,DeepSeek采取开源策略(如MIT协议开源R1模型),降低了AI技术获取门槛,推动了大模型的广泛应用。
DeepSeek的创新不仅打破了“大数据+大算力+大模型”的传统思维定式,还为欠发达地区带来了换道超车机会,其低成本、高性能的大模型已在政务、工业、法律等多个领域实现部署和应用。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。