华为新推UCM技术优化大型模型推理,减少对HBM的依赖问题
发布时间:2025-08-12 16:09:23 | 责任编辑:吴昊 | 浏览量:8 次
8月12日,华为将在 2025金融AI推理应用落地与发展论坛 上发布突破性 AI 推理创新技术 UCM(推理记忆数据管理器)。该技术有望降低中国 AI 推理对 HBM(高带宽内存)的依赖,并显著提升国内大模型推理性能。
UCM 以 KV Cache 为核心,融合多类型缓存加速算法工具,通过分级管理推理过程中产生的记忆数据,扩大上下文窗口,实现高吞吐、低时延的推理体验,并降低每 Token 的推理成本。这一方案可缓解 HBM 资源不足带来的任务卡顿与响应延迟问题。
在此次论坛上,华为将与中国银联共同发布 AI 推理最新应用成果。信通院、清华大学、科大讯飞等机构专家也将分享大模型推理加速与体验优化的实践。华为数据存储产品线副总裁樊杰表示,未来 AI 突破将高度依赖高质量行业数据的释放,高性能 AI 存储可将数据加载时间从小时级缩短至分钟级,使算力集群效率从30% 提升至60%。
业内分析认为,UCM 的推出正值 AI 产业从“追求模型能力极限”转向“追求推理体验最优化”的关键节点,推理体验已成为衡量 AI 商业价值的重要标准。长城证券指出,随着大模型能力持续提升与商业场景扩展,算力及产业链公司有望迎来新的发展机遇。
华为在8月12日的2025金融AI推理应用落地与发展论坛上正式发布了AI推理创新技术 UCM(推理记忆数据管理器),旨在通过优化大模型推理过程中的数据管理,显著降低对高带宽内存(HBM)的依赖,提升国内AI大模型的推理性能。
技术核心与优势
-
KV Cache分级管理:UCM以KV Cache为核心,融合多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理,从而扩大推理上下文窗口,实现高吞吐、低时延的推理体验。
-
降低HBM依赖:通过优化内存访问、计算架构革新及软硬协同闭环,UCM技术采用分布式内存池化、超节点级联架构等创新设计,显著减少对HBM的依赖,缓解因HBM不足导致的推理体验下降问题。
-
提升推理效率:UCM技术可使长序列场景下的TPS(每秒处理token数)提升2至22倍,降低每个Token的推理成本,从而改善用户与AI交互时的体验,包括降低回答问题的时延、提升答案准确度及增强复杂上下文的推理能力。
产业影响与意义
-
推动AI产业自主化:在当前全球HBM市场由少数国际厂商主导且受美国出口政策限制的背景下,华为的UCM技术有望减少对HBM的依赖,推动中国AI推理生态的自主化进程,降低对国际厂商的依赖。
-
完善AI推理生态:此次发布与中国银联共同开展智慧金融AI推理加速应用试点,落地客户之声、营销策划、办公助手等三大业务场景,同时,来自信通院、清华大学和科大讯飞等机构的专家也在论坛上分享大模型推理加速与体验优化的实践。
-
产业链升级:UCM技术的成功落地将助力国内AI芯片企业突破算力瓶颈,推动AI在金融、医疗、交通等领域的广泛应用,加速国产AI产业链的自主可控和全面升级。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。