IBM 推出高效节能的 Granite 4.0 1B Speech:全新的多模态语音模型
发布时间:2026-03-16 16:13:07 | 责任编辑:吴昊 | 浏览量:1 次
IBM 近日正式推出了 Granite4.01B Speech。这是一款专为边缘计算和企业级部署设计的紧凑型语音语言模型,旨在提供高效率的多语种自动语音识别(ASR)与双向自动语音翻译(AST)能力。
与前代版本相比,Granite4.01B Speech 的参数量仅为上一代模型的一半,但在性能上实现了显著跃升。新模型不仅增加了对日语 ASR 的支持,还引入了关键词偏置功能,并大幅提升了英文转录的准确率。其核心设计目标是在不牺牲核心能力的前提下,极大地降低内存占用、推理延迟和计算成本。
该模型采用了创新的“两阶段设计”架构。系统首先将音频转换为文本,随后通过专门的 Granite 语言模型进行推理处理。这种模块化设计允许开发者根据需求灵活编排流程。目前,该模型已支持包括英语、法语、德语、西班牙语、葡萄牙语和日语在内的多语种互译,并能处理英语对中文(普通话)的翻译任务。
在性能测试中,Granite4.01B Speech 表现出色,位居 OpenASR 排行榜首位,平均字错率(WER)仅为5.52。目前,IBM 已根据 Apache2.0协议正式开源该模型,开发者可通过 Transformers 或 vLLM 等主流框架进行本地部署,为资源受限的移动端或边缘设备提供强劲的 AI 语音支持。
项目:https://huggingface.co/ibm-granite/granite-4.0-1b-speech
这是一篇关于高效轻量化:IBM 发布 Granite 4.0 1B Speech 多模态语音大模型的文章,内容值得关注。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。
