首页 > 快讯 > IBM推出精巧且强大的Granite 4.0 Tiny Preview新语言模型:具备长文本处理能力

IBM推出精巧且强大的Granite 4.0 Tiny Preview新语言模型:具备长文本处理能力

发布时间:2025-05-07 17:45:59 | 责任编辑:张毅 | 浏览量:26 次

IBM 发布了 Granite4.0Tiny Preview,这是即将推出的 Granite4.0系列语言模型中最小的一款的预览版本。该模型不仅具备高效的计算能力,还为开源社区提供了一个值得关注的实验平台。
高效的性能与极小的内存需求
Granite4.0Tiny 在 FP8精度下,能够在消费级硬件上运行多个长上下文(128K)的并发任务,适用于市面上价格低于350美元的 GPU。尽管该模型目前仅经过部分训练,处理过2.5万亿个训练标记,但其性能已接近 IBM Granite3.32B Instruct,且内存需求降低约72%。随着后续训练的进行,预计 Granite4.0Tiny 的性能将达到与 Granite3.38B Instruct 相当的水平。
全新的混合架构设计
Granite4.0系列语言模型采用了全新的混合 Mamba-2/Transformer 架构,结合了 Mamba 的速度与效率以及 Transformer 的自注意力精度。Granite4.0Tiny Preview 是一个细粒度的混合专家模型,具有70亿个总参数,但在推理时仅激活10亿个参数。这一创新的架构设计源自 IBM 研究与 Mamba 原始创造者的合作,提升了模型的整体性能。
无约束的上下文长度
Granite4.0的一个亮点是其理论上能够处理无限长的序列。这一能力源自其不使用位置编码(NoPE)的设计,有效避免了传统模型在处理长上下文时的性能限制。测试表明,该模型在处理128K 个标记时表现良好,未来还将验证其在更长上下文上的性能表现。
适合多种应用场景
Granite4.0Tiny 的内存效率和性能,使其成为多个企业应用的理想选择。IBM 计划在未来几个月内,进一步完善模型,并期待在即将召开的 IBM Think2025大会上分享更多信息。
IBM 的 Granite4.0Tiny Preview 不仅是对高效能语言模型的一次大胆尝试,更是对开源社区的一次有力支持。随着后续版本的推出,该模型有望为开发者和企业用户带来更多可能性。
官方博客:https://www.ibm.com/new/announcements/ibm-granite-4-0-tiny-preview-sneak-peek

IBM推出精巧且强大的Granite 4.0 Tiny Preview新语言模型:具备长文本处理能力

IBM发布的Granite 4.0 Tiny Preview具有以下特点:

高效性能与低内存需求

  • 在FP8精度下,可在消费级硬件上运行多个长上下文(128K)的并发任务,适用于价格低于350美元的GPU。

  • 目前仅经过部分训练,处理过2.5万亿个训练标记,但性能已接近IBM Granite 3.32B Instruct,且内存需求降低约72%。

创新架构设计

  • 采用混合Mamba-2/Transformer架构,结合Mamba的速度与效率以及Transformer的自注意力精度。

  • 是一个细粒度的混合专家模型,总参数70亿,推理时仅激活10亿参数。

长上下文处理能力

  • 理论上可处理无限长序列,因采用无位置编码(NoPE)设计,避免了传统模型在处理长上下文时的性能限制。

  • 已验证能处理至少128K标记的长上下文,未来还将验证其在更长上下文上的性能表现。

开源与应用场景

  • 以Apache 2.0许可证在Hugging Face上发布,方便开发者在消费级硬件上进行实验。

  • 适用于多种场景,包括边缘设备部署、长文本分析、多任务并行、企业应用开发以及低成本研发。

支持多语言

支持英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文等12种语言。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复