来源:内容来自半导体行业观察(ID:icbank)编译自venturebeat,谢谢。
令人惊讶的基准测试结果可能会撼动人工智能推理的竞争格局,初创芯片公司Groq似乎通过一系列转发确认其系统正在以每秒超过 800 个token的速度为Meta 新发布的LLaMA 3 大型语言模型提供服务。
“我们已经对他们的 API 进行了一些测试,该服务绝对不如硬件演示所示的那么快。可能更多的是一个软件问题——仍然对 Groq 得到更广泛的使用感到兴奋,”一直在对 LLaMA 3 性能进行基准测试的工程师 Dan Jakaitis在 X.com 上发帖说
但根据 OthersideAI 联合创始人兼首席执行官 Matt Shumer 在 X.com 上发布的帖子,除了其他几位知名用户之外,Groq 系统还通过 LLaMA 3 模型提供了每秒超过 800 个tiken的闪电般的快速推理速度。如果经过独立验证,这将比现有的云人工智能服务实现重大飞跃。VentureBeat 自己的早期测试表明,这一说法似乎是正确的。
针对人工智能优化的新型处理器架构
Groq 是一家资金雄厚的硅谷初创公司,一直在开发一种针对矩阵乘法运算进行优化的新型处理器架构,矩阵乘法运算是深度学习的计算核心。该公司的张量流处理器避开了传统 CPU 和 GPU 的缓存和复杂的控制逻辑,转而采用针对 AI 工作负载量身定制的简化、确定性执行模型。
Groq 声称,通过避免通用处理器的开销和内存瓶颈,它可以为人工智能推理提供更高的性能和效率。每秒 800 个token的 LLaMA 3 结果如果成立,将为这一说法提供可信度。
Groq 的架构与 Nvidia 和其他成熟芯片制造商使用的设计有很大不同。Groq 没有为人工智能采用通用处理器,而是构建了张量流处理器来加速深度学习的特定计算模式。
这种“干净的”方法使公司能够去除无关电路并优化人工智能推理的高度重复、可并行工作负载的数据流。Groq 断言,与主流替代方案相比,运行大型神经网络的延迟、功耗和成本显着降低。
对快速高效的人工智能推理的需求
每秒 800 个token的性能相当于每分钟约 48,000 个token,速度足以每秒生成约 500 个单词的文本。这比当今云中传统 GPU 上服务的大型语言模型的典型推理速度快了近一个数量级。
随着语言模型的参数规模增长到数千亿,快速高效的人工智能推理变得越来越重要。虽然训练这些大型模型需要大量计算,但经济高效地部署它们需要能够快速运行它们而不消耗大量电力的硬件。对于聊天机器人、虚拟助理和交互式体验等延迟敏感的应用程序来说尤其如此。
随着该技术得到更广泛的部署,人工智能推理的能源效率也受到越来越多的审查。数据中心已经是电力的重要消耗者,大规模人工智能的计算需求可能会大幅增加电力消耗。能够提供必要的推理性能同时最大限度地降低能耗的硬件将是人工智能大规模可持续发展的关键。Groq 的张量流处理器在设计时就考虑到了这种效率要求,与通用处理器相比,有望显着降低运行大型神经网络的功耗。
挑战Nvidia的统治地位
Nvidia 目前在 AI 处理器市场占据主导地位,其 A100 和 H100 GPU 为绝大多数云 AI 服务提供支持。但像 Groq、 Cerebras、SambaNova和Graphcore这样的一批资金雄厚的初创公司正在通过专门为人工智能构建的新架构来挑战这一主导地位。
在这些挑战者中,Groq 是最积极倡导针对推理和训练的挑战者之一。首席执行官 Jonathan Ross大胆预测,到 2024 年底,大多数 AI 初创公司将使用 Groq 的低精度张量流处理器进行推理。
Meta 发布的 LLaMA 3 被描述为功能最强大的开源语言模型之一,为 Groq 展示其硬件推理功能提供了一个备受瞩目的机会。Meta 声称该模型可与最好的闭源产品相媲美,可能会广泛用于基准测试并部署在许多人工智能应用程序中。
如果 Groq 的硬件能够比主流替代品更快、更高效地运行 LLaMA 3,那么这将支持这家初创公司的主张,并有可能加速其技术的采用。Groq 最近推出了一个新的业务部门,旨在通过云服务和合作伙伴关系让客户更轻松地使用其芯片。
LLaMA 等强大的开放模型与 Groq 等高效的“AI 优先”推理硬件相结合,可以使高级语言 AI 更具成本效益,并可供更广泛的企业和开发人员使用。但英伟达不会轻易放弃其领先地位,其他挑战者也在伺机而动。
可以肯定的是,基础设施建设的竞赛正在展开,这些基础设施能够跟上人工智能模型开发的爆炸性进展,并扩展技术以满足快速扩大的应用范围的需求。以可承受的成本实现近乎实时的人工智能推理可以为电子商务、教育、金融、医疗保健等领域带来变革的可能性。
正如一位 X.com 用户对 Groq 的 LLaMA 3 基准测试声明的反应:“速度 + 低成本 + 质量 = [现在] 使用其他任何东西都没有意义”。未来几个月将会揭晓这个大胆的方程式是否会发挥作用,但很明显,随着新一波架构挑战现状,人工智能的硬件基础远未解决。
https://venturebeat.com/ai/groqs-breakthrough-ai-chip-achieves-blistering-800-tokens-per-second-on-metas-llama-3/
原文始发于微信公众号(半导体行业观察):每秒800个token,这颗AI芯片挑战英伟达