首页 > 快讯 > Qafind Labs 推出全球领先推理速度的 ChatDLM 技术模型！

Qafind Labs 推出全球领先推理速度的 ChatDLM 技术模型！

发布时间：2025-04-28 08:36:31 | 责任编辑：吴昊 | 浏览量：53 次

近日，Qafind Labs发布了其最新研发的ChatDLM模型，这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散（Block Diffusion）”和“专家混合(MoE)”深度融合的模型，其在GPU上实现了惊人的2，800tokens/s超高推理速度，支持131，072tokens的超大上下文窗口，开启了文档级生成和实时对话的新纪元。
ChatDLM的核心亮点在于其独特的技术架构。该模型采用7B参数量，通过区块扩散技术，将输入按块分组，结合空间扩散和跨块注意力机制，极大地提升了处理速度。同时，ChatDLM引入了专家混合（MoE）技术，配置了32到64个专家，每次选择2个专家进行处理，这种灵活的机制进一步优化了模型的性能。
为了支持超大上下文，ChatDLM采用了RoPE优化和分层缓存技术，显著增强了模型的记忆能力。在推理优化方面，ChatDLM通过动态早停、BF16混合精度以及ZeRO分片等技术，实现了多GPU的轻松扩展，进一步提升了模型的效率和可扩展性。
在性能测试中，ChatDLM在A100GPU上表现出色，吞吐量达到2800tokens/s，上下文长度为131，072tokens，平均迭代步数在12到25之间。在HumanEval（0-shot）测试中，ChatDLM的准确率达到92.0%，在Fill-in-the-Middle测试中准确率为84.2%，在ARC-E(0-shot)测试中准确率为83.9%，这些数据充分证明了其卓越的性能。
展望未来，Qafind Labs计划为ChatDLM引入更多先进技术，包括自适应迭代（Adaptive Iteration）、图注意力集成(Graph-Attention)以及多模态扩散(Multimodal Diffusion)，以进一步提升模型的精度和适用范围。
体验地址：https://www.chatdlm.cn

Qafind Labs 最新发布的 ChatDLM 模型被认为是目前全球最快的推理速度模型之一。以下是关于 ChatDLM 技术的核心信息：

技术架构

融合创新：ChatDLM 是首个将“区块扩散（Block Diffusion）”和“专家混合（MoE）”深度融合的模型。
参数量：模型采用 7B 参数量。
区块扩散技术：通过将输入按块分组，结合空间扩散和跨块注意力机制，极大地提升了处理速度。
专家混合（MoE）技术：配置了 32 到 64 个专家，每次选择 2 个专家进行处理，这种灵活的机制进一步优化了模型的性能。
上下文支持：采用 RoPE 优化和分层缓存技术，支持 131,072 tokens 的超大上下文窗口。
推理优化：通过动态早停、BF16 混合精度以及 ZeRO 分片等技术，实现了多 GPU 的轻松扩展。

性能表现

推理速度：在 GPU 上实现了 2,800 tokens/s 的超高推理速度。
上下文长度：支持 131,072 tokens 的超大上下文窗口。
测试结果：
- 在 HumanEval（0-shot）测试中，准确率达到 92.0%。
- 在 Fill-in-the-Middle 测试中，准确率为 84.2%。
- 在 ARC-E(0-shot) 测试中，准确率为 83.9%。

未来展望

Qafind Labs 计划为 ChatDLM 引入更多先进技术，包括：

自适应迭代（Adaptive Iteration）。
图注意力集成（Graph-Attention）。
多模态扩散（Multimodal Diffusion）。

这些技术将进一步提升模型的精度和适用范围。

如果想体验 ChatDLM，可以访问其官方网站：https://www.chatdlm.cn。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇： ChatGPT能否为网站内容生成SEO优化文章？

下一篇： Midjourney可以做动漫风格图吗？