首页 > 快讯 > xLLM社区于12月6日首发开源推理引擎，兼容MoE、T2I、T2V多场景应用，携手Mooncake缓存策略达成低于20ms的延迟表现

xLLM社区于12月6日首发开源推理引擎，兼容MoE、T2I、T2V多场景应用，携手Mooncake缓存策略达成低于20ms的延迟表现

发布时间：2025-11-25 16:29:52 | 责任编辑：吴昊 | 浏览量：2 次

成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup，主题“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core，公开对比数据：在同级GPU上，MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms，较vLLM平均下降42%，吞吐量提升2. 1 倍。
技术亮点
统一计算图：将语言、视觉、视频生成抽象为“Token-in Token-out”图，实现单引擎多模态并行
Mooncake KV缓存集成：三级存储（GPU显存→DDR→NVMe）命中率达99.2%，缓存穿透延迟<5ms
动态形状批处理：支持512×512→2048× 2048 图像、8→ 128 帧视频在线拼接，显存碎片减少38%
插件式后端：已适配CUDA、ROCm、MTIA，2026Q1 路线图列入Apple Silicon与Intel Arc
标杆案例
北京航空航天大学杨海龙教授将在Meetup分享京东11. 11 实战：xLLM-Core支撑峰值每秒40k请求，机器成本降低90%，业务效率提升 5 倍。
开源计划
现场将发布xLLM-Core 0. 9 版（Apache 2.0），包含Docker镜像、Python/C++ API与Benchmark脚本；社区预计 2026 年 6 月推出1.0 LTS，提供长期维护与商业支持。
报名通道已在xLLM官网开放，预计线下 300 席位，线上直播同步推送。

这是一篇关于xLLM社区12月6日首揭开源推理引擎：支持MoE、T2I、T2V全场景，联合Mooncake缓存方案实现延迟低于20ms的文章，内容值得关注。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：发布 Gemini 3 后，平台日访问量达到前所未有的高峰，用户兴趣激增

下一篇：昆仑元 AI 呈现新全模态融合模型 BaiZe-Omni-14b-a2b，促进 AI 技术的前沿突破

xLLM社区于12月6日首发开源推理引擎，兼容MoE、T2I、T2V多场景应用，携手Mooncake缓存策略达成低于20ms的延迟表现

最新Ai信息

最新Ai工具

热门AI推荐