首页 > 快讯 > xLLM社区于12月6日首发开源推理引擎,兼容MoE、T2I、T2V多场景应用,携手Mooncake缓存策略达成低于20ms的延迟表现

xLLM社区于12月6日首发开源推理引擎,兼容MoE、T2I、T2V多场景应用,携手Mooncake缓存策略达成低于20ms的延迟表现

发布时间:2025-11-25 16:29:52 | 责任编辑:吴昊 | 浏览量:2 次

成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup,主题“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core,公开对比数据:在同级GPU上,MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms,较vLLM平均下降42%,吞吐量提升2. 1 倍。
技术亮点
统一计算图:将语言、视觉、视频生成抽象为“Token-in Token-out”图,实现单引擎多模态并行
Mooncake KV缓存集成:三级存储(GPU显存→DDR→NVMe)命中率达99.2%,缓存穿透延迟<5ms
动态形状批处理:支持512×512→2048× 2048 图像、8→ 128 帧视频在线拼接,显存碎片减少38%
插件式后端:已适配CUDA、ROCm、MTIA,2026Q1 路线图列入Apple Silicon与Intel Arc
标杆案例
北京航空航天大学杨海龙教授将在Meetup分享京东11. 11 实战:xLLM-Core支撑峰值每秒40k请求,机器成本降低90%,业务效率提升 5 倍。
开源计划
现场将发布xLLM-Core 0. 9 版(Apache 2.0),包含Docker镜像、Python/C++ API与Benchmark脚本;社区预计 2026 年 6 月推出1.0 LTS,提供长期维护与商业支持。
报名通道已在xLLM官网开放,预计线下 300 席位,线上直播同步推送。

xLLM社区于12月6日首发开源推理引擎,兼容MoE、T2I、T2V多场景应用,携手Mooncake缓存策略达成低于20ms的延迟表现

这是一篇关于xLLM社区12月6日首揭开源推理引擎:支持MoE、T2I、T2V全场景,联合Mooncake缓存方案实现延迟低于20ms的文章,内容值得关注。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐