jjiantong/Awesome-KV-Cache-Optimization

📰 文章jjiantong

全面整理系统级 KV Cache 优化技术，助力高效大模型推理服务。

该仓库是理解 KV Cache 优化领域的权威资源，这是现代 LLM 服务系统中的关键瓶颈。随着模型规模扩大，KV Cache 的内存占用随序列长度和批处理大小线性增长，常限制并发请求上限。本项目将现有研究分类为系统感知优化，包括内存高效的注意力机制、缓存压缩、量化以及智能缓存淘汰策略。通过整合论文、工具和架构见解，它帮助开发者权衡延迟、内存消耗与模型精度。对于构建高性能推理引擎或从事机器学习系统（MLSys）研究的人员来说，这是处理长上下文窗口和高并发工作负载的必备参考指南。

💡核心亮点

├─涵盖 ACL 2026 调研核心发现
├─系统化分类 KV Cache 优化策略
└─聚焦 LLM 推理服务性能瓶颈

🎯适用人群

├─MLOps 工程师
├─系统研究人员
└─LLM 推理开发者

🔗链接

└─GitHub 仓库