本文讨论了一种基于KV编码的新方法,该方法能够实现KV缓存的无损压缩。通过对KV缓存进行猜测性的编码,该方法可以显著减少存储空间占用,同时保持数据的完整性和可用性。具体来说,该方法在实际应用中取得了令人印象深刻的结果,将KV缓存的大小压缩了高达4倍。这对于需要处理大量KV数据的高性能计算任务(例如大型语言模型、机器学习等)具有重要的意义。


📎 原文:Speculative KV coding: losslessly compressing KV cache by up to ~4× | 来源:Hacker News