大语言模型--KV Cache量化论文

原创

aaronwjzhao

修改于 2024-07-18 17:20:41

3330

修改于 2024-07-18 17:20:41

文章被收录于专栏：AI工程落地

KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

论文地址：[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)

谷歌学术被引数：6

研究机构：未知

推荐理由：五星，被huggingface transformers库使用，官方认证

主要内容：

1.key cache分成带量化数据和全精度两个组，新阶段生成的添加到全精度组，当全精度组达到上限R个token，则按channel方向量化并与量化组合并，清空全精度组。重复上述过程

2.value cache与key差不多，区别是当达到上限R，只会把全精度组最早的缓存拿出来，按token方向量化。

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

论文地址：https://arxiv.org/abs/2401.18079

谷歌学术被引数：18

研究机构：伯克利大学

主要内容：

1.对key做per- channel量化，并且再rope之前做量化

2.提出了一种新的非均匀量化方法，再离线校准集上可以得到很好的效果

3.在推理阶段，实现了一个自定义cuda算子做量化

4.前面的token对精度影响更大，第一个token使用高精度

5.再反量化后增加了一个Qnorm算子

6.per vector检测异常值，并对异常值做特殊处理

GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

论文地址：https://arxiv.org/html/2403.05527v2

谷歌学术被引数：9

研究机构：佐治亚理工学院、Intel

主要内容：

1.使用均匀量化将kv cache量化低至四比特

2.使用低秩分解方法减少量化误差

3.使用稀疏矩阵来减少异常值造成的误差

WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More

论文地址：https://arxiv.org/html/2402.12065v2

谷歌学术被引数：6

研究机构：哈尔滨工业大学（深圳）、上海人工智能实验室

主要内容：

1.提出了一种Past only quant，attention算子计算使用当前层未量化的kv和历史经过量化的kv

2.提出了两种维度的量化，基于channel和基于token

3.提出了一种cross-block的损失函数

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

论文地址：2403.01241 (arxiv.org)

谷歌学术被引数：1

研究机构：清华大学（深圳）、华为

主要内容：

1.发现LLM中存在一种特殊的离群值，它只存在于LLM输入的首词元[BOS]以及开头的一些特定词元上（如“,”、“.”等标点符号），并且这类离群值比特定通道上的离群值还要大得多。这类特定词元上的离群值会导致LLM将大量的自注意力得分分配到这些词元上

2.先使用全精度模型生成关键词元的无损KV cache并将其缓存下来（i.e., IntactKV），量化模型在推理时就能直接使用无损的关键词元表征，从而有效提升量化模型精度。

QAQ: Quality Adaptive Quantization for LLM KV Cache

论文地址：https://arxiv.org/abs/2403.04643

谷歌学术被引数：3

研究机构：南京大学

主要内容：

1.通过实验和数据发现key、value对量化的敏感度不同，需要对key、value开发单独的量化方法

2.提出基于attention-aware的量化方法

3.对异常值做特殊处理，异常值做高比特量化

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

pytorch

huggingface-transformers

LLM

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

pytorch

huggingface-transformers

LLM

登录后参与评论

0 条评论

热度