前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大语言模型--KV Cache量化论文

大语言模型--KV Cache量化论文

原创
作者头像
aaronwjzhao
修改2024-07-18 17:20:41
3330
修改2024-07-18 17:20:41
举报
文章被收录于专栏:AI工程落地

KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache

论文地址:[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)

谷歌学术被引数:6

研究机构:未知

推荐理由:五星,被huggingface transformers库使用,官方认证

主要内容:

1.key cache分成带量化数据和全精度两个组,新阶段生成的添加到全精度组,当全精度组达到上限R个token,则按channel方向量化并与量化组合并,清空全精度组。重复上述过程

2.value cache与key差不多,区别是当达到上限R,只会把全精度组最早的缓存拿出来,按token方向量化。

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

论文地址:https://arxiv.org/abs/2401.18079

谷歌学术被引数:18

研究机构:伯克利大学

主要内容:

1.对key做per- channel量化,并且再rope之前做量化

2.提出了一种新的非均匀量化方法,再离线校准集上可以得到很好的效果

3.在推理阶段,实现了一个自定义cuda算子做量化

4.前面的token对精度影响更大,第一个token使用高精度

5.再反量化后增加了一个Qnorm算子

6.per vector检测异常值,并对异常值做特殊处理

GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM

论文地址:https://arxiv.org/html/2403.05527v2

谷歌学术被引数:9

研究机构:佐治亚理工学院、Intel

主要内容:

1.使用均匀量化将kv cache量化低至四比特

2.使用低秩分解方法减少量化误差

3.使用稀疏矩阵来减少异常值造成的误差

WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More

论文地址:https://arxiv.org/html/2402.12065v2

谷歌学术被引数:6

研究机构:哈尔滨工业大学(深圳)、上海人工智能实验室

主要内容:

1.提出了一种Past only quant,attention算子计算使用当前层未量化的kv和历史经过量化的kv

2.提出了两种维度的量化,基于channel和基于token

3.提出了一种cross-block的损失函数

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

论文地址:2403.01241 (arxiv.org)

谷歌学术被引数:1

研究机构:清华大学(深圳)、华为

主要内容:

1.发现LLM中存在一种特殊的离群值,它只存在于LLM输入的首词元[BOS]以及开头的一些特定词元上(如“,”、“.”等标点符号),并且这类离群值比特定通道上的离群值还要大得多。这类特定词元上的离群值会导致LLM将大量的自注意力得分分配到这些词元上

2.先使用全精度模型生成关键词元的无损KV cache并将其缓存下来(i.e., IntactKV),量化模型在推理时就能直接使用无损的关键词元表征,从而有效提升量化模型精度。

QAQ: Quality Adaptive Quantization for LLM KV Cache

论文地址:https://arxiv.org/abs/2403.04643

谷歌学术被引数:3

研究机构:南京大学

主要内容:

1.通过实验和数据发现key、value对量化的敏感度不同,需要对key、value开发单独的量化方法

2.提出基于attention-aware的量化方法

3.对异常值做特殊处理,异常值做高比特量化

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache
  • KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization
    • GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM
      • WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More
        • IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact
          • QAQ: Quality Adaptive Quantization for LLM KV Cache
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档