speculative-sampling笔记 - plus studio

plus sign

发布于 2024-02-29 08:33:47

1420

发布于 2024-02-29 08:33:47

文章被收录于专栏：个人博客个人博客

speculative-sampling笔记

speculative-sampling,投机采样是一种加速llm推理的方法。

论文arxiv ,参考博客jaykmody.com

这个方法需要用到两个模型，一个小模型，称为 draft model，一个大模型，称为target model。

speculative-sampling使用了一种直觉，对于一些序列下一个token预测是i很明显的，小模型也可以完成。因此，如果draft model和target model在给定的很明显的序列上的分布之间存在很强的一致性，那么就允许targrt model被调用时一次输出多个token

自回归采样，就是说给一个序列模型预测下一个token。

对于大模型来说，主要是三个部分拖慢了推理速度，线性层，注意力机制和通信。

拒绝采样的公式被修改为

如果所有的token都被接受了，那就再采样一个拼到序列后面，然后结束。

使用标准采样方法，如核、top-k 采样和调整温度，可以在应用这种拒绝采样方案之前相应地修改概率。作者观察到整体接受率对使用的确切参数具有鲁棒性。

因为speculative-sampling没有改变transformer的结构，所以可以和其他方法结合使用 ,例如量化，multi-query attention。

在选择draft model方面，可以简单地使用较小版本的目标语言模型作为草稿并获得较高的接受率。从工程和工作流程的角度来看，这也很方便，因为应该首先存在对此类模型的稳健工具来训练目标模型。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2023-9-5，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度