首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    StreamingLLM输入、输出无限长的小记

    可以实现: 可以支持无限输入,但原理不是全记住这些输入 可以支持无限输出 ---- 1 第一个概念点:KV Cache Transformer推理性能优化技术很重要的一个就是K V cache,能否通俗分析...part of the team step 10 input: Lionel Messi is a player who has been a key part of the team's step 11...当前轮输出token与输入tokens拼接,并作为下一轮的输入tokens,反复多次。可以看出第i+1轮输入数据只比第i轮输入数据新增了一个token,其他全部相同!...因此第i+1轮推理时必然包含了第 i 轮的部分计算。KV Cache,缓存当前轮可重复利用的计算结果,下一轮计算时直接读取缓存结果,就是这么简单,不存在什么Cache miss问题。...从下图可知,也就是前几个token ,不论文章多长,前几个token一直非常重要。 如果文章非常长,那开头还这么重要,是不是有违常理?

    45430
    领券