首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

7月9日直播|加速比5倍,提升推理速度,无损大语言模型加速算法的创新与应用,EAGLE & EAGLE-2

报告主题:EAGLE&EAGLE-2: 无损大模型推理加速算法

报告日期:7月9日(周二)14:30-15:30

报告要点

本报告将介绍无损大语言模型加速算法EAGLE及其后续工作EAGLE-2(《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》和《EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees》)。EAGLE在更有规律的特征层而不是token层进行自回归,同时引入采样结果以消除不确定性。得益于这两点改进,EAGLE的草稿模型兼顾轻量和准确,将大语言模型的推理速度提升2.1x-3.8x,并保证输出的分布不改变。EAGLE-2引入动态草稿树,利用草稿模型的置信度近似草稿token的接受率,据此动态地调整草稿树的结构,提高了平均接受长度。EAGLE-2在保证不改变输出分布的基础上将EAGLE-1再次提升了20%-40%,加速比达到2.5x-5.0x。EAGLE和EAGLE-2也在工业界得到应用,集成至intel/intel-extension-for-transformers等。

报告嘉宾

李堉晖,北京大学智能学院硕士研究生,在张弘扬老师和张超老师的指导下进行研究工作,研究方向为大模型的加速和对齐。

近期热门报告

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OnOCKAM18FqyAkDLQ2ce9mRw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券