前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >微软、国科大开启1Bit时代:大模型转三进制,速度快4倍能耗降至1/41

微软、国科大开启1Bit时代:大模型转三进制,速度快4倍能耗降至1/41

作者头像
机器之心
发布于 2024-03-01 06:57:01
发布于 2024-03-01 06:57:01
3230
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

机器之心编辑部

革命性的提升来了。

把大模型的权重统统改成三元表示,速度和效率的提升让人害怕。

今天凌晨,由微软、国科大等机构提交的一篇论文在 AI 圈里被人们争相转阅。该研究提出了一种 1-bit 大模型,实现效果让人只想说两个字:震惊。

如果该论文的方法可以广泛使用,这可能是生成式 AI 的新时代。

对此,已经有人在畅想 1-bit 大模型的适用场景,看起来很适合物联网,这在以前是不可想象的。

人们还发现,这个提升速度不是线性的 —— 而是,模型越大,这么做带来的提升就越大。

还有这种好事?看起来英伟达要掂量掂量了。

近年来,大语言模型(LLM)的参数规模和能力快速增长,既在广泛的自然语言处理任务中表现出了卓越的性能,也为部署带来了挑战,并引发人们担忧高能耗会对环境和经济造成影响。

因此,使用后训练(post-training)量化技术来创建低 bit 推理模型成为上述问题的解决方案。这类技术可以降低权重和激活函数的精度,显著降低 LLM 的内存和计算需求。目前的发展趋势是从 16 bits 转向更低的 bit,比如 4 bits。然而,虽然这类量化技术在 LLM 中广泛使用,但并不是最优的。

最近的工作提出了 1-bit 模型架构,比如 2023 年 10 月微软研究院、国科大和清华大学的研究者推出了 BitNet,在降低 LLM 成本的同时为保持模型性能提供了一个很有希望的技术方向。

BitNet 是第一个支持训练 1-bit 大语言模型的新型网络结构,具有强大的可扩展性和稳定性,能够显著减少大语言模型的训练和推理成本。与最先进的 8-bit 量化方法和全精度 Transformer 基线相比,BitNet 在大幅降低内存占用和计算能耗的同时,表现出了极具竞争力的性能。

此外,BitNet 拥有与全精度 Transformer 相似的扩展法则(Scaling Law),在保持效率和性能优势的同时,还可以更加高效地将其能力扩展到更大的语言模型上, 从而让 1 比特大语言模型(1-bit LLM)成为可能。

BitNet 从头训练的 1-bit Transformers 在能效方面取得了有竞争力的结果。来源:https://arxiv.org/pdf/2310.11453.pdf

如今,微软研究院、国科大同一团队(作者部分变化)的研究者推出了 BitNet 的重要 1-bit 变体,即 BitNet b1.58,其中每个参数都是三元并取值为 {-1, 0, 1}。他们在原来的 1-bit 上添加了一个附加值 0,得到二进制系统中的 1.58 bits。

BitNet b1.58 继承了原始 1-bit BitNet 的所有优点,包括新的计算范式,使得矩阵乘法几乎不需要乘法运算,并可以进行高度优化。同时,BitNet b1.58 具有与原始 1-bit BitNet 相同的能耗,相较于 FP16 LLM 基线在内存消耗、吞吐量和延迟方面更加高效。

  • 论文地址:https://arxiv.org/pdf/2402.17764.pdf
  • 论文标题:The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

此外,BitNet b1.58 还具有两个额外优势。其一是建模能力更强,这是由于它明确支持了特征过滤,在模型权重中包含了 0 值,显著提升了 1-bit LLM 的性能。其二实验结果表明,当使用相同配置(比如模型大小、训练 token 数)时,从 3B 参数规模开始, BitNet b1.58 在困惑度和最终任务的性能方面媲美全精度(FP16)基线方法。

如下图 1 所示,BitNet b1.58 为降低 LLM 推理成本(延迟、吞吐量和能耗)并保持模型性能提供了一个帕累托(Pareto)解决方案。

BitNet b1.58 介绍

BitNet b1.58 基于 BitNet 架构,并且用 BitLinear 替代 nn.Linear 的 Transformer。BitNet b1.58 是从头开始训练的,具有 1.58 bit 权重和 8 bit 激活。与原始 BitNet 架构相比,它引入了一些修改,总结为如下:

用于激活的量化函数与 BitNet 中的实现相同,只是该研究没有将非线性函数之前的激活缩放到 [0, Q_b] 范围。相反,每个 token 的激活范围为 [−Q_b, Q_b],从而消除零点量化。这样做对于实现和系统级优化更加方便和简单,同时对实验中的性能产生的影响可以忽略不计。

与 LLaMA 类似的组件。LLaMA 架构已成为开源大语言模型的基本标准。为了拥抱开源社区,该研究设计的 BitNet b1.58 采用了类似 LLaMA 的组件。具体来说,它使用了 RMSNorm、SwiGLU、旋转嵌入,并且移除了所有偏置。通过这种方式,BitNet b1.58 可以很容易的集成到流行的开源软件中(例如,Huggingface、vLLM 和 llama.cpp2)。

实验及结果

该研究将 BitNet b1.58 与此前该研究重现的各种大小的 FP16 LLaMA LLM 进行了比较,并评估了模型在一系列语言任务上的零样本性能。除此之外,实验还比较了 LLaMA LLM 和 BitNet b1.58 运行时的 GPU 内存消耗和延迟。

表 1 总结了 BitNet b1.58 和 LLaMA LLM 的困惑度和成本:在困惑度方面,当模型大小为 3B 时,BitNet b1.58 开始与全精度 LLaMA LLM 匹配,同时速度提高了 2.71 倍,使用的 GPU 内存减少了 3.55 倍。特别是,当模型大小为 3.9B 时,BitNet b1.58 的速度是 LLaMA LLM 3B 的 2.4 倍,消耗的内存减少了 3.32 倍,但性能显著优于 LLaMA LLM 3B。

表 2 结果表明,随着模型尺寸的增加,BitNet b1.58 和 LLaMA LLM 之间的性能差距缩小。更重要的是,BitNet b1.58 可以匹配从 3B 大小开始的全精度基线的性能。与困惑度观察类似,最终任务( end-task)结果表明 BitNet b1.58 3.9B 优于 LLaMA LLM 3B,具有更低的内存和延迟成本。

内存和延迟:该研究进一步将模型大小扩展到 7B、13B 和 70B 并评估成本。图 2 显示了延迟和内存的趋势,随着模型大小的增加,增长速度(speed-up)也在增加。特别是,BitNet b1.58 70B 比 LLaMA LLM 基线快 4.1 倍。这是因为 nn.Linear 的时间成本随着模型大小的增加而增加,内存消耗同样遵循类似的趋势。延迟和内存都是用 2 位核测量的,因此仍有优化空间以进一步降低成本。

能耗。该研究还对 BitNet b1.58 和 LLaMA LLM 的算术运算能耗进行了评估,主要关注矩阵乘法。图 3 说明了能耗成本的构成。BitNet b1.58 的大部分是 INT8 加法计算,而 LLaMA LLM 则由 FP16 加法和 FP16 乘法组成。根据 [Hor14,ZZL22] 中的能量模型,BitNet b1.58 在 7nm 芯片上的矩阵乘法运算能耗节省了 71.4 倍。

该研究进一步报告了能够处理 512 个 token 模型的端到端能耗成本。结果表明,随着模型规模的扩大,与 FP16 LLaMA LLM 基线相比,BitNet b1.58 在能耗方面变得越来越高效。这是因为 nn.Linear 的百分比随着模型大小的增加而增长,而对于较大的模型,其他组件的成本较小。

吞吐量。该研究比较了 BitNet b1.58 和 LLaMA LLM 在 70B 参数体量上在两个 80GB A100 卡上的吞吐量,使用 pipeline 并行性 [HCB+19],以便 LLaMA LLM 70B 可以在设备上运行。实验增加了 batch size,直到达到 GPU 内存限制,序列长度为 512。表 3 显示 BitNet b1.58 70B 最多可以支持 LLaMA LLM batch size 的 11 倍,从而将吞吐量提高 8.9 倍。

更多技术细节请查看原论文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡
通过量化可以减少大型语言模型的大小,但是量化是不准确的,因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度,而较小的llm则很难精确量化。
deephub
2024/03/11
1K0
从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡
100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!
大型语言模型(LLM)虽然性能强劲,但动辄几百上千亿的参数量,对计算设备还是内存的需求量之大,都不是一般公司能承受得住的。
新智元
2023/01/08
1.5K0
100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!
6G显存玩转大模型,更快更省的4bit量化推理硬核开源!
号外号外!LMDeploy 推出了 4bit 权重量化和推理功能啦。它不仅把模型的显存减少到 FP16 的 40%,更重要的是,经过 kernel 层面的极致优化,推理性能并未损失,反而是 FP16 推理速度的三倍以上。
OpenMMLab 官方账号
2023/08/21
1.5K0
6G显存玩转大模型,更快更省的4bit量化推理硬核开源!
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
随着生成式AI模型规模的爆炸式增长,企业面临推理成本激增、分布式部署复杂度高、资源利用率低等挑战。传统推理框架在跨多节点扩展时,常因KV缓存重复计算、GPU负载不均、通信延迟等问题导致性能瓶颈。NVIDIA Dynamo作为新一代开源推理框架,专为大规模分布式环境设计,通过解耦式服务、智能路由、动态资源调度等创新技术,将推理吞吐量提升30倍以上。本文将深入解析其核心架构、技术优势及实际应用场景,帮助开发者高效部署生成式AI模型,降低推理成本并释放GPU潜能。
数据存储前沿技术
2025/03/29
1250
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
AI推理速度提升超10倍,Groq LPU能否取代英伟达GPU?
2月20日消息,美国人工智能初创公司Groq最新推出的面向云端大模型的推理芯片引发了业内的广泛关注。其最具特色之处在于,采用了全新的Tensor Streaming Architecture (TSA) 架构,以及拥有超高带宽的SRAM,从而使得其对于大模型的推理速度提高了10倍以上,甚至超越了英伟达的GPU。
芯智讯
2024/02/26
5350
AI推理速度提升超10倍,Groq LPU能否取代英伟达GPU?
苹果创新大模型压缩技术,大模型有机会塞进手机里了
大型语言模型(LLM),尤其是生成式预训练 Transformer(GPT)模型在许多复杂的语言任务上表现出了出色的性能。这一突破使人们希望在移动设备上本地运行这些 LLM,以保护用户隐私。可是,即使是小型 LLM 也太大,无法在这些设备上运行。
机器之心
2023/09/25
4540
苹果创新大模型压缩技术,大模型有机会塞进手机里了
多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级
过去半年,由ChatGPT引领的生成式大型语言模型技术,以其强大的「通用性」彻底颠覆了AI世界,普通人也可以很容易地使用AI工具来进行摘要、灵感创作、辅助编程、多语言翻译等任务。
新智元
2023/08/07
3990
多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级
每日论文速递 | 1-bit LLM时代:所有LLM都在1.58Bit中
摘要:最近的研究,如BitNet,正在为1位大型语言模型(LLM)的新时代铺平道路。在这项工作中,我们引入了一个1位LLM变体,即BitNet b1.58,其中LLM的每个单个参数(或权重)都是三进制{-1,0,1}。它匹配全精度(即,FP 16或BF 16)Transformer LLM在困惑度和最终任务性能方面具有相同的模型大小和训练令牌,同时在延迟、内存、吞吐量和能耗方面具有更高的成本效益。更重要的是,1.58位LLM定义了一个新的缩放定律和配方,用于训练新一代的LLM,这些LLM既具有高性能又具有成本效益。此外,它实现了一种新的计算范式,并为设计针对1位LLM优化的特定硬件打开了大门。https://arxiv.org/abs/2402.17764
zenRRan
2024/03/02
9080
每日论文速递 | 1-bit LLM时代:所有LLM都在1.58Bit中
BitNet b1.58: 革命性的1比特语言模型,性能媲美全精度Transformer
3.性能对比:与全精度Transformer LLM(FP16或BF16)模型大小和训练tokens相等,困惑度和端到端任务性能相同。
唐国梁Tommy
2024/03/20
4160
BitNet b1.58: 革命性的1比特语言模型,性能媲美全精度Transformer
微软6页论文爆火:三进制LLM,真香!
具体而言,这项研究提出的方法叫做BitNet b1.58,可以说是从大语言模型“根儿”上的参数下手。
量子位
2024/02/29
3880
微软6页论文爆火:三进制LLM,真香!
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
近日,BitNet系列的原班人马推出了新一代架构:BitNet a4.8,为1 bit大模型启用了4位激活值:
新智元
2025/02/15
330
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
新一轮「硬件彩票」:MatMul-free 会改变大模型的游戏规则吗?
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
机器之心
2024/06/17
4600
新一轮「硬件彩票」:MatMul-free 会改变大模型的游戏规则吗?
清华、哈工大把大模型压缩到了1bit,放到手机里跑的愿望快要实现了!
论文标题:OneBit: Towards Extremely Low-bit Large Language Models
计算机视觉研究院
2024/03/04
6330
清华、哈工大把大模型压缩到了1bit,放到手机里跑的愿望快要实现了!
每日论文速递 | GEAR:高效 KV Cache 压缩框架
摘要:键值(KV)缓存已成为加快大语言模型(LLM)推理生成速度的事实。然而,随着序列长度的增加,缓存需求也在不断增长,这使得 LLM 推理变成了一个内存约束问题,极大地限制了系统的吞吐量。现有的方法依赖于放弃不重要的标记或均匀量化所有条目。然而,这些方法在表示压缩矩阵时往往会产生较高的近似误差。自回归解码过程进一步加剧了每一步的误差,导致模型生成出现严重偏差,性能下降。为了应对这一挑战,我们提出了一种高效的 KV 缓存压缩框架--GEAR,它能实现近乎无损的高比率压缩。GEAR 首先对大部分大小相似的条目进行超低精度量化。然后,它采用低秩矩阵来近似量化误差,并采用稀疏矩阵来弥补离群条目的个别误差。通过巧妙地整合三种技术,GEAR 能够充分发挥它们的协同潜力。我们的实验证明,与其他技术相比,GEAR 实现了近乎无损的 4 位 KV 高速缓存压缩,吞吐量提高了 2.38 倍,同时内存峰值大小减少了 2.29 倍。
zenRRan
2024/03/25
9680
每日论文速递 | GEAR:高效 KV Cache 压缩框架
低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws
本文来自腾讯 AI Lab,介绍了一套针对于低比特量化的 scaling laws。
机器之心
2025/02/15
770
低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
一直以来,矩阵乘法(MatMul)稳居神经网络操作的主导地位,其中很大原因归结为 GPU 专门针对 MatMul 操作进行了优化。这种优化使得 AlexNet 在 ILSVRC2012 挑战赛中一举胜出,成为深度学习崛起的历史性标志。
用户9861443
2024/06/11
2120
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G 4090就够了!
量子位
2023/12/21
1.5K0
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
晶圆级AI芯片WSE-3推理性能公布:在80亿参数模型上每秒生成1800个Token
今年3月,新创AI芯片公司Cerebras Systems推出了其第三代的晶圆级AI芯片WSE-3,性能达到了上一代WSE-2的两倍,可用于训练业内一些最大的人工智能模型。在近日的Hot Chips 2024大会上,Cerebras Systems详细介绍了这款芯片在AI推理方面的性能。
芯智讯
2024/09/02
1800
晶圆级AI芯片WSE-3推理性能公布:在80亿参数模型上每秒生成1800个Token
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
紧跟技术发展趋势,快速了解NLP领域最新动态。今天继续给大家分享10篇最新论文,其中涉及大模型幻觉、大模型对齐、大模型剪枝、大模型隐私、大模型毒性、大模型评估、RAG能力增强、Transformer架构优化等热门研究方向。
ShuYini
2024/01/31
7460
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
3万字详细解析清华大学最新综述工作:大模型高效推理综述
大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因,即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后,引入了一个全面的分类法,将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外,本文还对关键子领域的代表性方法进行了对比实验,以及分析并给出一定的见解。最后,对相关工作进行总结,并对未来的研究方向进行了讨论。
zenRRan
2024/06/07
2K0
3万字详细解析清华大学最新综述工作:大模型高效推理综述
推荐阅读
从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡
1K0
100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!
1.5K0
6G显存玩转大模型,更快更省的4bit量化推理硬核开源!
1.5K0
揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎
1250
AI推理速度提升超10倍,Groq LPU能否取代英伟达GPU?
5350
苹果创新大模型压缩技术,大模型有机会塞进手机里了
4540
多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级
3990
每日论文速递 | 1-bit LLM时代:所有LLM都在1.58Bit中
9080
BitNet b1.58: 革命性的1比特语言模型,性能媲美全精度Transformer
4160
微软6页论文爆火:三进制LLM,真香!
3880
1-bit大模型还能再突破!新一代BitNet架构启用4位激活值
330
新一轮「硬件彩票」:MatMul-free 会改变大模型的游戏规则吗?
4600
清华、哈工大把大模型压缩到了1bit,放到手机里跑的愿望快要实现了!
6330
每日论文速递 | GEAR:高效 KV Cache 压缩框架
9680
低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws
770
从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗
2120
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
1.5K0
晶圆级AI芯片WSE-3推理性能公布:在80亿参数模型上每秒生成1800个Token
1800
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
7460
3万字详细解析清华大学最新综述工作:大模型高效推理综述
2K0
相关推荐
从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文