压缩基本上是一种高效表示数据的方法。预测模型的目标是从历史数据中预测未来的数据或输出。如果一个模型能够准确地预测数据,那么这意味着它已经学会了数据的某种结构或模式。知道这些结构或模式可以使我们更有效地表示或编码数据,从而实现压缩。
11月1日,腾讯AI Lab在南京举办的腾讯全球合作伙伴论坛上宣布正式开源“PocketFlow”项目, 该项目是一个自动化深度学习模型压缩与加速框架,整合多种模型压缩与加速算法并利用强化学习自动搜索合适压缩参数,解决传统深度学习模型由于模型体积太大,计算资源消耗高而难以在移动设备上部署的痛点,同时极大程度的降低了模型压缩的技术门槛,赋能移动端AI应用开发。
百度NLP专栏 作者:百度NLP 引言 近年来,我们在神经网络模型与 NLP 任务融合方面深耕,在句法分析、语义相似度计算、聊天生成等各类方向上,均取得显著的进展。在搜索引擎上,语义相似度特征也成为了相关性排序系统最为重要的特征之一。模型越趋复杂,由最初的词袋模型(BOW)发展至建模短距离依赖关系的卷积神经网络(CNN),建模长距离依赖关系的循环神经网络(RNN),以及基于词与词之间匹配矩阵神经网络(MM-DNN)等等。同时,由于语言复杂、表达多样、应用广泛,为了更好的解决语言学习的问题,我们将更多的 NL
项目访问地址:https://github.com/Tencent/PocketFlow
CLIP是OpenAI在2021年提出的一个里程碑式的视觉语言预训练模型。CLIP的独特之处在于它从海量的图像-文本配对数据中联合学习图像和文本表示,而不需要人工标注。但是,CLIP通常依赖较大的模型容量,存在计算效率不高的限制,这成为其实际应用和部署的主要障碍。综上,CLIP是具有里程碑意义的视觉语言预训练模型,但是还存在可以改进的空间。
众所周知,计算机视觉技术(CV)是企业人工智能应用比重最高的领域之一。为降低企业成本,工程师们一直在探索各类模型压缩技术,来产出“更准、更小、更快”的AI模型部署落地。而在自然语言处理领域(NLP)中,随着模型精度的不断提升,模型的规模也越来越大,例如以BERT、GPT为代表的预训练模型等,这成为企业NLP模型部署落地的拦路虎。
导语:腾讯AI Lab机器学习中心今日宣布成功研发出世界上首款自动化深度学习模型压缩框架——PocketFlow,并即将在近期发布开源代码。这是一款面向移动端AI开发者的自动模型压缩框架,集成了当前主流(包括腾讯AI Lab自研)的模型压缩与训练算法,结合自研超参数优化组件实现了全程自动化托管式的模型压缩与加速。[1] 开发者无需了解具体算法细节,即可快速地将AI技术部署到移动端产品上,实现用户数据的本地高效处理。目前该框架正在为腾讯的多项移动端业务提供模型压缩与加速的技术支持,在多款手机APP中得到
视觉语言模型的出现导致了视觉理解的显著进步。特别是,高分辨率图像编码[7; 8]和更多视频帧的融合[9; 10]分别提高了大型视觉语言模型和大型视频语言模型的能力。然而,大量的视觉标记占据了大型语言模型宝贵的上下文窗口的大部分,导致了高昂的计算成本,如图1(a)所示。例如,在使用LLaVA-1.6[7]中的高分辨率图像输入时,一个分辨率为672×672的单个图像被划分为四个较小的块,每个块以336×336的分辨率进行编码。这个过程产生了包含2304个视觉标记的图像表示,占据了超过一半的上下文长度。此外,随着输入图像数量的增加,文本的上下文窗口将进一步受限。例如,Vicuna-1.5[11]在其4k上下文长度内只能处理大约7帧(7×576=4032个标记),考虑到文本输入。[9, 10]研究了将上下文长度扩展到百万级以缓解这个问题的影响,但这需要昂贵的计算资源(例如,[9]需要超过1000个v4 TPU)以及数据准备和框架开发方面的工程努力。
编者按:深度学习的发展推动了很多大型神经网络模型的诞生,这些模型在多个领域中都取得了当前最优的性能,基于 Transformer 的预训练模型也在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。然而,这些模型所包含的参数量巨大,计算成本高昂,极大地阻碍了此类模型在生产环境中的应用。为了解决该问题,来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。
在即将过去的 2019 年中,快手西雅图实验室在 ICLR、CVPR、AISTATS、ICML 和 NeurIPS 等顶会上发表了十多篇论文。
该研究的目标是,设计一种可用于图像等高维数据的高效无损压缩方法。实现这一目标,要同时解决两个问题:
选自arXiv 作者:Matthew Sotoudeh等 机器之心编译 参与:路雪 近日,英特尔的研究者提出新型深度神经网络压缩技术 DeepThin,适合移动端设备,性能优于其他压缩技术。 论文:D
机器之心专栏 作者:字节跳动-火山引擎多媒体实验室 字节跳动 - 火山引擎多媒体实验室针对图像重采样模型面向图像压缩的鲁棒性,设计了一种非对称的可逆重采样框架,提出新型图像重采样模型 SAIN。 图像重采样 (Image Rescaling,LR) 任务联合优化图像下采样和上采样操作,通过对图像分辨率的下降和还原,可以用于节省存储空间或传输带宽。在实际应用中,例如图集服务的多档位分发,下采样得到的低分辨率图像往往会进行有损压缩,而有损压缩往往导致现有算法的性能大幅下降。 近期,字节跳动 - 火山引擎多媒
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
摘要:Transformers已成为大型语言模型(LLM)的支柱。然而,由于需要在内存中存储过去标记的键值表示缓存,其大小与输入序列长度和批量大小成线性比例,因此生成效率仍然很低。作为解决方案,我们提出了动态内存压缩(DMC),这是一种在推理时在线压缩键值缓存的方法。最重要的是,该模型可以学习在不同的头和层中应用不同的压缩率。我们将预训练的 LLM(如 Llama 2(7B、13B 和 70B))改装成 DMC Transformers,在英伟达 H100 GPU 上实现了高达 ~3.7 倍的自动回归推理吞吐量提升。DMC 通过持续预训练应用于可忽略不计的原始数据百分比,而不添加任何额外参数。我们发现,DMC 保持了原有的下游性能,缓存压缩率高达 4 倍,优于向上训练的分组查询注意(GQA)。GQA 和 DMC 甚至可以结合使用,以获得复合增益。因此,在任何给定的内存预算内,DMC 都能适应更长的上下文和更大的批次。
预训练后的深度神经网络模型往往存在着严重的 过参数化 问题,其中只有约5%的参数子集是真正有用的。为此,对模型进行 时间 和 空间 上的压缩,便谓之曰“模型压缩” 。
自从引入了预训练的 Transformer [27]模型以来,它们在自然语言处理(NLP)[1, 6]和计算机视觉(CV)[2, 7, 28]的一系列任务中展现出了卓越的有效性。然而,它们庞大的规模和高计算需求给部署和微调带来了困难。
神经网络结构搜索有助于得到在计算机视觉任务中效果更好的深度神经网络,同时可以减小模型尺寸, 提高运行效率,实现移动端高速处理。
英特尔的研究者提出新型深度神经网络压缩技术 DeepThin,适合移动端设备,性能优于其他压缩技术。
本文是来自Stanford Compression Workshop 2019的演讲,作者是来自MIT的助理教授韩松。本次演讲的主要内容是深度卷积神经网络压缩。深度学习的一个挑战是模型太大,对计算资源的消耗极大,很难在手机等嵌入式设备上进行部署,同时也很难以在网络上实时下载;另一个挑战就是深度学习模型对能源的消耗极大,比如AlphaGo每场比赛需要消耗3000美元的电费,而韩松的工作就是使AI更高效:低延迟、高吞吐量、低耗、自动设计和鲁棒。在演讲中,韩松从三个方面讲解了模型压缩:神经网络的内存带宽、工程师的人力资本、分布式网络训练消耗的带宽。
WAVE SUMMIT 2019 深度学习开发者峰会上,PaddleSlim 全新发布,对于在内存紧张、功耗限制、存储有限的设备上进行深度学习应用的开发者是一份重磅惊喜。
PaddleSlim 是一个无论是新手还是经验者都可以很方便用来优化模型以进行部署的模型压缩库:在普通的模型训练上,只需要两行 python 代码,构造一个 Compressor 对象,即可调用。PaddleSlim 实现了目前主流的网络量化、剪枝、蒸馏三种压缩策略,并可快速配置多种压缩策略组合使用。针对体积已经很小的 MobileNet 模型,在模型效果不损失的前提下实现 70% 以上的体积压缩。
目前在深度学习领域,一方面需要追求更高的性能,采用强大、复杂的模型网络和实验方法;另一方面又需要关注如何将算法更稳定、高效地在硬件平台上落地。复杂的模型固然展现更好的性能,但过高的存储空间需求和计算资源消耗,是影响在各硬件平台上的落地的重要原因之一。尤其在NLP领域,以BERT、GPT为代表的预训练模型规模越来越大。
生成模型 GAN 是机器学习领域里最为重要的发展方向之一。但这类算法需要消耗巨量算力,大多数研究者已经很难得出新成果。近年来,这一方向颇有被大型机构垄断的趋势。
很多伙伴问起,如何查看 Power BI 数据模型到底会占用多少内存,这的确是个问题。本文对此做出简单说明。
随着GPT、BART等大型深度语言模型的问世,语言模型的运行效率、内存开销成为了备受关注的研究点。在实际应用中,可能没有那么多机器,或者需要提升运行效率,这个时候就需要对语言模型进行压缩,让模型的运行性能能够达到应用标准。基于量化的模型压缩在BERT以及CV领域的一些模型中实现了模型效果微小下降前提下的压缩,华为和港大提出了适用于GPT等自回归语言模型的量化压缩技术,并被评选为ACL 2022的杰出论文。接下来先给大家介绍基于量化的模型压缩方法的基本思路,然后介绍这篇论文提出的改进方法。
学习、预测和压缩之间存在着密切的联系。ChatGPT的成功吸引了公众的广泛关注,并将学习与预测之间的联系推向了前沿。LLaMA和GPT-4等大型语言模型带来的主要进步是,它们能够根据已知的前几个单词(Token)来出色地预测段落中的下一个单词(Token)。
摘要:键值(KV)缓存已成为加快大语言模型(LLM)推理生成速度的事实。然而,随着序列长度的增加,缓存需求也在不断增长,这使得 LLM 推理变成了一个内存约束问题,极大地限制了系统的吞吐量。现有的方法依赖于放弃不重要的标记或均匀量化所有条目。然而,这些方法在表示压缩矩阵时往往会产生较高的近似误差。自回归解码过程进一步加剧了每一步的误差,导致模型生成出现严重偏差,性能下降。为了应对这一挑战,我们提出了一种高效的 KV 缓存压缩框架--GEAR,它能实现近乎无损的高比率压缩。GEAR 首先对大部分大小相似的条目进行超低精度量化。然后,它采用低秩矩阵来近似量化误差,并采用稀疏矩阵来弥补离群条目的个别误差。通过巧妙地整合三种技术,GEAR 能够充分发挥它们的协同潜力。我们的实验证明,与其他技术相比,GEAR 实现了近乎无损的 4 位 KV 高速缓存压缩,吞吐量提高了 2.38 倍,同时内存峰值大小减少了 2.29 倍。
随着GPT-4的架构被知名业内大佬「开源」,混合专家架构(MoE)再次成为了研究的重点。
视频超分辨率(VSR)旨在利用低分辨率帧内的互补时间信息来恢复高分辨率帧序列。然而,目前大多数的 VSR 方法通常针对特定的压缩方式,实验设置与实际应用之间的性能差距很大,不能自适应地处理各种不同的压缩级别。此外,比特流中编码的丰富元数据可以使超分辨率过程受益,但还尚未得到充分利用。基于此,本文提出了一种压缩感知的视频超分辨率模型,具体贡献如下:
在智能工厂逐渐推广应用中,数字化信息的数据量相当庞大,对存储器的存储容量、网络带宽以及计算机的处理速度都有较高的要求,完全通过增加硬件设施来满足现实需求是不可能的,必须采用有效的压缩技术实现数据在网络中的轻量传输。
腾讯ISUX isux.tencent.com 社交用户体验设计 朋友们,还记得 QQ 20 周年 H5 中可可爱爱的太空鹅吗? 为了实现旋转和换肤功能,在 H5 中我们随机展示了5种类型的 3D 太空鹅模型,如下图所示: 但是在 H5 中引入 3D 模型往往存在资源太大、性能损耗严重、还原不真实的问题,这也让许多 3D 创意止步于开发阶段。 如何更好地在 H5 中还原模型呢?本文将从模型网格和贴图文件两方面分析,介绍几种通过技术角度优化加载速度和提高渲染性能的途径,在保证 3D
论文链接:https://arxiv.org/pdf/1911.05507.pdf
深度学习模型的应用必然要面对模型压缩的问题,训练出来的原始模型直接放到服务器或终端上跑是不明智的,因为有大量的算力可以省略!
目前,深度学习模型的部署和应用已经成为了各个领域的热门话题。然而,随着深度学习模型的不断发展,模型的复杂性和计算需求也越来越高,限制了模型在资源受限的设备上的应用。为了解决这个问题,模型剪枝压缩成为了一种常用的方法。在本文中,我们将讲解如何使用YOLOv5模型进行剪枝压缩,以实现模型的高效部署。
选自arXiv 作者:Yu Cheng等 机器之心编译 参与:蒋思源、路雪、刘晓坤 本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。机器之心简要介绍了该论文,更详细的内容请查看原论文。 大型神经网络具有大量的层级与结点,因此考虑如何减少它们所需要的内存与计算量就显得极为重要,特别是对于在线学习和增量学习等实时应用。此外,近来智能可穿戴设备的流行也为研究员提供了在资源(内存、CPU、能耗和
近些年来,随着计算机软硬件等的不断发展,计算机视觉、现实增强等让那些我们觉得不会发生的事情发生了,不得不说,科技正在改变我们的生活,给我们的生活带来了更多的便利。
然而,作为依据的信息熵仅仅考虑了文本的单向上下文,进而可能会遗漏对于压缩至关重要的信息;此外,信息熵的计算方式与压缩提示词的真正目的并不完全一致。
近来,大型语言模型(LLM)在各种任务中表现出色。然而,即便有卓越的任务处理能力,LLM 却面临着巨大的挑战,这些挑战源于其巨大的规模和计算需求。举个例子,GPT-175B 版本具有惊人的 1750 亿参数,至少需要 320GB(使用 1024 的倍数)的半精度(FP16)格式存储。此外,部署此模型进行推理还需要至少五个 A100 GPU,每个 GPU 具有 80GB 的内存,这样才能有效地保证运行。
提到深度学习、老师这两个关键词,第一时间是不是想到的是站在讲台上,写着复杂的损失函数和信息论的授课讲师,亦或是教学视频里面,带你劈哩叭啦一行一行敲代码的实践老师?
导读: 本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。机器之心简要介绍了该论文,更详细的内容请查看原论文。 大型神经网络具有大量的层级与结点,因此考虑如何减少它们所需要的内存与计算量就显得极为重要,特别是对于在线学习和增量学习等实时应用。此外,近来智能可穿戴设备的流行也为研究员提供了在资源(内存、CPU、能耗和带宽等)有限的便携式设备上部署深度学习应用提供了机会。高效的深度学习方法可以
最近了解到一种称为"BERT-of-Theseus"的BERT模型压缩方法,源自论文《BERT-of-Theseus: Compressing BERT by Progressive Module Replacing》。这是一种以"可替换性"为出发点所构建的模型压缩方案,相比常规的剪枝、蒸馏等手段,它整个流程显得更为优雅、简洁。本文将对该方法做一个简要的介绍,并给出一个简单的Pytorch实现
大模型理念伴随着深度学习发展似乎成为了大数据建模的银弹思路。搜广推场景的模型近几年的迭代也不例外,通过做大做复杂的迭代思路,在提升模型效果同时,也带来了高存储成本和高服务消耗的问题,给训练性能和推荐成本都来了严峻挑战。
选自斯坦福大学 作者:Kedar Tatwawadi 机器之心编译 参与:李泽南、黄小天 神经网络不仅可以分析、识别特征,提出预测,还可以压缩文件。斯坦福大学的研究者最近提交的论文中,循环神经网络捕捉长期依赖关系的优势被用于无损压缩任务中,这种被称为 DeepZip 的技术已在文本和基因组数据文件中得到了实验。研究人员称,其结果颇具潜力。 正在进行的大数据变革让我们收集了大量不同类型的数据,如图像、文本和音频等;新类型的数据如 3D VR 数据、用于自动驾驶的点云数据、不同类型的基因组数据等,占据着巨量的存
深度神经网络模型被广泛应用在图像分类、物体检测等机器视觉任务中,并取得了巨大成功。然而,由于存储空间和功耗的限制,神经网络模型在嵌入式设备上的存储与计算仍然是一个巨大的挑战。
机器之心转载 来源:知乎 作者:周昕宇 压缩即智能? 最近在研究 OpenAI 发现,他们其实做的只是机器学习的第一原理,也是机器学习的终局:优化对于未来观察的无损传输的压缩大小。进一步分析后发现,这个理论非常 powerful,因为仅仅如此,便能通向超过人类的智能 (Super-human Intelligence)。本文会介绍无损压缩的基本原理和具体实现以及对于 AI 未来发展的猜想。 在和小伙伴一起研究的过程中,引出一些有意思的讨论。虽然由于篇幅限制不会特别深入,但希望能引起大家的兴趣。讲无损压缩的
本文将讲述压缩纹理在实际项目中的使用的案例。最近的一个项目是这样的:项目由于涉及到的建筑物特别多,大概有近40栋的建筑,而每一栋建筑物,又有10层楼,每层楼里面又有很多的设备。这就导致我们需要使用到大量的贴图。在实际的项目过程中,我们的客户的电脑会经常遇到webgl崩溃的情况。这就需要我们想办法来减少该项目下贴图显存和内存的占用。
目前,神经图像压缩(NIC)在分布内(in-distribution, IND)数据的 RD 性能和运行开销表现出了卓越的性能。然而,研究神经图像压缩方法在分布外(out-of-distribution, OOD)数据的鲁棒性和泛化性能方面的工作有限。本文的工作就是围绕以下关键问题展开的:
领取专属 10元无门槛券
手把手带您无忧上云