首页
学习
活动
专区
工具
TVP
发布

深度学习自然语言处理

专栏作者
1010
文章
1176633
阅读量
161
订阅数
Long-Context下LLM模型架构全面介绍
随着ChatGPT的快速发展,基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存在一个普遍的限制:当前许多LLM受资源限制,主要是在较短的文本上进行预训练,使它们对现实世界中常见的较长的上下文提示不太有效。本文对基于Transformer的LLM模型架构的进展进行了全面的介绍。
zenRRan
2023-11-29
1.1K0
剪枝乱炖 | 模型加速与压缩
每天给你送来NLP技术干货! ---- 作者:Colorjam https://zhuanlan.zhihu.com/p/97198052 剪枝是模型压缩的一个子领域,依据剪枝粒度可以分为非结构化/结构化剪枝,依据实现方法可以大致分为基于度量标准/基于重建误差/基于稀疏训练的剪枝,并且逐渐有向AutoML发展的趋势。由于实现方法在剪枝粒度上是有通用性的,本文主要从实现方法进行展开,康康近年来关于剪枝的有的没的,从个人角度对近几年经典的剪枝方法以及其拓展进行一下梳理。 基于度量标准的剪枝 这类方法通常是提出一
zenRRan
2022-03-04
9690
NAACL 2019 | ​注意力模仿:通过关注上下文来更好地嵌入单词
在稀疏上下文信息的情况下,很难得到较高质量的低频单词嵌入,“模仿”被认为是一种可行的解决方案:通过给定标准算法的词嵌入,首先训练模型出现频次高的单词的嵌入,然后再计算低频单词的词嵌入。在本文中,我们引入了注意模仿模型,该模型不仅仅能够可以体现单词的表面形式,同样还可以访问所有可用的上下文,并学会使用最有用和最可靠的上下文来计算词嵌入。在对四项任务评估中,我们发现对于低频和中频单词,注意力模仿比以前的工作更出色。因此,注意力模仿可以改进词汇中大部分包括中频词的嵌入。
zenRRan
2019-11-22
5490
整理一些计算机基础知识!
为了使不同计算机厂家生产的计算机能够相互通信,以便在更大的范围内建立计算机网络,国际标准化组织(ISO)在1978年提出了“开放系统互联参考模型”,即著名的OSI/RM模型(Open System Interconnection/Reference Model)。它将计算机网络体系结构的通信协议划分为七层,自下而上依次为:物理层(Physics Layer)、数据链路层(Data Link Layer)、网络层(Network Layer)、传输层(Transport Layer)、会话层(Session Layer)、表示层(Presentation Layer)、应用层(Application Layer)。其中第四层完成数据传送服务,上面三层面向用户。
zenRRan
2019-11-20
4470
【干货】PyTorch Tricks 集锦
设置当前使用的GPU设备仅为0号设备,设备名称为 /gpu:0: os.environ["CUDA_VISIBLE_DEVICES"] = "0"
zenRRan
2019-10-11
8890
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档