腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习自然语言处理

专栏作者

1010

文章

1176633

阅读量

161

订阅数

Long-Context下LLM模型架构全面介绍

缓存架构模型内存 LLM

随着ChatGPT的快速发展，基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路，并已应用于知识库、人机界面和动态代理等不同领域。然而，存在一个普遍的限制:当前许多LLM受资源限制，主要是在较短的文本上进行预训练，使它们对现实世界中常见的较长的上下文提示不太有效。本文对基于Transformer的LLM模型架构的进展进行了全面的介绍。

2023-11-29

1.1K0

剪枝乱炖 | 模型加速与压缩

每天给你送来NLP技术干货！ ---- 作者：Colorjam https://zhuanlan.zhihu.com/p/97198052 剪枝是模型压缩的一个子领域，依据剪枝粒度可以分为非结构化/结构化剪枝，依据实现方法可以大致分为基于度量标准/基于重建误差/基于稀疏训练的剪枝，并且逐渐有向AutoML发展的趋势。由于实现方法在剪枝粒度上是有通用性的，本文主要从实现方法进行展开，康康近年来关于剪枝的有的没的，从个人角度对近几年经典的剪枝方法以及其拓展进行一下梳理。基于度量标准的剪枝这类方法通常是提出一

2022-03-04

9690

NAACL 2019 | 注意力模仿：通过关注上下文来更好地嵌入单词

在稀疏上下文信息的情况下，很难得到较高质量的低频单词嵌入，“模仿”被认为是一种可行的解决方案：通过给定标准算法的词嵌入，首先训练模型出现频次高的单词的嵌入，然后再计算低频单词的词嵌入。在本文中，我们引入了注意模仿模型，该模型不仅仅能够可以体现单词的表面形式，同样还可以访问所有可用的上下文，并学会使用最有用和最可靠的上下文来计算词嵌入。在对四项任务评估中，我们发现对于低频和中频单词，注意力模仿比以前的工作更出色。因此，注意力模仿可以改进词汇中大部分包括中频词的嵌入。

2019-11-22

5490

整理一些计算机基础知识！

缓存编程算法 tcp/ip

为了使不同计算机厂家生产的计算机能够相互通信，以便在更大的范围内建立计算机网络，国际标准化组织（ISO）在1978年提出了“开放系统互联参考模型”，即著名的OSI/RM模型（Open System Interconnection/Reference Model）。它将计算机网络体系结构的通信协议划分为七层，自下而上依次为：物理层（Physics Layer）、数据链路层（Data Link Layer）、网络层（Network Layer）、传输层（Transport Layer）、会话层（Session Layer）、表示层（Presentation Layer）、应用层（Application Layer）。其中第四层完成数据传送服务，上面三层面向用户。

2019-11-20

4470

【干货】PyTorch Tricks 集锦

https 网络安全 pytorch 缓存编程算法

设置当前使用的GPU设备仅为0号设备，设备名称为 /gpu:0： os.environ["CUDA_VISIBLE_DEVICES"] = "0"

2019-10-11

8890

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态