腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
圈层
工具
返回腾讯云官网
AI工程落地
AI不止训练,专注工程落地
专栏成员
举报
26
文章
32302
阅读量
18
订阅数
订阅专栏
申请加入专栏
全部文章(26)
pytorch(20)
LLM(13)
huggingface-transformers(9)
nvidia(9)
aigc(2)
DeepSeek(2)
机器学习(1)
go(1)
github(1)
神经网络(1)
深度学习(1)
批量计算(1)
人工智能(1)
dataset(1)
openai(1)
编译器(1)
搜索文章
搜索
搜索
关闭
MInference:通过动态稀疏Attention加速长文本推理
pytorch
huggingface-transformers
LLM
由于注意力机制的二次复杂度,举例来说(如图1 a 所示),在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时,如果提示有 30 万个 token,模型需要 6 分钟才能完成预填充( pre-filling)阶段,如果提示增加到 100 万个 token,这个数字将增加到 30 分钟。自注意力计算的开销占到了总预填充延迟的 90% 以上,这使其成为 LLM 处理长上下文时的主要瓶颈。
aaronwjzhao
2024-07-11
839
1
置顶
Llama3.1技术报告解读
pytorch
huggingface-transformers
LLM
Llama3.1共开源了8B、70B、405B三种参数量的模型,三个模型具体信息如下图,其中405B除了BF16精度,还有FP8量化版模型,针对8B额外开源了经过内容安全分类微调的Llama-Guard-3-8B。
aaronwjzhao
2024-07-24
4.4K
1
置顶
Mixtral混合专家模型
huggingface-transformers
LLM
pytorch
模型地址:mistralai (Mistral AI_) (huggingface.co),需要在这个网页上申请权限(地址填国外)
aaronwjzhao
2024-08-15
138
0
置顶
DeepSeek R1专家并行
pytorch
LLM
DeepSeek
混合专家相当于Transformer结构中的FFN,R1每一层网络有1个共享专家(shared expert)、256个路由专家(routed expert),每个token的推理会激活8个路由专家。
aaronwjzhao
2025-02-25
310
1
DeepSeek R1推理
DeepSeek
aigc
LLM
DeepSeek R1和DeepSeek V3的模型结构一致,参数量也一致,R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程,推理过程和V3是一样的。
aaronwjzhao
2025-02-06
2.4K
1
Triton Inference Server调研
LLM
nvidia
用户请求通过HTTP或gRPC接口发送到triton server,triton根据支持的多种调度策略、批量算法,把请求路由到不同的框架后端(如Pytorch、ONNX等)。
aaronwjzhao
2025-01-09
191
0
文生视频模型调研
pytorch
aigc
文生视频评测榜单:VBench Leaderboard - a Hugging Face Space by Vchitect
aaronwjzhao
2024-12-05
137
0
OpenAI Triton现状调研
pytorch
openai
编译器
PyTorch 2.3.1引入了torch.compile功能,允许用户将包含triton内核的PyTorch代码进行本地执行。
aaronwjzhao
2024-11-15
406
0
Nvidia技术壁垒之一--NVLink&NVSwitch
pytorch
nvidia
单个 NVLink 数据包的范围从 1 到 18 个 flit。每个 flit 为 128 位,允许使用单个 header flit 和 16 个 payload flit 传输 256 字节,峰值效率为 94.12%,使用单个 header flit 和 4 个数据 payload flit 传输 64 字节,单向效率为 80%。在双向流量中,效率分别略微降低至 88.9% 和 66.7%。
aaronwjzhao
2024-09-04
1.7K
1
大语言模型--Llama3 token结束符问题
pytorch
huggingface-transformers
LLM
结束符是一个句子(prompt)的结尾标记,再大语言模型中,句子中的每个单词都会被编码成数字才能被模型处理。同样的,结尾标记也会被编码成一个数字。再Meta给的源码中,Llama3的结束符是-1(pad_id=-1,参考llama3/llama/tokenizer.py at main · meta-llama/llama3 (github.com))。transformers中现在是不支持pad_id=-1的,当同时给模型输入了多个句子(batch>1),我们就没法标记单个句子结束的地方。
aaronwjzhao
2024-07-09
947
1
大语言模型--评价指标
pytorch
huggingface-transformers
LLM
衡量语言建模能力的重要指标,通过计算给定文本序列概率的倒数的几何平均,来衡量模型对于语言的建模能力。基础公式如下:
aaronwjzhao
2024-06-11
612
0
大语言模型--KV Cache量化论文
pytorch
huggingface-transformers
LLM
论文地址:[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache (arxiv.org)
aaronwjzhao
2024-05-30
709
0
大语言模型--Llama3新特性
pytorch
huggingface-transformers
LLM
词表大小从32000增加到128256,这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用
aaronwjzhao
2024-05-29
231
0
大语言模型--流水线并行原理及实现
pytorch
nvidia
LLM
Google 2019年发表的论文GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism,1811.06965 (arxiv.org)
aaronwjzhao
2024-05-11
908
0
大语言模型--张量并行原理及实现
huggingface-transformers
nvidia
LLM
pytorch
NCCL是一个Nvidia专门为多GPU之间提供通讯的通讯库,或者说是一个多GPU卡通讯的框架 ,提供了包括AllReduce、Broadcast、Reduce、AllGather、ReduceScatter等集合通讯API。NCCL屏蔽了底层复杂的细节,向上提供API供训练框架调用,向下连接机内机间的GPU以完成模型参数的高效传输。
aaronwjzhao
2024-01-11
2.6K
6
大语言模型--开源数据集
dataset
huggingface-transformers
LLM
Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH4
aaronwjzhao
2023-12-22
953
0
TensorRT LLM--RMSNorm
pytorch
nvidia
aaronwjzhao
2023-11-22
200
0
TensorRT LLM vs OpenPPL LLM
pytorch
nvidia
PPL LLM只支持baichuan、chatglm、llama三个模型,Tensor-LLM支持几乎所有大模型。
aaronwjzhao
2023-11-21
945
0
TensorRT LLM--Beam Search
nvidia
pytorch
Beam Search思想介绍:如何通俗的理解beam search? - 知乎 (zhihu.com)
aaronwjzhao
2023-11-16
1K
0
TensorRT LLM--Paged KV Cache
pytorch
nvidia
技术出处:vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM Blog
aaronwjzhao
2023-11-16
1.9K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档