aaronwjzhao

腾讯云

开发者社区

文档建议反馈控制台

首页TVP

LV2

原创分享计划签约作者

发表了文章 3天前2024-06-11 18:05:16

大语言模型--评价指标

衡量语言建模能力的重要指标，通过计算给定文本序列概率的倒数的几何平均，来衡量模型对于语言的建模能力。基础公式如下：

aaronwjzhao 3天前2024-06-11 20:04:32

pytorch、huggingface-transformers、LLM

发表了文章 15天前2024-05-30 15:44:13

大语言模型--KV Cache量化论文

1.提出了一种Past only quant，attention算子计算使用当前层未量化的kv和历史经过量化的kv

aaronwjzhao 15天前2024-05-30 16:31:17

pytorch、huggingface-transformers、LLM

发表了文章 16天前2024-05-29 12:01:28

大语言模型--Llama3新特性

词表大小从32000增加到128256，这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

aaronwjzhao 16天前2024-05-29 17:04:07

pytorch、huggingface-transformers、LLM

发表了文章 2024-05-112024-05-11 12:04:30

大语言模型--流水线并行原理及实现

Google 2019年发表的论文GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism，1811....

aaronwjzhao 9天前2024-06-05 19:35:39

pytorch、nvidia、LLM

发表了文章 2024-01-112024-01-11 16:32:11

大语言模型--张量并行原理及实现

NCCL是一个Nvidia专门为多GPU之间提供通讯的通讯库，或者说是一个多GPU卡通讯的框架，提供了包括AllReduce、Broadcast、Reduce...

aaronwjzhao 9天前2024-06-05 19:36:10

huggingface-transformers、nvidia、LLM、pytorch

发表了文章 2023-12-222023-12-22 11:55:17

大语言模型--开源数据集

Huggingface开源大模型排行榜: Open LLM Leaderboard - a Hugging Face Space by HuggingFaceH...

aaronwjzhao 15天前2024-05-30 14:22:15

huggingface-transformers、LLM、dataset

发表了文章 2023-11-222023-11-22 19:48:54

TensorRT LLM--RMSNorm

aaronwjzhao 2023-11-222023-11-22 19:48:54

pytorch、nvidia

发表了文章 2023-11-212023-11-21 11:53:59

TensorRT LLM vs OpenPPL LLM

PPL LLM只支持baichuan、chatglm、llama三个模型，Tensor-LLM支持几乎所有大模型。

aaronwjzhao 2023-11-212023-11-21 11:53:59

pytorch、nvidia

发表了文章 2023-11-162023-11-16 16:46:53

TensorRT LLM--Beam Search

Beam Search思想介绍：如何通俗的理解beam search？ - 知乎 (zhihu.com)

aaronwjzhao 2023-11-212023-11-21 11:57:20

nvidia、pytorch

发表了文章 2023-11-162023-11-16 11:59:45

TensorRT LLM--Paged KV Cache

技术出处：vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention | vLLM Blog

aaronwjzhao 2023-11-212023-11-21 11:57:52

pytorch、nvidia

发表了文章 2023-11-162023-11-16 11:59:38

TensorRT LLM--In-Flight Batching

TensorRT LLM依赖于一个名为Batch Manager的组件来支持请求的即时批处理，该技术旨在减少队列中的等待时间，达到更高的GPU利用率。

aaronwjzhao 2023-11-212023-11-21 11:57:33

pytorch、nvidia

发表了文章 2022-02-252022-02-25 20:04:22

Mxnet模型性能优化

导语：模型优化有很多方法，比如模型压缩、模型剪纸、转tensorrt等。本文讨论mxnet模型tesorrt优化，主要解决动态batch、Op不支持问题。

aaronwjzhao 2022-02-252022-02-25 20:04:22

批量计算

发表了文章 2022-02-252022-02-25 17:57:04

记一次排查模型推理变慢原因

导语：使用nvidia dali库来做图片加载和transforms得到的tensor，比pillow+torchvision得到的tensor，在模型推理时候...

aaronwjzhao 2022-02-252022-02-25 17:57:03

pytorch

发表了文章 2022-02-252022-02-25 17:54:15

不重训模型情况下，MMDetection模型V1升级V2

导语：MMDetection是一个基于Pytorch实现的目标检测框架，支持Faster-RCNN、Mask-RCNN、Fast-RCNN等主流目标检测算法。旧...

aaronwjzhao 2022-02-252022-02-25 17:54:14

机器学习、神经网络、深度学习、人工智能、github

发表了文章 2022-02-252022-02-25 17:46:48

Golang分布式限流开源实现

导语：流量上涨常常造成系统的不稳定，进而出现雪崩。本文讨论常见的限流算法，以及对比一些开源实现。

aaronwjzhao 2022-02-252022-02-25 17:46:48

发表了文章 2022-02-252022-02-25 17:33:38

Pytorch转TensorRT实践

导语：TensorRT立项之初的名字叫做GPU Inference Engine(简称GIE)，是NVIDIA 推出的一款基于CUDA和cudnn的神经网络推断...

aaronwjzhao 2022-02-282022-02-28 16:19:45

pytorch

创建了专栏 2022-02-252022-02-25 17:25:36

AI工程落地

AI不止训练，专注工程落地

16 文章17 订阅数

个人简介

视海芯图 | AI框架工程师
模型性能优化深度玩家
深度学习 pytorch 神经网络
中国人民大学 | 计算机应用技术
https://cloud.tencent.com/developer/user/9497423
北京
加入社区时间：2022-02-25

个人成就

原创分享计划签约作者
- 原创分享计划签约作者
获得 50 次赞同
文章被阅读 13.5K 次

关注了：0关注者：125

aaronwjzhao

大语言模型--评价指标

大语言模型--KV Cache量化论文

大语言模型--Llama3新特性

大语言模型--流水线并行原理及实现

大语言模型--张量并行原理及实现

大语言模型--开源数据集

TensorRT LLM--RMSNorm

TensorRT LLM vs OpenPPL LLM

TensorRT LLM--Beam Search

TensorRT LLM--Paged KV Cache

TensorRT LLM--In-Flight Batching

Mxnet模型性能优化

记一次排查模型推理变慢原因

不重训模型情况下，MMDetection模型V1升级V2

Golang分布式限流开源实现

Pytorch转TensorRT实践

AI工程落地

个人简介

个人成就

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐