aaronwjzhao

文章/答案/技术大牛

发布

LV2

发表了文章 23天前2025-09-26 16:22:14

DeepSeek R1专家并行

混合专家相当于Transformer结构中的FFN，R1每一层网络有1个共享专家（shared expert）、256个路由专家（routed expert），...

aaronwjzhao 23天前2025-09-26 16:22:14

LLM、DeepSeek、pytorch

发表了文章 2025-08-072025-08-07 16:49:48

vLLM多租户LoRA原理揭秘

首先需要加载模型Llama 3 8b，并向vLLM表明我们将使用LoRA，同时还需要设置max_lora_rank。

aaronwjzhao 2025-08-072025-08-07 18:54:41

LLM、大模型部署

发表了文章 2025-07-182025-07-18 11:20:50

大语言模型推理优化论文-EdgeMoE

代码仓库：https://github.com/UbiquitousLearning/mllm

aaronwjzhao 2025-07-182025-07-18 18:50:12

LLM

发表了文章 2025-07-182025-07-18 11:08:36

大语言模型推理优化论文-Reasoning on a Budget

这篇论文主要讨论了如何提高大型语言模型（LLMs）在推理时的计算效率。目前的LLMs在推理时往往采用固定的计算预算，导致对于简单问题过度思考，而对于复杂问题则不...

aaronwjzhao 2025-07-212025-07-21 14:49:54

LLM

发表了文章 2025-05-162025-05-16 18:32:19

vLLM源码学习

vLLM从v0.6.0开始，为了解决功能碎片化、模块之间耦合严重、技术债等问题，并行开发了v1。v1不仅解决了上述问题，还提升了推理性能，让CPU调度开销更小。...

aaronwjzhao 2025-05-282025-05-28 14:04:48

LLM、pytorch

发表了文章 2025-04-302025-04-30 11:05:22

分布式计算框架--Ray

Ray是一个高性能的分布式计算框架，在AI和大模型领域得到了广泛应用，OpenAI的训练底层框架就是Ray。Ray提供了统一的分布式计算抽象，可以像在本机上执行...

aaronwjzhao 2025-05-242025-05-24 15:34:22

高性能计算、分布式计算、LLM

发表了文章 2025-04-092025-04-09 18:01:39

Nvidia Nemotron核心技术揭秘

NVIDIA 正式发布了 Llama Nemotron 模型家族，这是一组专为推理与智能体任务优化的模型。它们基于开源的 Meta Llama 模型，结合深度蒸...

aaronwjzhao 2025-04-092025-04-09 18:09:52

pytorch、LLM

发表了文章 2025-02-062025-02-06 11:39:16

DeepSeek R1推理

DeepSeek R1和DeepSeek V3的模型结构一致，参数量也一致，R1是基于V3做强化学习得来的。R1主要的创新点都用在训练过程，推理过程和V3是一样...

aaronwjzhao 2025-03-072025-03-07 18:06:55

DeepSeek、aigc、LLM

发表了文章 2025-01-092025-01-09 17:38:15

Triton Inference Server调研

用户请求通过HTTP或gRPC接口发送到triton server，triton根据支持的多种调度策略、批量算法，把请求路由到不同的框架后端（如Pytorch、...

aaronwjzhao 2025-01-142025-01-14 10:23:43

LLM、nvidia

发表了文章 2024-12-052024-12-05 12:06:10

文生视频模型调研

文生视频评测榜单：VBench Leaderboard - a Hugging Face Space by Vchitect

aaronwjzhao 2025-03-132025-03-13 11:16:54

pytorch、aigc

发表了文章 2024-11-152024-11-15 11:29:29

OpenAI Triton现状调研

PyTorch 2.3.1引入了torch.compile功能，允许用户将包含triton内核的PyTorch代码进行本地执行。

aaronwjzhao 2024-11-152024-11-15 15:55:45

pytorch、openai、编译器

发表了文章 2024-09-042024-09-04 18:28:03

Nvidia技术壁垒之一--NVLink&NVSwitch

单个 NVLink 数据包的范围从 1 到 18 个 flit。每个 flit 为 128 位，允许使用单个 header flit 和 16 个 payloa...

aaronwjzhao 2024-09-062024-09-06 13:47:27

pytorch、nvidia

发表了文章 2024-08-152024-08-15 11:28:09

Mixtral混合专家模型

模型地址：mistralai (Mistral AI_) (huggingface.co)，需要在这个网页上申请权限（地址填国外）

aaronwjzhao 2024-08-152024-08-15 12:12:56

huggingface-transformers、LLM、pytorch

发表了文章 2024-07-242024-07-24 10:56:53

Llama3.1技术报告解读

Llama3.1共开源了8B、70B、405B三种参数量的模型，三个模型具体信息如下图，其中405B除了BF16精度，还有FP8量化版模型，针对8B额外开源了经...

aaronwjzhao 2024-07-252024-07-25 18:18:05

pytorch、huggingface-transformers、LLM

发表了文章 2024-07-112024-07-11 11:14:02

MInference：通过动态稀疏Attention加速长文本推理

由于注意力机制的二次复杂度，举例来说（如图1 a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时，如果提示有 30 万个 token...

aaronwjzhao 2024-07-112024-07-11 11:14:02

pytorch、huggingface-transformers、LLM

发表了文章 2024-07-092024-07-09 21:08:03

大语言模型--Llama3 token结束符问题

结束符是一个句子（prompt）的结尾标记，再大语言模型中，句子中的每个单词都会被编码成数字才能被模型处理。同样的，结尾标记也会被编码成一个数字。再Meta给的...

aaronwjzhao 2024-07-092024-07-09 21:12:12

pytorch、huggingface-transformers、LLM

发表了文章 2024-06-112024-06-11 18:05:16

大语言模型--评价指标

衡量语言建模能力的重要指标，通过计算给定文本序列概率的倒数的几何平均，来衡量模型对于语言的建模能力。基础公式如下：

aaronwjzhao 2024-06-112024-06-11 20:04:32

pytorch、huggingface-transformers、LLM

发表了文章 2024-05-302024-05-30 15:44:13

大语言模型--KV Cache量化论文

论文地址：[2402.02750] KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache ...

aaronwjzhao 2024-07-182024-07-18 17:20:41

pytorch、huggingface-transformers、LLM

发表了文章 2024-05-292024-05-29 12:01:28

大语言模型--Llama3新特性

词表大小从32000增加到128256，这也是导致参数量从7B增至8B的主要原因。更大的词表使得模型涵盖的语言更多、更加通用

aaronwjzhao 2024-05-292024-05-29 17:04:07

pytorch、huggingface-transformers、LLM

发表了文章 2024-05-112024-05-11 12:04:30

大语言模型--流水线并行原理及实现

Google 2019年发表的论文GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism，1811....

aaronwjzhao 2024-06-052024-06-05 19:35:39

pytorch、nvidia、LLM

12 下一页

个人简介

谦合益邦云 | AI Infra工程师
深耕AI基础框架、模型性能优化等
深度学习 pytorch LLM 高性能计算平台
中国人民大学 | 计算机应用技术
https://cloud.tencent.com/developer/user/9497423
北京
加入社区时间：2022-02-25

个人成就

获得 85 次赞同
文章被阅读 45.6K 次

关注了：0关注者：131

aaronwjzhao

DeepSeek R1专家并行

vLLM多租户LoRA原理揭秘

大语言模型推理优化论文-EdgeMoE

大语言模型推理优化论文-Reasoning on a Budget

vLLM源码学习

分布式计算框架--Ray

Nvidia Nemotron核心技术揭秘

DeepSeek R1推理

Triton Inference Server调研

文生视频模型调研

OpenAI Triton现状调研

Nvidia技术壁垒之一--NVLink&NVSwitch

Mixtral混合专家模型

Llama3.1技术报告解读

MInference：通过动态稀疏Attention加速长文本推理

大语言模型--Llama3 token结束符问题

大语言模型--评价指标

大语言模型--KV Cache量化论文

大语言模型--Llama3新特性

大语言模型--流水线并行原理及实现

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐