腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

AutoML(自动机器学习)

该专栏文章如果出现格式问题，可以去http://www.cnblogs.com/marsggbo/

专栏作者

390

文章

562895

阅读量

55

订阅数

TACC 集群使用笔记

集群数据系统笔记队列

密码都正确之后你会进入到 login 节点，在这里千万不能随意执行大规模的计算任务，因为很有可能会被封号。你需要使用 compute 节点执行计算任务。

2024-04-11

890

大模型推理框架 vLLM 源码解析（二）：Block 模块分配和管理

框架模型源码 block 管理

vLLM 的一个很大创新点是将物理层面的 GPU 和 CPU 可用内存切分成若干个 block,这样可以有效降低内存碎片化问题。具体而言，vLLM 的 block 分为逻辑层面（logical）和物理层面（physical），二者之间存在映射关系。下图很好解释了两个层面 block 的关系。

2024-03-24

2710

OpenAI 的视频生成大模型Sora的核心技术详解（一）：Diffusion模型原理和代码详解

视频数据原理 openai 模型

简单理解，扩散模型如下图所示可以分成两部分，一个是 forward，另一个是 reverse 过程：

2024-02-23

2760

大模型推理框架 vLLM 源码解析（一）

self 框架模型源码 prompt

执行命令：python run.py。该脚本会自动将模型以张量并行的方式在两个 GPU 上进行推理计算。

2024-02-05

5560

vllm 安装踩坑 (The NVIDIA driver on your system is too old)

driver nvidia torch version cuda

我尝试安装支持 cuda 11.7 的最新版本 torch==2.0.1，运行pip install -e .安装仍然会遇到上述问题。解决办法是修改 vllm 的安装配置文件：

2024-01-16

8670

IEEE 浮点数表示原理

https com 原理

原文： https://zhuanlan.zhihu.com/p/144697348

2023-12-18

1000

LLM 学习笔记-Deepspeed-MoE 论文

论文数据通信学习笔记 LLM

论文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale

2023-12-08

4940

AttributeError: module 'torch' has no attribute 'fx'解决办法

attributeerror import module torch

2023-12-03

3530

LLM 学习笔记-transformers库的 PreTrainedModel 和 ModelOutput 到底是什么？

config 模型学习笔记源码 LLM

前面已经介绍过了，ModelOutput是所有模型输出的基类。下面是其源码核心部分，一些具体实现代码删除了，不过不影响理解。

2023-12-03

7171

LLM 入门笔记-Tokenizer

笔记入门数据算法 LLM

下图展示了完整的 tokenization 流程，接下来会对每个步骤做进一步的介绍。

2023-12-02

2690

在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集

json root wiki wikipedia 数据

更详细的查看 https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md

2023-11-27

2410

大模型训练过程中用到的 gpt_merge.txt和gpt_vocab.json是干什么用的？

json gpt merge txt 模型

下面这边文章讲的非常清晰，原文链接：https://blog.csdn.net/ljp1919/article/details/113616226

2023-11-27

1220

transformer模型训练、推理过程分析

2023-10-09

2690

c++中template的用法是什么？

c++存储编程函数数据类型

在C++中，template是一种通用编程工具，用于创建通用的函数或类。通过使用模板，可以编写可以应用于不同数据类型的函数或类，从而实现代码的重用性和灵活性。template的使用方法如下：

2023-08-10

1930

FlashAttention算法简介

block range size torch 算法

不同硬件模块之间的带宽和存储空间有明显差异，例如下图中左边的三角图，最顶端的是GPU种的SRAM，它的容量非常小但是带宽非常大，以A100 GPU为例，它有108个流式多核处理器，每个处理器上的片上SRAM大小只有192KB，因此A100总共的SRAM大小是192KB\times\(108\)\approx20MB，但是其吞吐量能高达19TB/s。而A100 GPU HBM（High Bandwidth Memory也就是我们常说的GPU显存大小）大小在40GB~80GB左右，但是带宽只与1.5TB/s。下图给出了标准的注意力机制的实现流程，可以看到因为HBM的大小更大，我们平时写pytorch代码的时候最常用到的就是HBM，所以对于HBM的读写操作非常频繁，而SRAM利用率反而不高。

2023-07-25

3520

【转】一文看懂 LLaMA 中的旋转式位置编码（Rotary Position Embedding）

https com embedding position 编码

原文：https://mp.weixin.qq.com/s/0peSNWN0ypMopPR0Q_pujQ

2023-07-20

3400

Oh-my-zsh主题乱码解决办法

fonts mono zsh 乱码终端

随后，我们终端偏好设置，在「描述文件 > 文本」中更改字体,字体可以选择 DejaVu Sans Mono for Powerline 字体（逮虾户！），大小设置为 14 磅。

2023-07-20

1K0

《Transformer Quality in Linear Time》论文解读

time 函数技巧连接论文

原本的Transformer的Block遵循如下的设计范式：MHSA（多头自注意力）+ 一层或者两层的FFN（全连接层），如下图所示。我们只考虑FFN的话，其数学表达式如下：T表示句子长度，d表示词向量维度（也表示模型隐藏层维度），e表示expanded intermediate 特征大小。

2023-06-27

3310

《Transformer Quality in Linear Time》论文解读

huggingface-transformers

原本的Transformer的Block遵循如下的设计范式：MHSA（多头自注意力）+ 一层或者两层的FFN（全连接层），如下图所示。我们只考虑FFN的话，其数学表达式如下：T表示句子长度，d表示词向量维度（也表示模型隐藏层维度），e表示expanded intermediate 特征大小。

2023-06-24

4620

Python多进程代码调试工具

python set trace 多进程调试工具

https://github.com/Lightning-AI/forked-pdb

2023-03-24

3880

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态