首页
学习
活动
专区
工具
TVP
发布

AutoML(自动机器学习)

该专栏文章如果出现格式问题,可以去http://www.cnblogs.com/marsggbo/
专栏作者
390
文章
562895
阅读量
55
订阅数
TACC 集群使用笔记
密码都正确之后你会进入到 login 节点,在这里千万不能随意执行大规模的计算任务,因为很有可能会被封号。你需要使用 compute 节点执行计算任务。
marsggbo
2024-04-11
890
大模型推理框架 vLLM 源码解析(二):Block 模块分配和管理
vLLM 的一个很大创新点是将物理层面的 GPU 和 CPU 可用内存切分成若干个 block,这样可以有效降低内存碎片化问题。具体而言,vLLM 的 block 分为逻辑层面(logical)和物理层面(physical),二者之间存在映射关系。下图很好解释了两个层面 block 的关系。
marsggbo
2024-03-24
2710
OpenAI 的视频生成大模型Sora的核心技术详解(一):Diffusion模型原理和代码详解
简单理解,扩散模型如下图所示可以分成两部分,一个是 forward,另一个是 reverse 过程:
marsggbo
2024-02-23
2760
大模型推理框架 vLLM 源码解析(一)
执行命令:python run.py。该脚本会自动将模型以张量并行的方式在两个 GPU 上进行推理计算。
marsggbo
2024-02-05
5560
vllm 安装踩坑 (The NVIDIA driver on your system is too old)
我尝试安装支持 cuda 11.7 的最新版本 torch==2.0.1,运行pip install -e .安装仍然会遇到上述问题。解决办法是修改 vllm 的安装配置文件:
marsggbo
2024-01-16
8670
IEEE 浮点数表示原理
原文: https://zhuanlan.zhihu.com/p/144697348
marsggbo
2023-12-18
1000
LLM 学习笔记-Deepspeed-MoE 论文
论文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
marsggbo
2023-12-08
4940
AttributeError: module 'torch' has no attribute 'fx'解决办法
marsggbo
2023-12-03
3530
LLM 学习笔记-transformers库的 PreTrainedModel 和 ModelOutput 到底是什么?
前面已经介绍过了,ModelOutput是所有模型输出的基类。下面是其源码核心部分,一些具体实现代码删除了,不过不影响理解。
marsggbo
2023-12-03
7171
LLM 入门笔记-Tokenizer
下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。
marsggbo
2023-12-02
2690
在Megatron-Deepspeed项目中如何下载和预处理Wikipedia数据集
更详细的查看 https://github.com/marsggbo/Megatron-DeepSpeed/blob/main/tutorials/gpt2_wikipedia.md
marsggbo
2023-11-27
2410
大模型训练过程中用到的 gpt_merge.txt和gpt_vocab.json是干什么用的?
下面这边文章讲的非常清晰,原文链接:https://blog.csdn.net/ljp1919/article/details/113616226
marsggbo
2023-11-27
1220
transformer模型训练、推理过程分析
marsggbo
2023-10-09
2690
c++中template的用法是什么?
在C++中,template是一种通用编程工具,用于创建通用的函数或类。通过使用模板,可以编写可以应用于不同数据类型的函数或类,从而实现代码的重用性和灵活性。template的使用方法如下:
marsggbo
2023-08-10
1930
FlashAttention算法简介
不同硬件模块之间的带宽和存储空间有明显差异,例如下图中左边的三角图,最顶端的是GPU种的SRAM,它的容量非常小但是带宽非常大,以A100 GPU为例,它有108个流式多核处理器,每个处理器上的片上SRAM大小只有192KB,因此A100总共的SRAM大小是192KB\times\(108\)\approx20MB,但是其吞吐量能高达19TB/s。而A100 GPU HBM(High Bandwidth Memory也就是我们常说的GPU显存大小)大小在40GB~80GB左右,但是带宽只与1.5TB/s。 下图给出了标准的注意力机制的实现流程,可以看到因为HBM的大小更大,我们平时写pytorch代码的时候最常用到的就是HBM,所以对于HBM的读写操作非常频繁,而SRAM利用率反而不高。
marsggbo
2023-07-25
3520
【转】一文看懂 LLaMA 中的旋转式位置编码(Rotary Position Embedding)
原文:https://mp.weixin.qq.com/s/0peSNWN0ypMopPR0Q_pujQ
marsggbo
2023-07-20
3400
Oh-my-zsh主题乱码解决办法
随后,我们终端偏好设置,在「描述文件 > 文本」中更改字体,字体可以选择 DejaVu Sans Mono for Powerline 字体(逮虾户!),大小设置为 14 磅。
marsggbo
2023-07-20
1K0
《Transformer Quality in Linear Time》论文解读
原本的Transformer的Block遵循如下的设计范式:MHSA(多头自注意力)+ 一层或者两层的FFN(全连接层),如下图所示。我们只考虑FFN的话,其数学表达式如下:T表示句子长度,d表示词向量维度(也表示模型隐藏层维度),e表示expanded intermediate 特征大小。
marsggbo
2023-06-27
3310
《Transformer Quality in Linear Time》论文解读
原本的Transformer的Block遵循如下的设计范式:MHSA(多头自注意力)+ 一层或者两层的FFN(全连接层),如下图所示。我们只考虑FFN的话,其数学表达式如下:T表示句子长度,d表示词向量维度(也表示模型隐藏层维度),e表示expanded intermediate 特征大小。
marsggbo
2023-06-24
4620
Python多进程代码调试工具
https://github.com/Lightning-AI/forked-pdb
marsggbo
2023-03-24
3880
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档