首页
学习
活动
专区
工具
TVP
发布

GiantPandaCV

专栏成员
722
文章
990440
阅读量
100
订阅数
CUDA-MODE 课程笔记 第一课: 如何在 PyTorch 中 profile CUDA kernels
一直想系统看一下某个课程系统和科学的学习下 CUDA ,感觉 CUDA-MODE 这个课程能满足我的需求。这个课程是几个 PyTorch 的 Core Dev 搞的,比较系统和专业。不过由于这个课程是 Youtube 上的英语课程,所以要学习和理解这个课程还是需要花不少时间的,我这里记录一下学习这个课程的每一课的笔记,希望可以通过这个笔记帮助对这个课程以及 CUDA 感兴趣的读者更快吸收这个课程的知识。这个课程相比于以前的纯教程更加关注的是我们可以利用 CUDA 做什么事情,而不是让读者陷入到 CUDA 专业术语的细节中,那会非常痛苦。伟大无需多言,感兴趣请阅读本文件夹下的各个课程的学习笔记。
BBuf
2024-07-02
3870
系统调优助手,PyTorch Profiler TensorBoard 插件教程
使用PyTorch Profiler进行性能分析已经一段时间了,毕竟是PyTorch提供的原生profile工具,个人感觉做系统性能分析时感觉比Nsys更方便一些,并且画的图也比较直观。这里翻译一下PyTorch Profiler TensorBoard Plugin的教程并分享一些使用经验,我使用的时候也是按照这个教程来来的,有一点不一样的是可以在vscode里面直接安装TensorBoard插件,然后Command+Shift+P打开vscode的命令行窗口输入TensorBoard启用TensorBoard插件并把PyTorch Profiler输出的日志文件所在的文件夹路径传给它就可以直接在vscode里面查看可视化Profile结果了。
BBuf
2024-04-18
4410
《PytorchConference2023翻译系列》22. PT2 Export - 用于PyTorch的全图捕获机制
PT2 Export - A Sound Full Graph Capture Mechanism for PyTorch
BBuf
2024-02-29
1390
《PytorchConference2023翻译系列》19-使用TorchBench for PyTorch标准化CPU基准测试
大家好,我是来自英特尔的明飞。今天的主题是关于使用Torchbench对PyTorch社区进行CPU基准测试的标准化。实际上,这是我同事王传奇和姜彦斌的一项工作,但不幸的是他们有一些签证问题,无法亲自来参加,所以我代替他们进行演讲。特别感谢来自Meta的工程师赵旭,在这项工作中给予了很多帮助。首先,我们来看一下为什么做这个?
BBuf
2024-01-30
1940
《PytorchConference2023 翻译系列》16.PyTorch 边缘部署之编译器和后端的供应商集成之旅
大家好,我是Kimish Patel,这是我的同事Chen。我们俩都在Meta的人工智能部门工作,也是一个由合作伙伴领导的团队的一员。非常高兴能在这里与大家分享我们加速AI模型的合作伙伴集成的构想。让我先回答一个问题,为什么合作伙伴集成如此重要呢?我希望我们能先看看当前设备上AI的情况,将PyTorch模型部署到设备上的过程通常是这样的:
BBuf
2024-01-24
1690
《PytorchConference2023 翻译系列》15-PyTorch-Edge-在边缘设备上部署AI模型的开发者之旅
我的名字是孟伟,这是安吉拉。今天我们非常高兴地讲解ExecuTorch,这是我们的一个新的端到端技术栈,帮助开发者在边缘设备上部署他们的PyTorch模型,这些设备包括智能手机、智能可穿戴设备和虚拟现实头显等等。
BBuf
2024-01-12
2350
《PytorchConference2023 翻译系列》9,在PyTorch 2.X中使用TensorRT加速推理
大家好,我叫乔治。嗨,我是迪拉杰,我们都是NVIDIA的深度学习软件工程师。今天我们在这里讨论使用Torch TensorRT加速PyTorch推断。首先,我们会给大家简短介绍一下Torch TensorRT是什么,然后乔治将深入介绍我们优化PyTorch模型的用户工作流程。最后,我们将比较这两种方法,并讨论一些正在进行的未来工作。现在我将把话筒交给乔治。
BBuf
2024-01-11
3920
《PytorchConference2023 翻译系列》4-探索PyTorch在MPS后端的最新增强功能:提升应用程序性能
大家好,我叫Kulinseth,我在苹果的MPS团队工作,今天我将讨论PyTorch中MPS后端的改进。接下来,我将介绍MPS后端进入Beta Stage的新功能。我们添加了一些新功能,如支持分析器、自定义内核和MPS开发者API,这些都是MPS后端的新特性。
BBuf
2023-12-15
2540
《PytorchConference2023 翻译系列》2-PyTorch开发者基础设施
我们推出了一个新的系列,对PytorchConference2023 的博客进行中文编译,会陆续在公众号发表。也可以访问下面的地址 https://www.aispacewalk.cn/docs/ai/framework/pytorch/PytorchConference2023/torch_infra_new_ci 阅读。
BBuf
2023-12-13
1680
《PytorchConference2023 翻译系列》1-Pytorch2.0与社区现状介绍
我的名字是albin,今天在这个快速的闪电演讲中,我要给大家介绍一下我的torch的现状。我之前参加过这个会议,也许你们见过我做这个演讲的多个版本。我们每年都会进行这个演讲,我去年做过一次。我在PyTorch的核心库维护方面做了很多工作。今天我想谈论的是三个重要的PyTorch里程碑以及今年发生的事情中的三个重要事件。还有一些有趣的数字,Joe之前已经给大家展示过其中的一些,但能亲眼看到这些数据总是很有趣的。最后,我会给大家介绍一下如何参与pytorch以及如何帮助我们build pytorch。
BBuf
2023-12-13
1970
PyTorch与torch-xla的桥接
XLA (Accelerated Linear Algebra)是一个开源的机器学习编译器,对PyTorch、Tensorflow、JAX等多个深度学习框架都有支持。最初XLA实际上是跟Tensorflow深度结合的,很好地服务了Tensorflow和TPU,而与XLA的结合主要依赖于社区的支持,即torch-xla。
BBuf
2023-11-16
6020
torchpipe : Pytorch 内的多线程计算并行库
云端深度学习的服务的性能加速通常需要算法和工程的协同加速,需要模型推理和计算节点的融合,并保证整个“木桶”没有太明显的短板。
BBuf
2023-10-30
7200
【DeepSpeed 教程翻译】三,在 DeepSpeed中使用 PyTorch Profiler和Flops Profiler
这篇翻译是对 https://www.deepspeed.ai/tutorials/pytorch-profiler/ 和 https://www.deepspeed.ai/tutorials/flops-profiler/ 两篇教程做的,使用DeepSpeed训练模型可以基于这两个教程做一下Profile工作判断模型的计算以及内存瓶颈在哪个地方。
BBuf
2023-08-22
1.3K1
一文理解 PyTorch 中的 SyncBatchNorm
我们知道在分布式数据并行多卡训练的时候,BatchNorm 的计算过程(统计均值和方差)在进程之间是独立的,也就是每个进程只能看到本地 GlobalBatchSize / NumGpu 大小的数据。
BBuf
2022-09-28
2.8K0
Torch MLIR公开会议翻译视频-上
由于最近写文章的idea比较有限,我们会陆续翻译和制作一些编译器领域的public meeting视频(主要是关于TVM和MLIR的)。帮助大家更好的入门和了解深度学习编译器,以及看看国外的学者和工程师们在深度学习编译器领域做了哪些有趣的事情。
BBuf
2022-05-25
7580
FFCV:让数据加载不再是训练模型的瓶颈
前段时间逛GitHub看到FFCV这个库,该库主要是优化数据加载过程来提升整体训练速度。其中也放出了一些benchmark,看上去比其他优化库如DALI,PyTorch Lightening要快的不少。
BBuf
2022-02-11
1.1K0
一文读懂 Pytorch 中的 Tensor View 机制
用户在使用 Pytorch 的过程中,必然会接触到 view 这个概念,可能会有用户对它背后的实现原理感兴趣。
BBuf
2022-02-11
3K0
用沐神的方法阅读PyTorch FX论文
【GiantPandaCV导语】torch.fx对于PyTorch来说确实是一个比较好的工作,因为它消除了一些动态图和静态图的Gap。比如在图改写方面,torch.fx让PyTorch想做一些其它静态图框架的算子融合优化非常容易。并且torch.fx让后训练量化和感知训练量化以及AMP等的实现难度大大降低,这得益于我们可以直接在Python层操作这个IR,所以我认为这是一个不错的工作。尤其是对使用PyTorch开发的算法工程师来说,现在可以基于这个特性大开脑洞了。我之前围绕FX也做了一个QAT的工作,感兴趣可以阅读:基于OneFlow实现量化感知训练。torch.fx的卖点就是,它使用纯Python语言实现了一个可以捕获PyTorch程序的计算图并转化为一个IR的库,并且非常方便的在这个IR上做Pass,同时提供将变换后的IR Codegen合法的Python代码功能。我觉得算是达到了在Eager下写Pass就像做链表插入删除题目一样顺滑。
BBuf
2021-12-27
8420
浅谈LabelSmooth两种实现及推导
因为最近跑VIT的实验,所以有用到timm的一些配置,在mixup的实现里面发现labelsmooth的实现是按照最基本的方法来的,与很多pytorch的实现略有不同,所以简单做了一个推导。
BBuf
2021-12-10
1.3K0
如何参与PyTorch社区开源贡献?
作为深度学习框架OneFlow的一个全职开发者(声明我是菜鸡),基本上每天都会和PyTorch打交道,所以自问自答一下这个问题,希望对想为开源项目做贡献的小伙伴们提供一些思路也希望这个问题能获得更多回复。
BBuf
2021-12-02
9120
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档