在Cuda中实现最大Reduce_在CUDA中查找最大值_在调用其他CUDA函数后使用thrust::reduce - 腾讯云开发者社区

在前一篇文章中，我们介绍了如何使用 GPU 运行的并行算法。这些并行任务是那些完全相互独立的任务，这点与我们一般认识的编程方式有很大的不同，虽然我们可以从并行中受益，但是这种奇葩的并行运行方式对于我们来说肯定感到非常的复杂。所以在本篇文章的Numba代码中，我们将介绍一些允许线程在计算中协作的常见技术。

您找到你想要的搜索结果了吗？

是的

没有找到

TensorFlow的环境配置与安装教程详解（win10+GeForce GTX1060+CUDA 9.0+cuDNN7.3+tensorflow-gpu 1.12.0+python3.5.5）

记录一下安装win10+GeForce GTX1060+CUDA 9.0+cuDNN7.3+tensorflow-gpu 1.12.0+python3.5.5

[源码解析] PyTorch 分布式(4)------分布式应用基础概念

本文以 PyTorch 官方文档 https://pytorch.org/tutorials/intermediate/dist_tuto.html 为基础，对如何编写分布式进行了介绍，并且加上了自己的理解。

pytorch – ohem 代码实现

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/140952.html原文链接：https://javaforall.cn

Linux下Caffe、Docker、Tensorflow、PyTorch环境搭建(CentOS 7)

本文介绍了如何在CentOS 7上安装NVIDIA CUDA工具包以及CUDNN，并使用Docker和Nvidia-Docker来安装深度学习环境。通过这些环境，可以方便地运行深度学习模型的训练、测试和部署。

[源码解析] PyTorch 分布式(3) ----- DataParallel(下)

我们先回忆一下目前的前向图，replicate 调用了Broadcast.forward，同时往其context 存储了input_device和num_inputs。

[源码分析] Facebook如何训练超大模型---(4)

我们在前文介绍过，微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。而FSDP（Fully Sharded Data Parallel）是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google，微软和 Facebook 的论文，博客以及代码来进行学习分析。

【问题笔记】在NVIDIA Tesla V100上用非tensor core测试，半精度并不如单精度，是真的么？

有同学问：NVIDIA手册上说Tesla P100用sp做半精度，理论计算能力是单精度的一倍，我在Tesla V100上用非tensor core测试，半精度并不如单精度。不知道是p100是不是也这样？

如何在CUDA中为Transformer编写一个PyTorch自定义层

首先，我们需要对一种深度学习模型很熟悉，这样我们就可以找到其性能瓶颈，并查看在我们进行了优化之后有多大的提升。我们可以使用内置的 PyTorch 分析器，也可以使用通用的 python 分析器。我们将同时考察这两种方法。

Pytorch 分布式模式介绍

数据较多或者模型较大时，为提高机器学习模型训练效率，一般采用多GPU的分布式训练。

神经网络架构搜索——可微分搜索（Fair-DARTS）

在超网络训练架构参数过程中，两个节点之间是八个操作同时作用的， skip connections 作为操作的其中一员，相较于其他的操作来讲是起到了跳跃连接的作用。在ResNet 中已经明确指出了跳跃连接在深层网络的训练过程中中起到了良好的梯度疏通效果，进而有效减缓了梯度消失现象。因此，在超网络的搜索训练过程中，skip connections可以借助其他操作的关系达到疏通效果，使得 skip connections 相较于其他操作存在不公平优势。

索尼刷新纪录，训练ImageNet仅用224秒，准确率达75%

索尼的研究人员宣布了训练ImageNet / ResNet 50的新纪录，通过使用2100个NVIDIA Tesla V100 Tensor Core GPU，仅用224秒（3分44秒）就可以获得75％的准确率，对于ResNet-50来说这是训练时间是最短的。

PyTorch 的这些更新，你都知道吗？

翻译 | 林椿眄出品 | AI 科技大本营（公众号ID：rgznai100）一些你可能不知道的优质公众号！这次版本的主要更新一些性能的优化，包括权衡内存计算，提供 Windows 支持，24个基础分布，变量及数据类型，零维张量，张量变量合并，支持 CuDNN 7.1，加快分布式计算等，并修复部分重要 bug等。 ▌目录主要变化张量/变量合并零维张量数据类型版本迁移指南新特性张量高级的索引功能快速傅里叶变换神经网络权衡内存计算瓶颈—用于识别代码热点的工具 torch中的分布 2

【BBuf的CUDA笔记】十二，LayerNorm/RMSNorm的重计算实现

我也是偶然在知乎的一个问题下看到这个问题，大概就是说在使用apex的LayerNorm/RMSNorm的时候可以打开这个api的memory_efficient开关，这个开关可以在速度和精度无损的情况下节省网络训练的显存占用。感觉比较有趣，我就研究了一下，因此也就有了这篇文章。

PyTorch 重磅更新，不只是支持 Windows

这次版本的主要更新一些性能的优化，包括权衡内存计算，提供 Windows 支持，24个基础分布，变量及数据类型，零维张量，张量变量合并，支持 CuDNN 7.1，加快分布式计算等，并修复部分重要 bug等。

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2)

在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

OHEM的pytorch代码实现细节

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/139445.html原文链接：https://javaforall.cn

224秒！ImageNet上训练ResNet-50最佳战绩出炉，索尼下血本破纪录

刚刚，索尼在arXiv上发文宣布：他们用224秒在ImageNet上完成了ResNet-50训练，没有明显的准确率损失。

224秒！ImageNet上训练ResNet-50最佳战绩出炉，索尼下血本破纪录

刚刚，索尼在arXiv上发文宣布：他们用224秒在ImageNet上完成了ResNet-50训练，没有明显的准确率损失。

NCCL(Nvidia Collective multi-GPU Communication Library) Nvidia英伟达的Multi-GPU多卡通信框架NCCL 学习；PCIe 速率调研；

https://ark.intel.com/content/www/cn/zh/ark/products/133293/intel-z390-chipset.html

升级到PyTorch 2.0的技巧总结

PyTorch 2.0 发布也有一段时间了，大家是不是已经开始用了呢？ PyTorch 2.0 通过引入 torch.compile，可以显着提高训练和推理速度。与 eagerly 模式相反，编译 API 将模型转换为中间计算图（FX graph），然后以某种方式将其编译为低级计算内核，这样可以提高运行速度。

在线难例挖掘（OHEM）[通俗易懂]

因为在深度学习提出这个方法的人，想和传统方法区分开。难例挖掘，机器学习学习中尤其是在svm中早就已经使用，又称为bootstrapping。

IDA-3D技术细节分析

这里主要针对其实例视差深度估计, Instance Disparity Depth Estimation进行分析

从代码角度理解NNLM（A Neural Probabilistic Language Model）

我们要明确任务是通过一个文本序列（分词后的序列）去预测下一个字出现的概率，tensorflow代码如下：

大模型与AI底层技术揭秘 (7) 卡车搬运的数据

在开篇之初，我们提到了最简单的AI算法：线性回归 (Linear Regression)。让我们重温一下一元线性回归算法的公式：

CUDA WarpReduce 学习笔记

之前看我司的如何实现一个高效的Softmax CUDA kernel？多少还是有些细节没有理解，恰好最近要做一个类似的 Reduce+Scale Kernel，原理机制还是比较相似的，所以翻出来重新理解一下。

浅谈NVIDIA H100白皮书

【GiantPandaCV导语】忙完手头工作，就赶紧来过了一遍 H100 白皮书。下面我就以框架开发和炼丹师的角度谈谈 H100 的一些新特性，如有说错的地方还望指正。

[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。

多GPU通信效率提升4倍，RLHF生成提升2.25倍！DeepSpeed ZeRO++重磅升级

过去半年，由ChatGPT引领的生成式大型语言模型技术，以其强大的「通用性」彻底颠覆了AI世界，普通人也可以很容易地使用AI工具来进行摘要、灵感创作、辅助编程、多语言翻译等任务。

PyTorch 2.2 中文官方教程（十八）

在大规模训练 AI 模型是一项具有挑战性的任务，需要大量的计算能力和资源。同时，处理这些非常大模型的训练也伴随着相当大的工程复杂性。PyTorch FSDP，在 PyTorch 1.11 中发布，使这变得更容易。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐