腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

罗西的思考

专栏作者

239

文章

282722

阅读量

41

订阅数

[源码分析] Facebook如何训练超大模型--- (5)

我们在前文介绍过，微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。而FSDP（Fully Sharded Data Parallel）是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google，微软和 Facebook 的论文，博客以及代码来进行学习分析。

罗西的思考

2022-11-28

1.1K0

[源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (4)

批量计算编程算法数据结构 c++

在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

罗西的思考

2022-11-28

7600

[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

mapreduce javascript

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。

罗西的思考

2022-11-28

1.5K0

[源码分析] Facebook如何训练超大模型 --- (3)

编程算法 https 网络安全

我们在前文介绍过，微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。

罗西的思考

2022-11-28

1.3K0

[源码解析] TensorFlow 分布式之 ClusterCoordinator

tensorflow 分布式 java

本文我们主要来看看ParameterServerStrategy如何分发计算，也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。

罗西的思考

2022-05-23

6370

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

tensorflow 分布式编程算法 api

对于 ParameterServerStrategy V2，我们将从几个方面来研究：如何与集群建立连接，如何生成变量，如何获取数据，如何运行。其中，变量和作用域我们在前文已经研究过，运行在 MirroredStrategy 里面也介绍，所以本文主要看看如何使用，如何初始化。在下一篇之中会重点看看如何分发计算。

罗西的思考

2022-05-15

1.2K0

[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

分布式编程算法 javascript node.js rpc

前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量，本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是，MirroredStrategy 通过什么方式在远端设备节点上运行训练方法（如何分发计算），MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来？和 master，worker 这些概念怎么联系起来？

罗西的思考

2022-05-09

4080

[源码解析] TensorFlow 分布式之 MirroredStrategy

mapreduce 分布式 tensorflow 编程算法

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是：如何更新 Mirrored 变量？如何分发计算？本文我们看看其总体思路和如何更新变量。

罗西的思考

2022-05-09

8580

[源码解析] TensorFlow 之分布式变量

编程算法分布式 tensorflow

在 TensorFlow 之中，分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。我们通过一系列问题来引导分析：

罗西的思考

2022-05-09

6160

[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

分布式编程算法 tensorflow java api

前文之中我们已经介绍了 Strategy 这个基本概念，tf.distribute.Strategy 是一个可在多个 GPU、多台机器或 TPU 上进行分布式训练的 TensorFlow API。使用此 API，您只需改动较少代码就能基于现有模型和训练代码来实现单机多卡，多机多卡等情况的分布式训练。tf.distribute.Strategy 旨在实现以下目标：

罗西的思考

2022-05-09

1.1K0

[翻译] 使用 TensorFlow 进行分布式训练

tensorflow 分布式编程算法 api keras

https://tensorflow.google.cn/guide/distributed_training（此文的信息是2.3版本之前）。

罗西的思考

2022-05-09

1.4K0

[源码解析] TensorFlow 分布式环境(8) --- 通信机制

tensorflow javascript node.js 分布式 ajax

当计算图在设备之间划分之后，跨设备的 PartitionGraph 之间可能存在着数据依赖关系，因此 TF 在它们之间插入 Send/Recv 节点，这样就完成数据交互。而在分布式模式之中，Send/Recv 通过 RpcRemoteRendezvous 完成数据交换，所以我们需要先看看 TF 之中的数据交换机制 Rendezvous。

罗西的思考

2022-05-09

1.1K0

[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

数据结构 tensorflow javascript node.js 分布式

前文中，Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令，即，GrpcRemoteWorker 类中的每一个函数都通过调用 IssueRequest() 发起一个异步的 gRPC 调用。GrpcRemoteWorker 一共发了两个请求：RegisterGraphAsync，RunGraphAsync，我们看看 GrpcWorkerService 如何处理。

罗西的思考

2022-05-09

4790

[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

tensorflow 数据结构分布式 javascript node.js

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文会从 Client 开始，看看 Master 如何对计算图进行处理。

罗西的思考

2022-05-09

5070

[源码解析] TensorFlow 分布式环境(5) --- Session

数据结构 tensorflow 分布式 c++android

会话机制是TensorFlow 分布式运行时的核心，我们接下来按照从 Client 到 worker 的流程，把 Session 机制从前到后走一边。

罗西的思考

2022-05-09

5470

[源码解析] TensorFlow 分布式环境(4) --- WorkerCache

tensorflow 缓存分布式 rpc

我们接下来介绍缓存机制。为什么要缓存？因为集群内部有众多 worker。在 Master 与 Worker 之间，Worker 和 Worker 之间都需要交互，所以有必要把 Worker 和其 Grpc 通道都缓存起来。可以说，在 TensorFlow 分布式环境下处处可见缓存的使用。

罗西的思考

2022-05-09

4640

[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

tensorflow 数据结构分布式 javascript node.js

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本篇介绍 Worker（一系列相关概念）的静态架构。

罗西的思考

2022-05-09

3450

[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

tensorflow 分布式 rpc

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文梳理下 Master 的静态逻辑。

罗西的思考

2022-05-09

5880

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

tensorflow 分布式 rpc

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。

罗西的思考

2022-05-09

4040

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

tensorflow 分布式编程算法面向对象编程

读论文有一种原则是：本领域最经典的论文，近5年最热的论文，近1年最新的论文。按照这个原则，本文主要介绍一篇Tensorflow 经典论文 Implementation of Control Flow in TensorFlow。

罗西的思考

2022-05-09

10.4K0

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态