学习
实践
活动
工具
TVP
写文章

罗西的思考

LV1
举报
发表了文章

[源码分析] Facebook如何训练超大模型--- (5)

我们在前文介绍过,微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 ...

罗西的思考
pytorch
发表了文章

[源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4)

在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

罗西的思考
批量计算编程算法数据结构C++
发表了文章

[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor...

罗西的思考
MapReduceJavaScript
发表了文章

[源码分析] Facebook如何训练超大模型 --- (3)

我们在前文介绍过,微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 ...

罗西的思考
编程算法https网络安全
发表了文章

[源码解析] TensorFlow 分布式之 ClusterCoordinator

本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。

罗西的思考
TensorFlow分布式Java
发表了文章

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

对于 ParameterServerStrategy V2,我们将从几个方面来研究:如何与集群建立连接,如何生成变量,如何获取数据,如何运行。其中,变量和作用域...

罗西的思考
TensorFlow分布式编程算法API
发表了文章

[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量,本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是,Mir...

罗西的思考
分布式编程算法JavaScriptNode.jsRPC
发表了文章

[源码解析] TensorFlow 分布式之 MirroredStrategy

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总...

罗西的思考
MapReduce分布式TensorFlow编程算法
发表了文章

[源码解析] TensorFlow 之 分布式变量

在 TensorFlow 之中,分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。...

罗西的思考
编程算法分布式TensorFlow
发表了文章

[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

前文之中我们已经介绍了 Strategy 这个基本概念,tf.distribute.Strategy 是一个可在多个 GPU、多台机器或 TPU 上进行分布式训...

罗西的思考
分布式编程算法TensorFlowJavaAPI
发表了文章

[翻译] 使用 TensorFlow 进行分布式训练

https://tensorflow.google.cn/guide/distributed_training(此文的信息是2.3版本之前)。

罗西的思考
TensorFlow分布式编程算法APIKeras
发表了文章

[源码解析] TensorFlow 分布式环境(8) --- 通信机制

当计算图在设备之间划分之后,跨设备的 PartitionGraph 之间可能存在着数据依赖关系,因此 TF 在它们之间插入 Send/Recv 节点,这样就完成...

罗西的思考
TensorFlowJavaScriptNode.js分布式Ajax
发表了文章

[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 类中的每一个函数都通过调用 Issu...

罗西的思考
数据结构TensorFlowJavaScriptNode.js分布式
发表了文章

[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最...

罗西的思考
TensorFlow数据结构分布式JavaScriptNode.js
发表了文章

[源码解析] TensorFlow 分布式环境(5) --- Session

会话机制是TensorFlow 分布式运行时的核心,我们接下来按照从 Client 到 worker 的流程,把 Session 机制从前到后走一边。

罗西的思考
数据结构TensorFlow分布式C++Android
发表了文章

[源码解析] TensorFlow 分布式环境(4) --- WorkerCache

我们接下来介绍缓存机制。为什么要缓存?因为集群内部有众多 worker。在 Master 与 Worker 之间,Worker 和 Worker 之间都需要交互...

罗西的思考
TensorFlow缓存分布式RPC
发表了文章

[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最...

罗西的思考
TensorFlow数据结构分布式JavaScriptNode.js
发表了文章

[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最...

罗西的思考
TensorFlow分布式RPC
发表了文章

[源码解析] TensorFlow 分布式环境(1) --- 总体架构

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最...

罗西的思考
TensorFlow分布式RPC
发表了文章

[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"

读论文有一种原则是:本领域最经典的论文,近5年最热的论文,近1年最新的论文。按照这个原则,本文主要介绍一篇Tensorflow 经典论文 Implementat...

罗西的思考
TensorFlow分布式编程算法面向对象编程

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券