腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
罗西的思考
专栏作者
举报
239
文章
282722
阅读量
41
订阅数
订阅专栏
申请加入专栏
全部文章
分布式
编程算法
pytorch
深度学习
linux
node.js
tensorflow
神经网络
https
机器学习
网络安全
mapreduce
云数据库 Redis
数据结构
rpc
大数据
人工智能
flink
python
kafka
消息队列 CMQ 版
javascript
c++
api
java
sql
http
android
批量计算
数据库
unix
spark
lua
html
缓存
任务调度
打包
网站
kubernetes
windows
bash
ajax
spring
NLP 服务
嵌入式
nginx
socket编程
数据分析
负载均衡
ios
actionscript
bootstrap
ide
负载均衡缓存
文件存储
命令行工具
yarn
存储
数据迁移
hadoop
面向对象编程
推荐系统
keras
tcp/ip
数据处理
微服务
聚类算法
分类算法
etcd
gpu
rank
size
对象存储
其他
区块链
c 语言
.net
css
jquery
makefile
eclipse
git
github
jar
maven
windows server
bash 指令
GPU 云服务器
数据库一体机 TData
云推荐引擎
数据备份
容器
serverless
devops
运维
jvm
ssh
卷积神经网络
hive
numpy
spring boot
监督学习
决策树
npm
rabbitmq
kernel
gradle
kvm
云计算
虚拟化
特征工程
rust
raft
es
alpha
flush
hash
host
it
key
min
model
rack
tensor
token
worker
搜索
搜索文章
搜索
搜索
关闭
[源码分析] Facebook如何训练超大模型--- (5)
pytorch
我们在前文介绍过,微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。而FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google,微软和 Facebook 的论文,博客以及代码来进行学习分析。
罗西的思考
2022-11-28
1.1K
0
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4)
批量计算
编程算法
数据结构
c++
在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
罗西的思考
2022-11-28
760
0
[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现
mapreduce
javascript
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。
罗西的思考
2022-11-28
1.5K
0
[源码分析] Facebook如何训练超大模型 --- (3)
编程算法
https
网络安全
我们在前文介绍过,微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。
罗西的思考
2022-11-28
1.3K
0
[源码解析] TensorFlow 分布式之 ClusterCoordinator
tensorflow
分布式
java
本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。
罗西的思考
2022-05-23
637
0
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2
tensorflow
分布式
编程算法
api
对于 ParameterServerStrategy V2,我们将从几个方面来研究:如何与集群建立连接,如何生成变量,如何获取数据,如何运行。其中,变量和作用域我们在前文已经研究过,运行在 MirroredStrategy 里面也介绍,所以本文主要看看如何使用,如何初始化。在下一篇之中会重点看看如何分发计算。
罗西的思考
2022-05-15
1.2K
0
[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算
分布式
编程算法
javascript
node.js
rpc
前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量,本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是,MirroredStrategy 通过什么方式在远端设备节点上运行训练方法(如何分发计算),MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来?和 master,worker 这些概念怎么联系起来?
罗西的思考
2022-05-09
408
0
[源码解析] TensorFlow 分布式之 MirroredStrategy
mapreduce
分布式
tensorflow
编程算法
MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总体思路和如何更新变量。
罗西的思考
2022-05-09
858
0
[源码解析] TensorFlow 之 分布式变量
编程算法
分布式
tensorflow
在 TensorFlow 之中,分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。我们通过一系列问题来引导分析:
罗西的思考
2022-05-09
616
0
[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇
分布式
编程算法
tensorflow
java
api
前文之中我们已经介绍了 Strategy 这个基本概念,tf.distribute.Strategy 是一个可在多个 GPU、多台机器或 TPU 上进行分布式训练的 TensorFlow API。使用此 API,您只需改动较少代码就能基于现有模型和训练代码来实现单机多卡,多机多卡等情况的分布式训练。tf.distribute.Strategy 旨在实现以下目标:
罗西的思考
2022-05-09
1.1K
0
[翻译] 使用 TensorFlow 进行分布式训练
tensorflow
分布式
编程算法
api
keras
https://tensorflow.google.cn/guide/distributed_training(此文的信息是2.3版本之前)。
罗西的思考
2022-05-09
1.4K
0
[源码解析] TensorFlow 分布式环境(8) --- 通信机制
tensorflow
javascript
node.js
分布式
ajax
当计算图在设备之间划分之后,跨设备的 PartitionGraph 之间可能存在着数据依赖关系,因此 TF 在它们之间插入 Send/Recv 节点,这样就完成数据交互。而在分布式模式之中,Send/Recv 通过 RpcRemoteRendezvous 完成数据交换,所以我们需要先看看 TF 之中的数据交换机制 Rendezvous。
罗西的思考
2022-05-09
1.1K
0
[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑
数据结构
tensorflow
javascript
node.js
分布式
前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 类中的每一个函数都通过调用 IssueRequest() 发起一个异步的 gRPC 调用。GrpcRemoteWorker 一共发了两个请求:RegisterGraphAsync,RunGraphAsync,我们看看 GrpcWorkerService 如何处理。
罗西的思考
2022-05-09
479
0
[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑
tensorflow
数据结构
分布式
javascript
node.js
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文会从 Client 开始,看看 Master 如何对计算图进行处理。
罗西的思考
2022-05-09
507
0
[源码解析] TensorFlow 分布式环境(5) --- Session
数据结构
tensorflow
分布式
c++
android
会话机制是TensorFlow 分布式运行时的核心,我们接下来按照从 Client 到 worker 的流程,把 Session 机制从前到后走一边。
罗西的思考
2022-05-09
547
0
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache
tensorflow
缓存
分布式
rpc
我们接下来介绍缓存机制。为什么要缓存?因为集群内部有众多 worker。在 Master 与 Worker 之间,Worker 和 Worker 之间都需要交互,所以有必要把 Worker 和其 Grpc 通道都缓存起来。可以说,在 TensorFlow 分布式环境下处处可见缓存的使用。
罗西的思考
2022-05-09
464
0
[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑
tensorflow
数据结构
分布式
javascript
node.js
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本篇介绍 Worker(一系列相关概念) 的静态架构。
罗西的思考
2022-05-09
345
0
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑
tensorflow
分布式
rpc
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文梳理下 Master 的静态逻辑。
罗西的思考
2022-05-09
588
0
[源码解析] TensorFlow 分布式环境(1) --- 总体架构
tensorflow
分布式
rpc
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。
罗西的思考
2022-05-09
404
0
[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"
tensorflow
分布式
编程算法
面向对象编程
读论文有一种原则是:本领域最经典的论文,近5年最热的论文,近1年最新的论文。按照这个原则,本文主要介绍一篇Tensorflow 经典论文 Implementation of Control Flow in TensorFlow。
罗西的思考
2022-05-09
10.4K
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档