腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
罗西的思考
专栏成员
举报
239
文章
328157
阅读量
42
订阅数
订阅专栏
申请加入专栏
全部文章(239)
分布式(92)
编程算法(81)
pytorch(51)
深度学习(40)
linux(32)
node.js(29)
tensorflow(27)
神经网络(24)
https(24)
机器学习(21)
网络安全(21)
mapreduce(20)
云数据库 Redis®(19)
数据结构(19)
rpc(18)
大数据(18)
人工智能(17)
flink(16)
python(15)
kafka(15)
消息队列 CMQ 版(14)
javascript(13)
c++(12)
api(12)
java(11)
sql(11)
http(11)
android(10)
批量计算(10)
数据库(7)
unix(7)
spark(7)
lua(6)
html(6)
缓存(6)
任务调度(6)
打包(5)
网站(5)
kubernetes(5)
windows(5)
bash(4)
ajax(4)
spring(4)
NLP 服务(3)
嵌入式(3)
nginx(3)
socket编程(3)
数据分析(3)
负载均衡(2)
ios(2)
actionscript(2)
bootstrap(2)
ide(2)
负载均衡缓存(2)
文件存储(2)
命令行工具(2)
yarn(2)
存储(2)
数据迁移(2)
hadoop(2)
面向对象编程(2)
推荐系统(2)
keras(2)
tcp/ip(2)
数据处理(2)
微服务(2)
聚类算法(2)
分类算法(2)
etcd(2)
gpu(2)
rank(2)
size(2)
对象存储(1)
其他(1)
区块链(1)
c 语言(1)
.net(1)
css(1)
jquery(1)
makefile(1)
eclipse(1)
git(1)
github(1)
jar(1)
maven(1)
windows server(1)
bash 指令(1)
GPU 云服务器(1)
数据库一体机 TData(1)
云推荐引擎(1)
数据备份(1)
容器(1)
serverless(1)
devops(1)
运维(1)
jvm(1)
ssh(1)
卷积神经网络(1)
hive(1)
numpy(1)
spring boot(1)
监督学习(1)
决策树(1)
npm(1)
rabbitmq(1)
kernel(1)
gradle(1)
kvm(1)
云计算(1)
虚拟化(1)
特征工程(1)
rust(1)
raft(1)
es(1)
alpha(1)
flush(1)
hash(1)
host(1)
it(1)
key(1)
min(1)
model(1)
rack(1)
tensor(1)
token(1)
worker(1)
搜索(1)
搜索文章
搜索
搜索
关闭
[源码分析] Facebook如何训练超大模型--- (5)
pytorch
我们在前文介绍过,微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。而FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google,微软和 Facebook 的论文,博客以及代码来进行学习分析。
罗西的思考
2022-11-28
1.3K
0
[源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4)
批量计算
编程算法
数据结构
c++
在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
罗西的思考
2022-11-28
875
0
[源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现
mapreduce
javascript
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。
罗西的思考
2022-11-28
2.2K
0
[源码分析] Facebook如何训练超大模型 --- (3)
编程算法
https
网络安全
我们在前文介绍过,微软 ZeRO 可以对一个万亿参数模型可以使用 8 路模型并行、64 路管道并行和 8 路数据并行在 4,096 个 NVIDIA A100 GPU 上进行扩展。
罗西的思考
2022-11-28
1.5K
0
[源码解析] TensorFlow 分布式之 ClusterCoordinator
tensorflow
分布式
java
本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。
罗西的思考
2022-05-23
764
0
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2
tensorflow
分布式
编程算法
api
对于 ParameterServerStrategy V2,我们将从几个方面来研究:如何与集群建立连接,如何生成变量,如何获取数据,如何运行。其中,变量和作用域我们在前文已经研究过,运行在 MirroredStrategy 里面也介绍,所以本文主要看看如何使用,如何初始化。在下一篇之中会重点看看如何分发计算。
罗西的思考
2022-05-15
1.3K
0
[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算
分布式
编程算法
javascript
node.js
rpc
前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量,本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是,MirroredStrategy 通过什么方式在远端设备节点上运行训练方法(如何分发计算),MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来?和 master,worker 这些概念怎么联系起来?
罗西的思考
2022-05-09
583
0
[源码解析] TensorFlow 分布式之 MirroredStrategy
mapreduce
分布式
tensorflow
编程算法
MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总体思路和如何更新变量。
罗西的思考
2022-05-09
1K
0
[源码解析] TensorFlow 之 分布式变量
编程算法
分布式
tensorflow
在 TensorFlow 之中,分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。我们通过一系列问题来引导分析:
罗西的思考
2022-05-09
801
0
[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇
分布式
编程算法
tensorflow
java
api
前文之中我们已经介绍了 Strategy 这个基本概念,tf.distribute.Strategy 是一个可在多个 GPU、多台机器或 TPU 上进行分布式训练的 TensorFlow API。使用此 API,您只需改动较少代码就能基于现有模型和训练代码来实现单机多卡,多机多卡等情况的分布式训练。tf.distribute.Strategy 旨在实现以下目标:
罗西的思考
2022-05-09
1.4K
0
[翻译] 使用 TensorFlow 进行分布式训练
tensorflow
分布式
编程算法
api
keras
https://tensorflow.google.cn/guide/distributed_training(此文的信息是2.3版本之前)。
罗西的思考
2022-05-09
1.5K
0
[源码解析] TensorFlow 分布式环境(8) --- 通信机制
tensorflow
javascript
node.js
分布式
ajax
当计算图在设备之间划分之后,跨设备的 PartitionGraph 之间可能存在着数据依赖关系,因此 TF 在它们之间插入 Send/Recv 节点,这样就完成数据交互。而在分布式模式之中,Send/Recv 通过 RpcRemoteRendezvous 完成数据交换,所以我们需要先看看 TF 之中的数据交换机制 Rendezvous。
罗西的思考
2022-05-09
1.3K
0
[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑
数据结构
tensorflow
javascript
node.js
分布式
前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 类中的每一个函数都通过调用 IssueRequest() 发起一个异步的 gRPC 调用。GrpcRemoteWorker 一共发了两个请求:RegisterGraphAsync,RunGraphAsync,我们看看 GrpcWorkerService 如何处理。
罗西的思考
2022-05-09
549
0
[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑
tensorflow
数据结构
分布式
javascript
node.js
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文会从 Client 开始,看看 Master 如何对计算图进行处理。
罗西的思考
2022-05-09
634
0
[源码解析] TensorFlow 分布式环境(5) --- Session
数据结构
tensorflow
分布式
c++
android
会话机制是TensorFlow 分布式运行时的核心,我们接下来按照从 Client 到 worker 的流程,把 Session 机制从前到后走一边。
罗西的思考
2022-05-09
659
0
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache
tensorflow
缓存
分布式
rpc
我们接下来介绍缓存机制。为什么要缓存?因为集群内部有众多 worker。在 Master 与 Worker 之间,Worker 和 Worker 之间都需要交互,所以有必要把 Worker 和其 Grpc 通道都缓存起来。可以说,在 TensorFlow 分布式环境下处处可见缓存的使用。
罗西的思考
2022-05-09
568
0
[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑
tensorflow
数据结构
分布式
javascript
node.js
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本篇介绍 Worker(一系列相关概念) 的静态架构。
罗西的思考
2022-05-09
440
0
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑
tensorflow
分布式
rpc
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文梳理下 Master 的静态逻辑。
罗西的思考
2022-05-09
700
0
[源码解析] TensorFlow 分布式环境(1) --- 总体架构
tensorflow
分布式
rpc
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。
罗西的思考
2022-05-09
552
0
[翻译] TensorFlow 分布式之论文篇 "Implementation of Control Flow in TensorFlow"
tensorflow
分布式
编程算法
面向对象编程
读论文有一种原则是:本领域最经典的论文,近5年最热的论文,近1年最新的论文。按照这个原则,本文主要介绍一篇Tensorflow 经典论文 Implementation of Control Flow in TensorFlow。
罗西的思考
2022-05-09
10.6K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档