我正在运行一个非常大的Tensorflow模型的谷歌云ml引擎。当使用缩放层basic_gpu
(使用batch_size=1
)时,我会得到以下错误:
资源枯竭:分配张量时使用shape1,155,240,240,16
因为模型太大,不适合一个GPU。
使用提供4个GPU的层comple_model_m_gpu
,我可以在4个GPU之间扩展操作。
然而,我记得我读到GPU之间的通信是缓慢的,并且会在训练中造成瓶颈。这是真的吗?
如果是这样的话,是否有一种在GPU之间传播操作以防止此问题的推荐方法?
发布于 2017-12-15 15:55:56
我推荐以下指南:
从指南中:
处理变量更新的最佳方法取决于模型、硬件,甚至硬件配置方式。
根据指南提出的几点建议:
tf.train.replica_device_setter(worker_device=worker, ps_device='/cpu:0', ps_tasks=1)
发布于 2017-12-15 20:12:05
使用Tesla P100 GPU而不是Tesla K80 GPU解决了这个问题,因为P100s有一个叫做页面迁移引擎的东西。
页面迁移引擎使开发人员可以更多地关注计算性能的调优,而不是管理数据移动。应用程序现在可以从GPU的物理内存大小扩展到几乎无限的内存。
https://stackoverflow.com/questions/47835625
复制相似问题