Keras同时用多张显卡训练网络

References

官方文档:multi_gpu_model(https://keras.io/utils/#multi_gpu_model)以及Google。

误区

目前Keras是支持了多个GPU同时训练网络,非常容易,但是靠以下这个代码是不行的。

os.environ["CUDA_VISIBLE_DEVICES"] = "1,2"

当你监视GPU的使用情况(nvidia-smi -l 1)的时候会发现,尽管GPU不空闲,实质上只有一个GPU在跑,其他的就是闲置的占用状态,也就是说,如果你的电脑里面有多张显卡,无论有没有上面的代码,Keras都会默认的去占用所有能检测到的GPU。

这行代码在你只需要一个GPU的时候时候用的,也就是可以让Keras检测不到电脑里其他的GPU。假设你一共有三张显卡,每个显卡都是有自己的标号的(0, 1, 2),为了不影响别人的使用,你只用其中一个,比如用gpu=1的这张,那么

os.environ["CUDA_VISIBLE_DEVICES"] = "1"

然后再监视GPU的使用情况(nvidia-smi -l 1),确实只有一个被占用,其他都是空闲状态。所以这是一个Keras使用多显卡的误区,它并不能同时利用多个GPU。

目的

为什么要同时用多个GPU来训练?

单个显卡内存太小 -> batch size无法设的比较大,有时甚至batch_size=1都内存溢出(OUT OF MEMORY)

从我跑深度网络的经验来看,batch_size设的大一点会比较好,相当于每次反向传播更新权重,网络都可以看到更多的样本,从而不会每次iteration都过拟合到不同的地方去Don't Decay the Learning Rate, Increase the Batch Size。当然,我也看过有论文说也不能设的过大,原因不明... 反正我也没有机会试过。我建议的batch_size大概就是64~256的范围内,都没什么大问题。

但是随着现在网络的深度越来越深,对于GPU的内存要求也越来越大,很多入门的新人最大的问题往往不是代码,而是从Github里面抄下来的代码自己的GPU太渣,实现不了,只能降低batch_size,最后训练不出那种效果。

解决方案两个:一是买一个超级牛逼的GPU,内存巨大无比;二是买多个一般般的GPU,一起用。

第一个方案不行,因为目前即便最好的NVIDIA显卡,内存也不过十几个G了不起了,网络一深也挂,并且买一个牛逼显卡的性价比不高。所以、学会在Keras下用多个GPU是比较靠谱的选择。

实现

非常简洁

from model import unet G = 3 # 同时使用3个GPUwith tf.device("/gpu:0"):

M = unet(input_rows, input_cols, 1) model = keras.utils.training_utils.multi_gpu_model(M, gpus=G) model.compile(optimizer=Adam(lr=1e-5), loss='binary_crossentropy', metrics = ['accuracy']) model.fit(X_train, y_train, batch_size=batch_size*G, epochs=nb_epoch, verbose=0, shuffle=True, validation_data=(X_valid, y_valid)) model.save_weights('/path/to/save/model.h5')

问题

3.1 Compile the model

如果是普通的网络结构,那么没有问题,像上述的编译代码即可(model.compile(optimizer=Adam(lr=1e-5), loss='binary_crossentropy', metrics = ['accuracy'])) 。不过,如果是Multi-task的网络,例如Faster-RCNN,它由多个输出支路,也就是多个loss,在网络定义的时候一般会给命名,然后编译的时候找到不同支路layer的名字即可,就像这样:

model.compile(optimizer=optimizer, loss={'main_output': jaccard_distance_loss, 'aux_output': 'binary_crossentropy'}, metrics={'main_output': jaccard_distance_loss, 'aux_output': 'acc'},

loss_weights={'main_output': 1., 'aux_output': 0.5})

其中main_output和aux_output就是认为定义的layer name,但是如果用了keras.utils.training_utils.multi_gpu_model()以后,名字就自动换掉了,变成默认的concatenate_1, concatenate_2等等,因此你需要先model.summary()一下,打印出来网络结构,然后弄明白哪个输出代表哪个支路,然后重新编译网络,如下:

from keras.optimizers import Adam, RMSprop, SGD model.compile(optimizer=RMSprop(lr=0.045, rho=0.9, epsilon=1.0), loss={'concatenate_1': jaccard_distance_loss, 'concatenate_2': 'binary_crossentropy'}, metrics={'concatenate_1': jaccard_distance_loss, 'concatenate_2': 'acc'},

loss_weights={'concatenate_1': 1., 'concatenate_2': 0.5})

3.2 save the model

用多个GPU训练的模型有一个问题Keras没有解决,就是model.save()保存的时候报错

TypeError: can't pickle module objects

或是

RuntimeError: Unable to create attribute (object header message is too large)

原因是:

In https://keras.io/utils/#multi_gpu_model it clearly stated that the model can be used like the normal model, but it cannot be saved, very funny. I can't even perform reinforced training just because I cannot save the previous model trained with multiple GPUs. If trained with single GPU, the rest of my invested GPUs will become useless. Please urge the developer to look into this bug ASAP.

正常情况下Keras给你提供了自动保存最好的网络的函数(keras.callbacks.ModelCheckpoint()),它的内部是用model.save()来保存的,所以不能用了,你需要自己设计函数CustomModelCheckpoint()来保存最好的模型。

class CustomModelCheckpoint(keras.callbacks.Callback): def __init__(self, model, path):

self.model = model

self.path = path

self.best_loss = np.inf

def on_epoch_end(self, epoch, logs=None): val_loss = logs['val_loss']

if val_loss < self.best_loss: print("\nValidation loss decreased from {} to {}, saving model".format(self.best_loss, val_loss))

self.model.save_weights(self.path, overwrite=True)

self.best_loss = val_loss model.fit(X_train, y_train, batch_size=batch_size*G, epochs=nb_epoch, verbose=0, shuffle=True, validation_data=(X_valid, y_valid), callbacks=[CustomModelCheckpoint(model, '/path/to/save/model.h5')])

即便如此,要是模型还是太大,就需要下面的方法了,保存成npy格式而不是hdf5格式。

RuntimeError: Unable to create attribute (Object header message is too large)

  • model.get_weights(): returns a list of all weight tensors in the model, as Numpy arrays.
  • model.set_weights(weights): sets the values of the weights of the model, from a list of Numpy arrays. The arrays in the list should have the same shape as those returned by get_weights().

# save model

weight = self.model.get_weights() np.save(self.path+'.npy', weight)

# load model

weight = np.load(load_path) model.set_weights(weight)

3.3 Load the model

同样道理,当读入用多个显卡一起训练的网络文件.h的时候,也会报错

ValueError: You are trying to load a weight file containing 3 layers into a model with 1 layers.

原因是.h内部和单个GPU训练的存储不太一样,因此在读的时候也需要套一下keras.utils.training_utils.multi_gpu_model()这个函数。

from model import unetwith tf.device("/cpu:0"): M = unet(input_rows, input_cols, 1) model = keras.utils.training_utils.multi_gpu_model(M, gpus=G) model.load_weights(load_path)

然后就没问题啦。

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2018-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏python开发者

基于Python使用SVM识别简单的字符验证码的完整代码开源分享

关键字:Python,SVM,字符验证码,机器学习,验证码识别 1   概述 基于Python使用SVM识别简单的验证字符串的完整代码开源分享。 因为目前有了更...

34710
来自专栏奇点大数据

Pytorch神器(4)

上一次,我们用最简短的篇幅讲述了用Pytorch实现线性回归的过程。整个程序仅仅用了约60多行就完成了一个线性回归机器学习程序的全部内容。这次的文章,我们来对上...

933
来自专栏AI研习社

Github 项目推荐 | 用 PyTorch 实现全局/局部一致图像补全

本库用 PyTorch 实现了全局/局部一致图像补全(Globally and Locally Consistent Image Completion )。

1452
来自专栏大数据挖掘DT机器学习

R语言关联规则可视化:扩展包arulesViz的介绍

关联规则挖掘是一种流行的数据挖掘方法,在R语言中为扩展包arules。然而,挖掘关联规则往往导致非常多的规则,使分析师需要通过查询所有的规则才能发现有趣的规则。...

4348
来自专栏1007261的专栏

基于图像识别的自动化

导语 在客户端自动化中,如果需要对UI进行操作,控件识别和操作是最基础的能力。在windows标准控件中,我们可以通过FindWindow来找到窗口,FindW...

1.9K7
来自专栏AI研习社

Github 推荐项目 | GloVe 的快速实现 —— Mittens

该软件包包含 GloVe 和 Mittens 的快速 TensorFlow 和 NumPy 实现。

1703
来自专栏AI科技评论

开发 | 如何为TensorFlow和PyTorch自动选择空闲GPU,解决抢卡争端

AI科技评论按:本文作者天清,原文载于其知乎专栏 世界那么大我想写代码,AI科技评论获授权发布。 项目地址:https://github.com/Quantum...

3828
来自专栏大数据挖掘DT机器学习

R语言进行中文分词,并对6W条微博聚类

由于时间较紧,且人手不够,不能采用分类方法,主要是没有时间人工分类一部分生成训练集……所以只能用聚类方法,聚类最简单的方法无外乎:K-means与层次聚类。 尝...

3335
来自专栏机器之心

作为TensorFlow的底层语言,你会用C++构建深度神经网络吗?

4629
来自专栏企鹅号快讯

使用机器学习预测天气

作者:笨熊 本章是使用机器学习预测天气系列教程的第一部分,使用Python和机器学习来构建模型,根据从Weather Underground收集的数据来预测天气...

2865

扫码关注云+社区