基于卷积神经网络的图像着色

图像着色是灰度图像伪彩色化的过程,具有很高的研究和应用价值。

0 引言

图像着色是灰度图像伪彩色化的过程,具有很高的研究和应用价值。早期图像着色方法主要分为两类:一类是基于局部颜色扩展[1],另一类是基于颜色传递[2]。前者需要用户指定整张图片的颜色,要求用户解决全局优化问题,并在目标图像上标注一定数量的彩色笔刷作为着色的依据,再进行颜色扩展完成对整幅图像的着色。这类方法可以得到一些较好的彩色图像,但是需要处理复杂的纹理和大量的人为干涉,不同的颜色区域要求用彩色笔刷显式地标记为不同颜色。因此在整个着色过程中,用户的工作量很大且着色效果高度依赖其艺术技巧。后者在图像着色过程中消除了人为因素的干预和影响,与前者不同的是,这类方法需要一幅彩色图像作为参考图像,用以传递颜色信息。应用此类方法得到的图像颜色与参考图像类似,因此在结果上减少了颜色种类的数量,而且要找到一个合适的示例图片需要花费很长时间。随着深度学习的发展及运用,深度神经网络的数据驱动彩色化方法已经成为一种趋势[3]。例如,CHENG Z等[3]采用图像描述符作为输入的深度神经网络图像着色方法,使用神经网络提取图像特征。IIZUKA S等[4]使用一种基于全局层次特征和中层特征的理论对黑白图像进行编码然后着色,将两部分特征融合再预测像素的颜色信息,并且网络还可以对图像分类。ZHANG R等[5]使用了多模态的方案,每个像素都给出了可能出现颜色的概率值,因此着色后会出现几种不同颜色风格的图像。

受以上工作的启发,本文结合深度神经网络Inception-ResNet-v2[6]设计了一个全自动的着色网络模型,在模型中加入了SENet模块[7],SENet可以显式地对特征通道之间的相互依赖关系进行建模,通过学习的方式来自动获取到每个特征通道的重要程度,然后依照重要程度增强有用特征,并且抑制对当前任务无用的特征。Inception-ResNet-v2与SENet结合作为一个高水平的特征提取器,同时使用PoLU函数[8]替代线性整流函数(Rectified Linear Unit, ReLU)函数,提高网络性能。

1 模型与算法

1.1 理论方法

式中,n为权值,在负数部分控制着PoLU函数变化率。PoLU函数有非零输出用于负输入,这不仅增加了学习的稳定性和表示能力,而且能使单位输出的均值接近于零,从而减少了偏置移位效应。与以前的激活函数不同,当n>1时,PoLU函数在其负状态下与y=x有交点,它能增大响应区域。为了更好地训练网络,找到模型最优参数,同时量化模型损失,在颜色空间中采用估计像素颜色值和它们真实值之间的均方误差(MSE),然后通过网络反向传播该损失,用以更新模型参数达到最佳。对于一张图片P,

表示目标和重建图像的第X个分量的第ij像素值,公式如下:

1.2 算法

本文模型是通过预测图像的a*和b*颜色分量,并将其与输入图像的亮度分量结合,获得最后的彩色图像。在模型中使用SE-Inception-ResNet-v2网络并从其最后一层获取灰度图像的嵌入,网络体系架构如图2所示。它主要由3部分组成,分别是特征提取模块、融合模块和重建模块。其中主线网络U-Net提取“局部特征”,SE-Inception-ResNet-v2提取“全局特征”,两部分互不干扰,“全局特征”可以指导“局部特征”,例如指导图像是在室内还是室外,水上还是水下,同时“局部特征”可以给出局部纹理等一些细节信息;融合模块拼接两部分特征提取模块提取到的特征张量,将其融合到一起;重建模块将重建输入图像并与输入图像的亮度分量结合输出彩色图像。下面详细介绍这3个组成部分。

1.2.1 特征提取模块

特征提取模块如图2所示,在U-Net中,输入的灰度图像

尺寸为H×W,输出是H/8×W/8×512的特征表示,最后一层处理卷积层的张量,从512通道张量减少到256通道张量。在卷积层,所有卷积核都为3×3,并用填充保护该层的输入大小。为了降低网络的计算量,在网络中使用步长为2×2的卷积层,而不是最大池化层来减少张量大小。在支线网络使用SE-Inception-ResNet-v2提取图像嵌入,有些高水平的特征如门内、水下、车内、室外,传达可用于彩色化过程的图像信息。为了满足Inception的图像输入要求299×299×3,先将输入图像的尺寸转换为299×299,然后将图像与自身叠加以获得一个三通道图像,随后将生成的图像输入到网络,并在Softmax函数之前提取最后一层的输出。根据Inception-ResNet-v2框架规则,输出是1 001×1×1的嵌入。主线特征提取模块最后输出是一个尺寸为H/8×W/8×256的张量,此输出将与SE-Inception-ResNet-v2网络输出在融合模块融合。具体参数见表1所示。

1.2.2 融合模块

融合模块如图2所示,它将特征提取模块提取到的两部分特征表示融合到一起。网络从SE-Inception-ResNet-v2提取特征向量,将其复制HW/64次,沿空间深度轴附加到主线U-Net特征提取模块输出[4]。在网络中应用此方法得到一个形状为H/8×W/8×1 257的特征张量。通过对特征张量的镜像和多次拼接,确保特征张量所传递的语义信息在图像的所有空间区域中均匀分布。同时在网络中应用256个大小为1×1的卷积核,生成一个H/8×W/8×256维度的特征张量。

1.2.3 重建模块

特征张量经融合模块之后,流向重建模块。在重建模块中,由卷积层和上采样层处理特征张量,用于重建图像的通道。在主线特征提取模块中,应用步长为2×2卷积层减小了张量尺寸,在重建模块中应用上采样层使张量的宽和高增加。最后一个是带有PoLU传递函数的卷积层,之后是一个上采样层,输出的图像张量为H×W×2,再结合输入图像的亮度分量生成最终的彩色图像。重建模块的卷基层同样使用填充以保护图像的大小,具体参数如表2所示。

2 实验结果与分析

2.1 实验过程

数据集的正确选择对实验效果的提升有着重大影响,基于数据驱动的图像彩色化方法中使用最为广泛的是ImageNet数据集。为提升训练效果,将重新调节图像尺寸,输入进SE-Inception-ResNet-v2的图像尺寸调整为299×299,输入进主线U-Net中的图像尺寸调整为224×224。网络利用NVIDIA CUDA Toolkit和NVIDIA GeForce GTX加速训练,在训练时使用了大约120 000张ImageNet数据集图像,使用5%作为训练期间的验证数据集。

2.2 结果分析

为了对比不同方法的着色效果,对图3(a)人物灰度图像应用不同方法得到的结果如图3所示。图3(b)是应用Ryan Dahl方法得到的彩色图像,其图像主体雪山涂上了人们不希望出现的颜色——棕色。Ryan Dahl方法在其着色方法中把图像着色作为一个回归问题进行处理,在网络中使用欧氏距离函数作为损失函数。虽然将此作为回归问题处理看起来非常适合,但是因为颜色空间的连续性质,在实践应用中基于分类的方法更好。图3(c)是应用Larron方法生成的图像,在视觉效果上比Ryan Dahl方法好,但是部分山体也出现了棕色,Larron方法是通过预测每个像素的颜色直方图进行着色的,对空间位置信息不敏感。图3(d)是应用本文的方法得到的结果,与Ryan Dahl方法和Larron方法的结果相比,本文方法的结果在颜色连续性、图像颜色的合理性以及颜色在图像空间位置的合理分布等方面都有出色的表现。本文方法在网络中应用了目前在图像分类任务中准确度最高的网络模型,同时加入SENet模块,提高了网络的表示能力。

对图4(a)鸟类灰度图像应用不同方法着色,结果如图4所示。图4(b)是应用Ryan Dahl方法得到的结果,可以看出草地上很多部分都没有很好地涂上绿色,颜色连续性较差,而且鸟类身上的颜色也偏暗。图4(c)是应用Larron方法得到的结果,此图在视觉效果上要优于图4(b),但是草地并不是绿色的,Larron方法在实验中使用了多模态的方法,颜色会有几种概率值,草可能是绿色,也可能是枯黄的。图4(d)是应用本文的方法得到的结果图,与图4(b)和图4(c)相比,本文方法的结果在颜色连续性和颜色空间分布上更接近于真实图像。

3 结论

图像彩色化具有很大的发展空间和应用价值,本文基于卷积神经网络,设计了一种基于数据驱动的黑白图像着色方案,它可以在不进行任何用户干预的情况下对黑白图像进行着色。该方案利用彩色图像转换的灰度图像作为输入,输出与灰度图像对应的彩色图像的a*和b*颜色分量的预测值。然后结合灰度L*和a*、b*的输出,获得基于CIE色彩空间的彩色图像,最后形成从灰度图像到彩色图像的非线性映射。由于在实验中只使用了ImageNet数据集的子集,只有小部分颜色主题被网络训练,因此,在一些关联不大的主题图片上,本文的方案可能表现不是很理想,但是如果网络选择在一个更大的、主题更丰富的训练数据集上训练,这个问题可以得到较好的解决,这也是下一步努力的方向。

[1] CHIA Y S,ZHUO S,GUPTA R K,et al.Semantic colorization with internet images[J].ACM Transactions on Graphic,2011,30(6):1-8.

[2] GUPTA R K,CHIA Y S,RAJAN D,et al.Image colorization using similar images[C].ACM International Conference on Multimedia,2012:369-378.

[3] CHENG Z,YANG Q,SHENG B. Deep colorization[C].Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV).IEEE Computer Society,2015:415-423.

[4] IIZUKA S,SIMO-SERRA E,ISHIKAWA H.Let there be color!:joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification[J].ACM Transactions on Graphics(TOG),2016,35(4):110.

[5] ZHANG R,ISOLA P,EFROS A A.Colorful image colorization[C].European Conference on Computer Vision.Springer,Cham,2016:649-666.

[6] SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,inception-resnet and the impact of residual connections on learning[C].AAAI,2017,4:12.

[7] HU J,SHEN L,SUN G.Squeeze-and-excitation net-works[J].arXiv preprint arXiv:1709.01507,2017.

[8] LI Y,DING P L K,LI B.Training neural networks by using Power Linear Units(PoLUs)[J].arXiv preprint arXiv:1802.00212,2018.

[9] RONNEBERGER O,FISCHER P,BROX T.U-Net:convolutional networks for biomedical image segmentation[C].International Conference on Medical Image Computing and Computer-Assisted Intervention.Springer,Cham,2015:234-241.

作者信息:

徐中辉,吕维帅

(江西理工大学 信息工程学院,江西 赣州341000)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181020A01WLM00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券