深度学习的最新进展已经令人兴奋,在自然图像中填充大量的空洞,具有语义上的合理性和上下文感知的细节,影响基础图像处理任务,例如目标消除。虽然这些基于深度学习的方法在捕获高层特征方面比现有技术更有效,但是由于内存限制和训练难度,它们只能处理非常低的分辨率输入。即使对于稍大的图像,修复区域也会显得模糊和不好的边界容易可见。
于是乎,有提出了一种基于图像内容和纹理约束的联合优化的多尺度神经块合成方法,其不仅保留了语义结构,而且产生高频细节,其主要通过深度分类网络匹配和改编具有最相似的中层语义特征相关性的块。
最后在ImageNet和Paris Streetview数据集上做了评估,并获得了最新最好的修复精度,并展示了更清晰和更一致的结果,特别是对于高分辨率图像。
效果图展示:
上边是输入的图像,下边是通过内容编码得到的结果!
上边是通过块匹配得到的图像,下边是通过今天讲解的方法得到的结果图!
整体框架分为两个小框架!
一、基于内容的Net
令输入图像为X0,预测的输出图像为X。Hole区域为R,则R(Φ)表示在特征层Φ对应的Hole区域。令h(·)表示在矩形区域提取子图像或子特征图操作,如:h(X,R)表示在X图像中返回R区域的颜色内容。h(Φ(x); R(Φ))表示返回R(Φ)区域的Φ(x)内容。假设预测函数为f(X)。
优化该函数得到最优重建结果X'。Φt(X)表示一个特征图。
一般L2损失定义如下:
现在我们定义一个对抗损失:
最后使用L2损失+对抗损失在内容预测网络的编码过程:
二、基于纹理的Net
(用的是VGG-19网络)
三、整体网络
最后在大型数据集里训练,并得到较好的结果!
效果展示:
第一行的最后一张是本方法的结果。
第二行是最后两个方法修补结果的放大图例,可知本方法的效果接近真实图。
(a):输入图像;(b):没有使用内容的约束;(c):本方法。
第一行是输入图像,第二行是基于块匹配方法,第三行是本方法。
第一列为输入图像;第二列目标遮挡;第三列基于块匹配;第四列为本方法。