来源:视说AI 写在前面
水印作为一种保护版权的有效方式被广泛地应用于海量的互联网图像,针对水印的各种处理显得越来越重要。在之前的两篇文章《AI技术在图像水印处理中的应用》和《生成对抗网络玩转图像水印》中,已经介绍了当前利用深度神经网络来实现水印的检测和去除的一些研究。
基于深度学习的水印处理需要海量水印图像作为数据基础。然而现实中并没有直接可以使用的水印图像数据,为此制作了首个大规模水印图像数据集(Large-scale Visible Watermark dataset, LVW)用于学术研究。为了更好地方便大家的学习和使用,LVW数据集已经开放下载【仅供学术研究,勿作他用】,希望能够为水印处理智能化的研究添砖加瓦。
数据集介绍
LVW数据集由6万张带水印图像组成,包含了80种来自于公司、组织和个人的水印,包括了中文、英文和logo等不同样式,每种水印对应750张图像。为了保证图像数据的一般性和可用性,公开的PASCAL VOC 2012数据集的图像被作为原始的无水印图像,然后将上述80种水印以随机的大小、位置和透明度打在原始图像上,同时记录下水印的位置信息。
为了适应现实场景中需要机器自动处理从未见过的水印和图像的需求,需要确保训练集中的水印和图像都不会出现在测试集中,这样可以很好地模拟现实生活中的使用场景。具体地,在80种水印中,64种水印被作为训练水印,剩余的16种水印被作为测试水印。同时,训练集图像从PASCAL VOC 2012数据集的训练和验证图像中挑选,而测试集图像从PASCAL VOC 2012数据集的测试图像中挑选。
使用说明
开放LVW水印图像数据集的目的是为了能够为水印处理的研究尽一份力,所以数据集仅限于学术研究使用,禁止商业应用和其他用途。
为了方便与无水印原图对比,PASCAL VOC 2012数据集的图像及其与带水印图像的对应关系也一并提供。考虑到存储和下载等各方面因素,LVW数据集暂时存于百度云。
如果在研究中使用了该数据集及相关资料,请引用下面的文章:
[1] Large-Scale Visible Watermark Detection and Removal with Deep Convolutional Networks.
[2] Towards Photo-Realistic Visible Watermark Removal with Conditional Generative Adversarial Networks.
写在最后
针对水印的各种处理一直是研究的热点,也吸引了越来越多的关注。值得注意的是,版权保护是大家一直要坚持的事情,水印处理的学术研究初心是为了促进水印鲁棒性的提升。正如在《Towards Photo-Realistic Visible Watermark Removal with Conditional Generative Adversarial Networks》论文中最后提到的一样:“Significantly, our original intention is to increase the awareness on the copyrights of online images, reminding that visible watermarks should be designed to be more resistant against removal attacking. Developing a more robust watermarking technique for copyright protection is challenging and part of future work.” 水印处理和保护未来的研究之路还很长,需要我们大家一起努力。