专栏首页人工智能前沿讲习【他山之石】图像篡改数据集汇总及下载

【他山之石】图像篡改数据集汇总及下载

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。

作者:知乎—魂牵梦梦随魂

地址:https://www.zhihu.com/people/hun-qian-meng-meng-sui-hun

毕设是图像篡改检测方向,目前已经接近尾声。整理代码的时候也顺便整理了一下手头的数据集,在这里小结一下,送给有需要的朋友。

01

CasiaV1.0/2.0

包含了两种篡改:copy-move和splice,具体的数据集指标说明见此篇:《Casia image tampering detection evaluation database》

论文地址:

https://ieeexplore.ieee.org/document/6625374

V1.0+V2.0篡改图片应该是9k张左右,由于两个版本数据集样本数量差距还蛮大的,很多论文在模型评测时使用V2.0做迁移,V1.0做测试。但仅是迁移阶段用于评测而已,具体模型训练我认为还是需要更大样本数量的篡改训练集。

下载地址:

https://github.com/namtpham/casia1groundtruth

https://github.com/namtpham/casia2groundtruth

02

Columbia Uncompressed Image Splicing Detection

看名字也知道这数据集是splice篡改,数据集较小,有183张篡改图片,图片分辨率高。具体数据集指标见此网址:

https://www.ee.columbia.edu/ln/dvmm/downloads/authsplcuncmp/

下载地址:

https://www.dropbox.com/sh/786qv3yhvc7s9ki/AACbEEzGPrD3_y38bpWHzgdqa?dl=0

03

Pawel korus-Realistic Tampering Dataset

这是一个手工篡改数据集,做的还是非常走心的,和上面俩数据集相比,至少有的图片我肉眼真看不出来是p的......图片分辨率很高,都是1920 x 1080未压缩图片。缺点是数量太少了,只有220张,只能做模型测试了。包含object-insertion和removal两种篡改。

数据集具体指标和下载地址:https://pkorus.pl/downloads

04

Coverage

copy-move篡改数据集。100对篡改图片及原图。分辨率一般般。

数据集具体指标见此网址:

https://stefan.winklerbros.net/Publications/icip2016b.pdf

下载地址:

https://onedrive.live.com/?authkey=%21ADJSupKlX%5FIj8Yc&id=4B518F0277851508%21709&cid=4B518F0277851508

05

NIST16

这个数据集个人感觉做的也很走心,跟上面提到的Pawel korus-Realistic Tampering Dataset手工数据集质量差不多,有的图肉眼看也看不太出来篡改过。图片分辨率高,有splice、remove、copy-move三种篡改,不到1k张样本。

数据集获取:

在OpenMFC20网站注册账号,网址如下:

https://mfc.nist.gov/users/sign_in

按照流程完善信息,可能要提交license(数据集分开源的和非开源,NIST16是开源的,不记得需要不要提交license了),就可以下载NIST16了。

06

自制篡改数据集

最先看到给出自制篡改数据集的制作方法是从rgb-net那篇论文(不知道是不是首创,反正我是先看到那篇的)【CVPR 2018】Learning Rich Features for Image Manipulation Detection,论文链接:

https://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_Learning_Rich_Features_CVPR_2018_paper.pdf

后面陆续看到的几篇论文也使用了相同的制作方法:基本思路就是基于MS COCO数据集标注+OpenCV实现篡改功能。

篡改数据集的具体实现建议去学习一下上面提到的Learning Rich Features论文的github源码,生成数据集的代码写的很清晰,对自制篡改数据集很有启发性:

https://github.com/pengzhou1108/RGB-N

我自己按照他的方法生成了50k张样本数据集,用于训练很够了。我自己按照他的方法生成了50k张样本数据集,用于训练很够了。

目前用到的数据集大概就这么多吧,有急需但是下载遇到问题的朋友可以私信我,但尽量先尝试自己下载吧。

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-04-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 区块链技术在数字油田的应用构想

    2018年8月18日,我在北京昌平参加智能数字油田开放论坛,本文为我在大会上做的一次报告的主要内容。以前两次会议内容回顾:

    申龙斌
  • 神经网络太好骗?清华团队如何做到打NIPS攻防赛得3冠军的

    今天带来的文章,由同济大学研究生张子豪投稿。介绍了人工智能与信息安全的交叉前沿研究领域:深度学习攻防对抗。

    用户1737318
  • 【月球殖民靠AI】神经网络发现7000个新陨石坑,人类2030年或找到月球定居点

    【新智元导读】最近,美国和加拿大的研究人员用人工智能发现了月球上近7000个此前未被发现的陨石坑,仅用时几个小时。未来,人类将有可能在这些陨石坑巨大的阴影下建立...

    新智元
  • Waves Enterprise如何通过前瞻布局混合链在企业级区块链市场里脱颖而出

    如果把公有链比喻成连接各省市的国道,私有链像是城市内部环线,那么可以说混合链就是高速公路网。

    Waves中文社区
  • 中国通信学会信息通信网络技术委员会2017年年会成功举办,三大分论坛聚焦行业热点精彩纷呈

    2017年9月19日,由中国通信学会信息通信网络技术委员会主办,中国电信北京研究院承办的《中国通信学会信息通信网络技术委员会2017年年会暨行业云与大数据高峰论...

    灯塔大数据
  • 【区块链技术工坊31期】许向:艺术品领域区块链探索实践

    1)题目: 【区块链技术工坊31期】艺术品领域区块链探索实践 2)议题: 正所谓古语有云,盛世兴古董,乱世重黄金。 刚巧我们正处于一个盛世中,各种古玩、...

    辉哥
  • 网络安全法与AiLPHA大数据智能分析平台

    《中华人民共和国网络安全法》于2016年11月7日经十二届全国人大常委会第二十四次会议表决通过后,并于2017年6月1日起正式实施。网络安全法的正式施行,不仅从...

    安恒信息
  • 雷军的贵人,剑网3,WPS,武当弟子:求伯君传奇

    1991年11月4日,在一个计算机展览会上,求伯君和雷军第一次相遇,求伯君邀请雷军加入公司,雷军从武汉大学毕业创立公司刚失败,正好有这个机会就加入了,雷军回忆说...

    IT大咖说
  • 主流网络安全产品介绍(精简版)

    说到安全,笔者在售前项目中遇到过很多安全厂商如“360、山石、深信服、网御星云、天融信、启明星辰”,国外的“Check Point、Palo Al...

    ICT售前新说

扫码关注云+社区

领取腾讯云代金券