前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【他山之石】图像篡改数据集汇总及下载

【他山之石】图像篡改数据集汇总及下载

作者头像
马上科普尚尚
修改2023-09-25 15:13:11
2.2K0
修改2023-09-25 15:13:11
举报

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。

作者:知乎—魂牵梦梦随魂

地址:https://www.zhihu.com/people/hun-qian-meng-meng-sui-hun

毕设是图像篡改检测方向,目前已经接近尾声。整理代码的时候也顺便整理了一下手头的数据集,在这里小结一下,送给有需要的朋友。

01

CasiaV1.0/2.0

包含了两种篡改:copy-move和splice,具体的数据集指标说明见此篇:《Casia image tampering detection evaluation database》

论文地址:

https://ieeexplore.ieee.org/document/6625374

V1.0+V2.0篡改图片应该是9k张左右,由于两个版本数据集样本数量差距还蛮大的,很多论文在模型评测时使用V2.0做迁移,V1.0做测试。但仅是迁移阶段用于评测而已,具体模型训练我认为还是需要更大样本数量的篡改训练集。

下载地址:

https://github.com/namtpham/casia1groundtruth

https://github.com/namtpham/casia2groundtruth

02

Columbia Uncompressed Image Splicing Detection

看名字也知道这数据集是splice篡改,数据集较小,有183张篡改图片,图片分辨率高。具体数据集指标见此网址:

https://www.ee.columbia.edu/ln/dvmm/downloads/authsplcuncmp/

下载地址:

https://www.dropbox.com/sh/786qv3yhvc7s9ki/AACbEEzGPrD3_y38bpWHzgdqa?dl=0

03

Pawel korus-Realistic Tampering Dataset

这是一个手工篡改数据集,做的还是非常走心的,和上面俩数据集相比,至少有的图片我肉眼真看不出来是p的......图片分辨率很高,都是1920 x 1080未压缩图片。缺点是数量太少了,只有220张,只能做模型测试了。包含object-insertion和removal两种篡改。

数据集具体指标和下载地址:https://pkorus.pl/downloads

04

Coverage

copy-move篡改数据集。100对篡改图片及原图。分辨率一般般。

数据集具体指标见此网址:

https://stefan.winklerbros.net/Publications/icip2016b.pdf

05

NIST16

这个数据集个人感觉做的也很走心,跟上面提到的Pawel korus-Realistic Tampering Dataset手工数据集质量差不多,有的图肉眼看也看不太出来篡改过。图片分辨率高,有splice、remove、copy-move三种篡改,不到1k张样本。

数据集获取:

在OpenMFC20网站注册账号,网址如下:

https://mfc.nist.gov/users/sign_in

按照流程完善信息,可能要提交license(数据集分开源的和非开源,NIST16是开源的,不记得需要不要提交license了),就可以下载NIST16了。

06

自制篡改数据集

最先看到给出自制篡改数据集的制作方法是从rgb-net那篇论文(不知道是不是首创,反正我是先看到那篇的)【CVPR 2018】Learning Rich Features for Image Manipulation Detection,论文链接:

https://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_Learning_Rich_Features_CVPR_2018_paper.pdf

后面陆续看到的几篇论文也使用了相同的制作方法:基本思路就是基于MS COCO数据集标注+OpenCV实现篡改功能。

篡改数据集的具体实现建议去学习一下上面提到的Learning Rich Features论文的github源码,生成数据集的代码写的很清晰,对自制篡改数据集很有启发性:

https://github.com/pengzhou1108/RGB-N

我自己按照他的方法生成了50k张样本数据集,用于训练很够了。我自己按照他的方法生成了50k张样本数据集,用于训练很够了。

目前用到的数据集大概就这么多吧,有急需但是下载遇到问题的朋友可以私信我,但尽量先尝试自己下载吧。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档