近日,GitHub上悄然出现一个内含20多万张“不可描述”图片的数据集。
这份数据集一共将内容分为5类,分别是:
hentai、sexy、neutral、drawings、porn。
这份资源的贡献者是一位名叫Alexander Kim的数据科学家。
他说,这些数据集可以用来训练图像分类器,使用CNN做出来的分类器,分辨上述的5种图像准确度可以达到91%。
当然,这份数据集的价值并不仅限于此。不论是做敏感内容过滤工具(比如鉴黄工具),还是各种图像生成模型,相关的数据集都是必不可少的。
如果你有什么想法,可以用这个数据集来练手了。
这个数据集资源,现在已经在GitHub Trending上排名第3。
数据集中,一共有227995张图片。
其中,hentai类别中有45228张;sexy类别19554张;neutral有20960张、drawings有25732张;porn类别最多,有116521张。
这些图片,是以链接的方式呈现的。以sexy类别为例:
这些链接并不都是完全有效的,也有一些会出现404的情况。
不要问我是怎么知道的……
数据集的使用,主要依靠一些脚本(位于scripts目录下)。分别是:
具体的运行方式如下:
$ bash 1_get_urls.sh # has already been run
$ find ../raw_data -name "urls_*.txt" -exec sh -c "echo Number of URLs in {}: ; cat {} | wc -l" \;
Number of URLs in ../raw_data/drawings/urls_drawings.txt:
25732
Number of URLs in ../raw_data/hentai/urls_hentai.txt:
45228
Number of URLs in ../raw_data/neutral/urls_neutral.txt:
20960
Number of URLs in ../raw_data/sexy/urls_sexy.txt:
19554
Number of URLs in ../raw_data/porn/urls_porn.txt:
116521
$ bash 2_download_from_urls.sh
$ bash 3_optional_download_drawings.sh # optional
$ bash 4_optional_download_neutral.sh # optional
$ bash 5_create_train.sh
$ bash 6_create_test.sh
$ cd ../data
$ ls train
drawings hentai neutral porn sexy
$ ls test
drawings hentai neutral porn sexy
不过,也有热心的微博网友给出了一个使用方法:
目前,这些脚本只在Ubuntu 16.04 Linux发行版中进行了测试。
需要的环境配置是:
在给出传送门之前,还是很有必要先发出预警:
上班时,不宜观看数据集内容。
https://github.com/alexkimxyz/nsfw_data_scrapper
— 完 —