真是青出于蓝而胜于蓝。
距离上次开源20万“不可描述”图片数据集30天之后,又有人在GitHub上放出“大招”:
开源了内含158.9万张不可描述图片的数据集。
这次出手的,是一位名叫Evgeny Bazarov数据科学家,目前在一家内容优化公司Besedo工作。
他说,自己做这个数据集,是受到了nsfw_data_scrapper(20万数据集)的启发。
与先前的数据集不同,这个数据集更加“纯粹”,并按照场景、外观等因素分成了159个类别,比如:
“appearance_clothing_dresses”、“locations_nature_beach”、“amateur_self-shots”等等。
而且,在这159个类别之下,再次进行了分类。比如在“appearance_clothing_dresses”类别下,还有5个类别:
至于这个数据集的用途,就仁者见仁智者见智了。
Bazarov表示,它可以用来鉴别“NSFW”图像。毕竟这个数据中基本上都是“不可描述”的图像,分类又细化。
如果你有想法,倒是可以上手试一试。
比如,上次20万数据集放出之后,就有人做成了鉴黄模型。
项目地址: https://github.com/rockyzhengwu/nsfw
想要下载数据集,得有足够大的硬盘。整个数据集下载清洗后大概有500G大小。
在GitHub上,给出的是图片的URL。
具体的下载方法,可以参考nsfw_data_scrapper中的脚本:
找到scripts目录下的“2_download_from_urls.sh”……
但是,切记,一定不要在办公室打开。
数据集下载脚本地址: https://github.com/alexkimxyz/nsfw_data_scrapper
158万数据集地址: https://github.com/EBazarov/nsfw_data_source_urls
— 完 —