前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >150多万张“不可描述”照片数据集新鲜出炉,这次一定不要在办公室打开

150多万张“不可描述”照片数据集新鲜出炉,这次一定不要在办公室打开

作者头像
量子位
发布2019-03-08 11:30:13
1.1K0
发布2019-03-08 11:30:13
举报
文章被收录于专栏:量子位量子位
三井 发自 凹非寺 量子位 出品 | 公众号 QbitAI

真是青出于蓝而胜于蓝。

距离上次开源20万“不可描述”图片数据集30天之后,又有人在GitHub上放出“大招”:

开源了内含158.9万张不可描述图片的数据集。

这次出手的,是一位名叫Evgeny Bazarov数据科学家,目前在一家内容优化公司Besedo工作。

他说,自己做这个数据集,是受到了nsfw_data_scrapper(20万数据集)的启发。

与先前的数据集不同,这个数据集更加“纯粹”,并按照场景、外观等因素分成了159个类别,比如:

“appearance_clothing_dresses”、“locations_nature_beach”、“amateur_self-shots”等等。

而且,在这159个类别之下,再次进行了分类。比如在“appearance_clothing_dresses”类别下,还有5个类别:

至于这个数据集的用途,就仁者见仁智者见智了。

Bazarov表示,它可以用来鉴别“NSFW”图像。毕竟这个数据中基本上都是“不可描述”的图像,分类又细化。

如果你有想法,倒是可以上手试一试。

比如,上次20万数据集放出之后,就有人做成了鉴黄模型。

项目地址: https://github.com/rockyzhengwu/nsfw

想要下载数据集,得有足够大的硬盘。整个数据集下载清洗后大概有500G大小。

在GitHub上,给出的是图片的URL。

具体的下载方法,可以参考nsfw_data_scrapper中的脚本:

找到scripts目录下的“2_download_from_urls.sh”……

但是,切记,一定不要在办公室打开。

传送门

数据集下载脚本地址: https://github.com/alexkimxyz/nsfw_data_scrapper

158万数据集地址: https://github.com/EBazarov/nsfw_data_source_urls

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 传送门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档