使用1亿张Instagram照片进行数据挖掘揭示出全球服装模式

Data-Mining 100 Million Instagram Photos Reveals Global Clothing Patterns

原文作者:anonymous

原文地址:https://www.technologyreview.com/s/608116/data-mining-100-million-instagram-photos-reveals-global-clothing-patterns/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=web&utm_source=Artificial_Intelligence_Weekly_64

译者微博:@从流域到海域

译者博客:blog.csdn.net/solo95

使用1亿张Instagram照片进行数据挖掘揭示出全球服装模式

“想像一下未来的人类学家,(他们)可以访问几百年来在世界各地拍摄的数以万亿计的人的照片,并配备有效的工具来分析这些照片以获取(对这些照片)的深刻见解。(如果这可以实现)我们可以对什么样的新问题做出解答?“

这是启发了位于纽约伊萨卡的康奈尔大学的Kevin Matzen, Kavita Bala, 和 Noah Snavely(三个人)的梦想。

他们的想法是,每天上传到社交媒体的数百万张照片为文化,社会和经济等因素提供了一个极具吸引力的窗口,正是这三个因素塑造了全球社会。他们说,凭借足够强大的机器智能,应该有可能挖掘这个母矿中的数据信息,以深入洞察我们的文明。

该算法揭示了服装款式随着时间发生的变化

幸运的是,这种机器智能目前正以惊人的速度出现。Matzen和co已经开始研究在Instagram上发布的1亿张照片。

这些人特别想回答的问题是,世界各地的服装风格究竟是如何变化的,这是一个难以在它本身的尺度上进行研究的文化现象。

例如,他们的方法可以解决诸如在美国围巾使用频率如何随时间变化,哪种风格可以具体到一个特定的地区或城市,以及相反的哪些样式可以在全世界流行这样的问题。

为了找到答案,Matzen和co转向了Instagram,(该社交平台)允许他们下载在特定位置的五公里内,并在特定日期的五天之内的图片。

然后在2013年6月至2016年6月期间,研究小组在5天的窗口中选定了44个城市进行研究并下载了总计1亿张图片。

他们使用标准的脸部识别程序来过滤出所有不包含脸部的图片,同时也过滤出(包含)可见躯干的图片,留下一组1500万人的照片,这些图片显示出他们身体的上半部分,以及他们的位置和日期。

接下来,他们训练了一个机器学习算法来识别图像中的各种服装和配件。例如,该算法学会识别人们是否穿着夹克,围巾,领带,眼镜,帽子等等。该算法还可以识别颜色,领口样式和袖子长度; 诸如T恤,衣装或背心的服装类别; 以及服装图案,如实心,条纹,格子等。

最后,他们让机器丢失掉数据集中的1500万张照片,然后使用另一种算法来搜索具有相似视觉主题的图像集群,并跟踪这些图像在不同时间,从一个位置到另一个位置的变化。

结果读起来非常有趣。聚类算法发现了大约400种不同的视觉主题,比如穿着白色T恤和眼镜的人,或者穿着红色的V领上衣或者黑色礼服(的人),或者根本不穿上衣(的人)!

然后Matzen和co可以研究这些视觉主题如何随时间和地点而变化。例如,他们发现,某些颜色会周期性地变化,冬季更常见的是黑色和棕色,夏天更常见的则是白色和蓝色。

其他颜色显示出不同的模式。例如,红色的普及率正在下降。尽管它比黑色或白色的周期要少得多,但它会不时突然流行起来。Matzen和co指出,在十月和十二月底附近人气有所上升:换句话说,那是在万圣节和圣诞节期间。他们说:“(表现)突出的是各种各样的圣诞老人帽子,以及各种各样的带有红色帽子或头巾的红色万圣节服装。

他们还发现,2014年6月/ 7月世界杯期间,黄色T恤在哥伦比亚和巴西的人气突然暴增 - 这两个国家的足球队都穿黄色。

他们还指出了各种地理趋势。他们说,“越往北的国家往往会穿更多的夹克”,大概是因为这些国家更冷。

戴帽子在寒冷的国家也比较受欢迎。但好奇的是,中东的阿曼(Oman)竟然是世界上戴帽子最多的国家之一。Matzen和他的合伙人说:“特别说明的是,kuma和massar(2个都是帽子的一种,译者注)在阿曼很受欢迎,因为它们是男士服装的重要组成部分。

一些衣服在特定的地方是独一无二的:尼日利亚领带的领带是非常有特色的Lagos。其他风格在全世界和一整年年都很常见,包括蓝领衬衫,格子衬衫和黑色T恤衫。

这是一项有趣的工作,揭示了机器学习挖掘我们社会文化结构的潜力。

当然,这种做法并不完美。该算法没有学会区分在社会上扮演不同角色的太阳镜和处方眼镜(即有度数用于矫正视力的眼镜,译者注)。这些图片不太可能成为整个社会的代表,因为Instagram用户严重偏向于年轻的人口。而且这种技术只能看上半身,因为腿部往往在上传到网络时会被剪掉。

但是,在今后的工作中仍有有很大的潜力去矫正这些缺陷,并进一步(向前)推进。机器视觉目前面临的一个挑战就是要弄清楚人们是站着还是坐着,或者他们一般在做些什么。也可以将这些数据与其他数据结合起来,例如天气和温度数据。

正如Matzen和他所总结的:“大数据,机器学习,计算机视觉和自动分析算法的结合,将在更广泛的有关时尚的视觉发现和许多其他领域成为一个非常强大的分析工具。

显然,我们不需要等待未来的人类学家。

本文的版权归 Steve Wang 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

分析1300万起案件 洛杉矶警局如何用算法预测犯罪

3821
来自专栏企鹅号快讯

2017,人们视算法为洪水猛兽;算法说:我不想背锅

穆罕默德·本·穆萨·阿尔·花剌子模是公元九世纪的一位波斯学者。在阿尔·花剌子模逝世的数个世纪之后,他的作品引领欧洲进入小数和代数领域,为如今这个以技术为核心的年...

2036
来自专栏AI科技评论

特写 | Geoffrey Hinton:我们都是特别的,奇妙的机器

AI 科技评论按:本文出自 torontolife.com ,用超长的篇幅讲述了 AI 大牛 Geoffrey Hinton 的学术成长之路,以及他对人工智能学...

3478
来自专栏量子位

别打了别打了,天上无人机看着呢 | AI分析暴力姿势

天空之眼 (Sky In the Eye) ,不只是斯内普教授的遗作,也是一组研究人员为自己的新论文,选定的题目。

892
来自专栏PPV课数据科学社区

当今世界最NB的25位大数据科学家

引言 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影...

4645
来自专栏机器之心

特写 | CVPR十年轶事:走出象牙塔

这不是石建萍第一次来 CVPR 了。过去这八年,她几乎没落下过一届,倒也习惯了每年办一次美国签证。只不过,这么多年以来,参加 CVPR 的身份却在不断变化:从一...

1232
来自专栏华章科技

【膜拜大神】当今世界最牛的25位顶尖大数据科学家

在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数...

1062
来自专栏机器之心

期待已久!邓力、刘洋等合著的这本NLP书你确定不想看?

官方书籍地址:https://www.springer.com/gp/book/9789811052088

1374
来自专栏数据科学与人工智能

【数据科学家】当今世界最牛的25位顶尖大数据科学家

引言 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影...

4675
来自专栏AI科技大本营的专栏

资讯 | 总奖金 200 万的 AI Challenger 开赛,可申请免费 GPU 资源

记者 | 周翔 8 月 14 日,创新工场、搜狗和今日头条联合宣布共同发起“AI Challenger 全球 AI 挑战赛”。其中,CSDN 作为选手社区,为大...

3426

扫码关注云+社区