MIT想用社交圈美食图训练识菜谱的AI?先过麻婆豆腐这一关!

大数据文摘作品,转载要求见文末

作者 | 钱天培

朋友圈晒食物早已不是新鲜事,或许在读这篇文章的前一秒你才刚在朋友圈晒出午餐。但你可能从来没有想过,晒美食除了让你称霸朋友圈,还可能帮MIT的科学家们成就一项伟大的AI科研成果?

视频内容

近日,MIT的计算机与人工智能实验室(CSAIL)宣布,将在IEEE上发布他们的一项最新研究成果—— 一个名为Recipe1M的数据库,其内容是超过一百万张的食物图片、以及它们对应的菜谱。通过这一数据库,该实验室与卡塔尔计算机研究院(QCRI)联合制作出了一个名为Pic2Recipe的人工智能系统:在观看一张食物的照片,就能预测出这一食物的成分,并给出一个能做出类似食物的菜谱。

值得一提的是,这个数据库的最主要来源是大家在社交网络上晒出的食物图片。也就是说,你在朋友圈一天三顿的“放毒”居然能顺势推动人工智能发展,想必好多人真的是无论如何也想不到的。

目前,该成果已被公布。但效果到底如何?大数据文摘记者按捺不住好奇,已经先用各种图片帮大家测试了一下这位“人工智能”大厨,发现除了少数菜谱靠谱外,这个系统的识别能力依然颇有偏颇,特别是在遭遇博大精深的中华料理的时候,“人工智障”状况频出。

当料理遇上人工智能

“在计算机视觉中,食物这一话题往往被人们忽略,因为我们并没有足够大的数据库来对此作深入研究,但那些社交网络上看似无用的图片实际上却为我们提供了大量的信息。”MIT的教授Antonio Torralba这样评价此次的合作项目。

实际上,这一类研究也并非没有先例,但由于训练数据库较小,成果一直不尽如人意。在2014年,瑞士的研究者们就用一个名为“Food-101”的数据库来训练他们的模型,而最终在训练集的准确略只有50%,原因即是数据库太小。此后香港城市大学也建立了一个涵盖11万张实物图片和6万5千份食谱的数据库,虽然数据量变大了,但缺陷是大多数食物都是中国菜。

在此次的项目中,CSAIL突破性地获取了超过1百万张食物的图片和对应菜谱,并用神经网络学习这一图库。

给定一张照片,Pic2Recipe可以识别出该食物的原料,例如面粉、鸡蛋、黄油等等,并给出相应的的菜谱。

“想象一下,人们可以用这个系统来最终他们每日摄入的营养成分,或者把他们在餐馆享用到的美食拍下来,然后回家自己做。”来自维也纳大学新媒体技术部的Christoph Trattner教授作出了这样的展望。

在未来,MIT的这一团队还希望能够进一步提升这个系统,让它变成一位真正的大厨。给定你的饮食偏好和你现有的原材料,这位大厨就能够搭配出一桌营养均衡、美味可口的好菜。

这位大厨到底是人工智能还是人工智障?

听前文的描述,这位大厨可谓是相当牛掰了,那实际情况如何呢?

AI大厨测试之初级版:

首先,让我们先用官方举例用到的几张图片来测试一下这个系统。

1.意大利香肠披萨

识别结果:

回答正确!小编不懂做菜,所以这菜谱到底咋样还是大家来评判吧。

分数:5/5

2.鸡肉芝士千层面

识别结果:

回答正确!

按照大厨的说法,这道菜做起来比较复杂,小编就不把菜谱一一截过来了。

分数:5/5

目前为止,大厨的表现看起来还是相当完美的。接下来,加大难度,要用小编的藏图啦。

AI大厨测试之中级版

3.牛肉蔬菜沙拉

识别结果:

马马虎虎。好歹识别出来时沙拉了,不过这个成分不太对哟。

分数:3/5

看来还是不能太为难它,降低一点点难度。

4.绿豆汤

识别结果:

玉米巧达汤??这么明显的绿豆汤你居然不认识,微笑脸。不过好歹你还认得是汤。

分数:2/5

再换个简单的,西餐经典!

5.菲力牛排(小编最爱,please)

识别结果:

猪排...猪排... Good for you。

分数:1/5(真的就想吃牛排谢谢)

AI大厨测试之高阶中国菜版

最后,来几个家喻户晓的中国料理。

6.宫保鸡丁

识别结果:

当机。

分数:0/5

7.麻婆豆腐

识别结果:

再度当机。Excuse you,中国菜看来是一个都不认识。

分数:0/5

AI大厨测试之终极版

1. 小编本人

原图打个码,毕竟我还是很低调的。

识别结果:

很满意!神秘的天蝎不是你等凡A俗I能够识别的,伟大的小编也是不可复制的。

分数:100/5

总而言之,小编对该大厨的测试结果很满意!如对本次评判有异议,请亲自去试上一试,告辞!( http://tuesday.csail.mit.edu:4242)

2017年7月《顶级数据团队建设全景报告》下载

关于转载如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

芯片这么难以制造,背后真相是什么

最近“芯片”刷屏,对于芯片产业的关注热潮背后,国人正在重新审视芯片行业的发展。实际上,国内高端通用芯片产业仍然处在起步阶段,与欧美、日韩的芯片产业仍有较大差距...

4177
来自专栏阮一峰的网络日志

每周分享第 31 期

欢迎投稿,请前往 GitHub 的 ruanyf/weekly 提交 issue。

1053
来自专栏VRPinea

VR精品游戏赏析:大朋中欧开发者大赛入围作品(六)

3786
来自专栏灯塔大数据

网购评论是真是假?文本挖掘告诉你

? 刚刚过去的双11、双12网络购物节中,无数网友在各个电商网站的促销大旗下开启了买买买模式。不过,当你在网上选购商品时,同类的商品成千上万,哪些因素会影响你...

4829
来自专栏机器人网

无节操!DIY一个“好色”机器人,帮你搭讪美女鲜肉

遇见大牛,爱抱大腿不是一件坏事,然而如果是一个爱抱大腿的机器人呢?NoodleFeet的主要功能就是寻找周围人的大腿,然后冲上去抱大腿。 除了走路,Noodle...

3086
来自专栏大数据文摘

70多个网站让你免费获取大数据存储库

6958
来自专栏腾讯数据中心

警惕数据中心内部污染

近年来,PM2.5、雾霾等环境污染话题热度不减,当我们聚焦于数据中心,你是否清楚数据中心内的污染控制标准?什么仪器可以测试数据中心内的气体污染等级?如何净化数据...

5687
来自专栏FreeBuf

CovertBand:连“啪啪啪”都能识别的身体运动信息测试

近期,华盛顿大学Paul G. Allen计算机学院通过研究,实现了一种基于声纳并名为CovertBand的测试,通过该测试,可以对特定范围和有隔离屏障内目标人...

30011
来自专栏大数据文摘

我们看一眼广告值多少钱?创造了多大的价值?

18312
来自专栏华章科技

网购评论是真是假?文本挖掘告诉你

无数网友在各个电商网站的促销大旗下开启买买买模式,不过,当你在网上选购商品时,同类的商品成千上万,哪些因素会影响你选购某件商品呢?商品评论一定是一个重要的参考吧...

751

扫码关注云+社区

领取腾讯云代金券