LEVAN:首款全自动视觉概念的机器学习程序

在今天数字驱动的世界,信息触手可及又无穷无尽。但当你想要了解某种未知的东西,比如你在朋友家里看到的厨房小工具的名字,你会发现你很难,也不知如何才能从网络上的大量信息中搜索、筛选有用信息。或者,一种截然相反的问题出现了--我们确实能在互联网上查找任何东西,但如何确保我们在短时间查询到一切与主题相关的信息?

来自华盛顿大学和位于西雅图的艾伦人工智能研究所( the Allen Institute for Artificial Intelligence)的计算机科学家创造了第一个全自动计算机程序,用来做视图概念的机器学习。名为学习关于一切的一切,或者叫做列文(LEVAN),该程序将在线搜索成千上万的书籍和图片,来学习某概念及所有变化,接着将结果以一组全面而可浏览的图片列表呈现给用户,以帮助他们快速详细地检索、理解主题。

“这个程序所做的就是发掘文本数据与可视化数据之间的关联,”Ali Farhadi介绍说到——他是华盛顿大学计算机科学工程专业的一位助理教授,“程序学着将图像中像素与丰富的集合描述紧密耦合,这意味着当程序看到这些图片时,就能识别出特定的概念实例”。

在本月俄亥俄州哥伦比亚的计算机视觉和模式识别年会(the Computer Vision and Pattern Recognition annual conference)上,该研究团队将会展示这一项目以及一篇相关论文。

通过浏览在线图片的内容并使用目标识别算法辨别这些图片的特征模式,程序就能分辨出相关条目。与在线图片库不同,此程序凭借丰富的短语以及图片内容、像素组合,来理解并标识图片。

用户能浏览现有的大约175概念库。这些现有的概念范围从“航线”到“窗子”,包括“美丽”,“早餐”,“阳关”,“癌症”,“创新”,“滑板”,“机器人”,以及研究人员第一个输入,“马”。

假如你查询的概念不存在,你可以提交任何搜索术语,程序会自动产生详尽的,与此概念关联的子分类图片列表。比如,一个关于狗的搜索会产生显而易见的子分类集合:照片包括“吉娃娃(Chihuahua dog)”、“沮丧(black dog)”、“游泳的狗狗”,“脏乱的狗狗”,“灵缇犬”。但“狗鼻”、狗盆、“易闯祸的人(sad dog)”、最丑的狗、“热狗”,甚至瑜伽姿势“下犬式(down dog)”,也出现其中。

此技术通过在成千上万的谷歌英文书籍中寻找文本,并且在完整的数码库中查询每一个可能的概念来发挥作用。接着用一套算法过滤掉非视觉文本概念。以“马”这个概念为例,算法会持有“奔腾的马”、“吃草的马”、“带笼罩的马”这些描述词,但会排出诸如“我的马”、“最后一匹马”这样非视觉的描述词。

一旦程序习得了那些描述词是关联的,它就会做在线图片查询,在检索到的照片中寻找存在关联性的图片。比如,当训练过的程序寻找“奔腾的马”相关的图片,它能识别所有与此描述关联的图片。

“诸如词典以及百科全书为主要来源的信息库,直接地向用户展示了可视化信息,主要是因为这些信息容易理解并且可以快速地通过概念查询去浏览。然而,用户手动查询常常限定了查询的范围。不过,新程序无需人员监控,因此它能自动针对任何概念习得视觉知识。”Santosh Divvala介绍说,他既是人工智能艾伦研究所(Allen Institute for Artificial Intelligence )的一名研究科学家,也是隶属于华盛顿大学计算机科学与工程系(UW in computer science and engineering)一名科学家。

研究团队也包括Carlos Guestrin,他是华盛顿大学计算机科学与工程系(UW in computer science and engineering)教授。三月份研究者发起这个项目时仅有少部分可视化概念,自此以后,超过130万张的图片被用6.5万不同的描述语所标识,他们见证了这些可视化概念增加的过程。

现在,程序在快速习得概念方面的能力很有限,主要受限于处理每条查询的计算能力,对于一些宽泛的概念需要12小时。研究者正加速程序处理速度以及处理能力。

团队希望开源的项目既能满足计算机可视觉化社区教学所需,又可以满足研究者对信息库的需求。与此同时,他们打算提供一个智能手机应用,以便能运行具备自动地解析归类图片功能的程序。

这项研究得到了美国海军研究办公室、全国科学基金以及华盛顿大学的基金资助。

翻译乔永琪 审稿王凌翔

摘自中国数字科技馆

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

机器学习项目实践:30+ 必备数据库(预测模型、图像分类、文本分类)

【新智元导读】有了好的数据,机器学习项目也就成功了一半。希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选...

39960
来自专栏PPV课数据科学社区

用Python进行数据可视化的10种方法

编译|黄念 校对|丁一 引言 艺术之美根植于其所传达的信息。有时候,现实并非我们所看到或感知到的。达芬奇(Da Vinci)和毕加索(Picass...

50370
来自专栏CVer

重磅 | 《动手学深度学习》 0.7版发布

学过或正在学习MXNet框架的同学,一定很熟悉《动手学深度学习》这个课程。该课程算是第一个最硬国语版讲解深度学习的课程(从理论到实战)。Amusi记得该课程首次...

8900
来自专栏新智元

【干货】4月Python 热门推荐Top 10

18040
来自专栏生信技能树

【好书共享】《R for Data Science》的中译版

这本书将教我们如何用R来做数据科学:学习如何将自己的数据导入R中,把它变成最有用的结构,转换,可视化并对数据进行建模。在这本书中,我们会学习数据科学需要实用技能...

45420
来自专栏Crossin的编程教室

从小白到年薪10万+,优秀的数据分析能力如何速成?

广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网...

34960
来自专栏BestSDK

Cloudsight推出图像识别API,免费开放给教育机构

如果自己研发做图像识别的成本比较高,尤其是在没有一个很好的硬件设施(GPU)的情况下,还是通过API比较合适。 ? 计算机科学学位的技术往往要落后于现实。许多学...

48030
来自专栏AI研习社

福利 | 本周 AI 开发大事件汇总(文末附百G免费开发者资源)

各位周末好!对 AI 开发者来说,本周发生了不少大事值得关注,重点包括: ● 谷歌 HBaseCon West 2017 大数据研讨会发出邀请函; ● 亚洲首度...

40880
来自专栏ATYUN订阅号

MIT开发AI系统,确定新闻来源是否有政治偏见以打击假新闻

虚假消息仍然是令人头疼的问题。今年3月,有一半的美国人报告在新闻网站上故意误导文章。最近爱德曼调查的大多数受访者表示,他们无法判断媒体报道的真实性。鉴于假新闻的...

14060
来自专栏CDA数据分析师

盘点 | 今年GitHub排名前20的Python机器学习开源项目

当今时代,开源是创新和技术快速发展的核心。本文来自 KDnuggets 的年度盘点,介绍了 2016 年排名前 20 的 Python 机器学习开源项目,在介绍...

31260

扫码关注云+社区

领取腾讯云代金券