首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

揭秘MIT-IBM Watson AI,如何教机器识别行为

一个人在观看视频时,很容易辨别不同情景下相同类型的动作,比如一扇打开的门,一本正在阅读的书,一朵盛开的花,一只打哈欠的狗,等等。但是对计算机来讲,识别这些动作还是存在一定难度的。

“计算机模型在辨别这些东西上惨败于人类。那么,人类是如何毫不费力地做到这一点的呢?“MIT-IBM Watson AI实验室的首席研究员兼IBM Research的工作人员Dan Gutfreund问道。

“我们人类可以完成在空间和时间上处理信息。怎么做才能让计算机模型也拥有这项能力呢?”其实,这个问题的答案也是MIT-IBM Watson AI实验室正在进行的一项新项目背后的重大意义。

MIT-IBM Watson AI实验室是人工智能前沿领域研究的合作项目,于去年秋季启动,旨在让麻省理工学院和IBM研究人员合作,一起研究人工智能算法,人工智能在工业中的应用,人工智能的物理原理以及通过人工智能来共同推进社会的进步。

Moments in Time是由该实验室进行的与AI算法有关的项目之一。Gutfreund和麻省理工学院计算机科学与人工智能实验室的首席研究科学家Aude Oliva是这一项目的主要研究人员,同时,他们也是MIT-IBM Watson AI实验室的执行主任。

简单来说,Moments in Time建立在一个收集了100万加注释的动态事件的视频的基础上,会在三秒钟内展开,而Gutfreund和Oliva要做的是使用这些片段来解决人工智能的下一个重大问题——教机器识别行为。

这个问题听起来很复杂,它是如何实现的呢?

从动态场景中展开学习

研究人员表示,他们的目标是提供深度学习算法,对视觉和听觉的时刻生态系统进行大范围的覆盖,以便让模型能够学习非监督方式教授的信息,并推广到新的情境和任务。

“随着成长,我们会环顾四周,观察移动的人群和物体,听他们发出的声音。人类有很多视觉和听觉体验,人工智能系统也需要以相同的方式进行学习,获得视频和动态信息。”

对于数据集中的每个动作类别,如烹饪,跑步或打开物体,每个都有超过2000个视频。这些短视频可以让计算机模型能够更好地了解特定行为及其意义和其多样性。

Oliva补充说:“这个数据集可以作为开发AI模型的新挑战,它可以扩展到人类日常工作的复杂性和抽象推理的水平。”不同的事件包括了不同的人物,对象,动物和自然环境。它们可能在时间上是对称的,举个例子,打开意味着以相反的顺序关闭。它们可以是暂时的,也可以是持续的。

Oliva和Gutfreund以及来自MIT和IBM的其他研究员共同合作,以解决诸如怎样选择注释的动作类别,在哪里寻找视频已经怎样组合多种阵列让AI系统学习没有偏见等技术问题。该团队还开发了用来扩展数据集的机器学习模型。

“我们非常一致,因为我们有一样的热情和共同的目标,”Olivia表示。

增强人类智能

实验室的一个关键目标是AI系统的发展,用于解决更复杂的问题,并从强大和持续的学习中受益。对此,IBM Research首席运营官Sophie V. Vandebroek表示,“我们正在寻找新的算法,不仅可以利用大数据,还可以从有限的数据中展开学习以增强人类智能。”

除了配合每个组织的独特技术和科学优势外,IBM还为麻省理工学院的研究人员带来了大量资源,以未来10年2.4亿美元的AI投入为标志,致力于MIT-IBM Watson AI实验室的研究。根据研究人员的说法,MIT-IBM对AI的研究是有益的。

迄今为止,该实验室的定性结果表明,其模型能够很好地识别动作额框架和闭合度,但当类别细化或存在背景混乱的情况时,它们会出现问题。Oliva称,麻省理工学院和IBM研究人员已经提交了一篇文章,描述了在数据集上训练的神经网络模型的性能,而这个模型本身被共享的观点深化过的。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180406A16IBT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券