微软亚洲研究院:计算机看懂视频的步骤及未来努力方向

对于人类来说,看懂视频似乎是再简单不过的事情了。从出生就开始拥有视觉,人眼所看到的世界就是连贯动态的影像。视野中每一个动态的形象都被我们轻易的识别和捕捉。但这对于计算机来说就没那么容易了。对于计算机来说,画面内容的识别,动作的捕捉,都要经过复杂的计算才能得出。当计算机从视频中识别出一些关键词后,由于语义和句子结构的复杂性,还要涉及词汇的词性、时态、单复数等表达,要让计算机将单个的词汇组成通顺准确的句子也是难上加难。

那么让计算机看懂视频都要经过哪几步呢?

首先,识别视频里的内容。目前的图像识别研究大多基于CNN(Convolution Neural Networks,卷积神经网络),首先,计算机识别出物体的种类,例如人、动物或其他物品;第二阶段,计算机获取物品在图像中的精确位置——这两个阶段分别回答了“是什么”和“在哪里”的问题。但在视频识别过程中,则需利用RNN(Recurrent Neural Networks,递归神经网络)将静态的图片加上时间的维度使其连贯,从而实现对视频内容中的静态物体和动作的识别。

递归神经网络

当计算机回答出“是什么”、“在哪里”和“做什么”的内容之后,就需要把这些分裂的词汇组成一个合乎人类表达规范的句子。而在将计算机识别出来的内容组成句子的环节中,相关性(relevance)和连续性(coherence)是两个关键点。相关性表示的是句子结构中的元素与视频内容的相关性,例如保证视频中所出现的客观物体的准确性。而连续性则是保证计算机最后“说”出来的句子要合乎语法,保证句子的连贯性。

相关性和连续性

计算机从理解视频,到表达出完整的句子,一直都是提高视频识别准确率的难点。但微软亚洲研究院研究员所提出的算法独具创新的将相关性和连续性进行联合学习以提高视频识别效果,将二维视觉上的卷积神经网络和三维的动态卷积神经网络结合,则使视频识别的准确性大大提高。

事实上,小冰即将开启的回复视频的功能在视频识别的基础上又更近了一步。她不仅要对用户提供的视频进行分析、理解,还要针对视频内容给出评论和反馈。这一功能将更加丰富小冰与用户对话的形式,并意味着用户在与小冰交流的时候将可以在文字、语音、图片、视频这几种形式之间无缝切换。

未来的三个努力方向

像每一个新生技术一样,视频识别还有很大的发展空间。微软亚洲研究院主管研究员梅涛博士表示:“我们为我们取得的成就而高兴,但是我们更多的是要想清楚如何走好下一步。未来,在视频识别领域有三个方向需要我们继续努力。”

第一,建立一个更大的视频数据集,从而实现视频识别方向的可扩展性和泛化能力视频识别相比于图像识别和语音识别等技术起步较晚,实验数据相对有限。因此建立大规模的视频数据集将成为视频识别研究进一步发展的基础,将为研究机构和研究人员提供更多有效的研究素材。这一数据集目前正在筹备中,预计明年初能够对学术界开发使用。

第二,扩展可识别视频的时长和内容的多样性,以及完善计算机从视频到句子的表达能力。目前,视频识别在视频的时长和内容上仍有一定限制;计算机表达的描述语句和人类自然语言仍有一定差距。未来的研究目标将着重于让计算机能够识别多种形式、时长更长的视频内容,并能产生复合的句子描述,使计算机的语言表达更自然流畅。

第三,视频中的声音识别。区别于图片,视频除了动态效果之外,还有一个很重要的维度,就是声音的加入。目前的视频识别还仅限于内容图像上的识别,尚未把声音加入识别范围内。接下来,视频识别与语音识别的共同合作将会进一步提高计算机视频的分析能力和表达能力。


原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

机器学习与大数据风控

一个普遍的看法是,机器学习等人工智能技术会最先在金融领域落地。金融行业是最早实现信息化的行业,有丰富的数据积累,且对于用技术提升效率有更多的需求。 现在也有越来...

4608
来自专栏镁客网

厉害了Facebook,最新计算机视觉每秒可训练4万张图片

1213
来自专栏大数据文摘

看视频就能学杂技,伯克利最新AI智能体

人类非常聪明,我们可以通过观察进行学习。无论是日常的洗手,还是惊人的杂技表演,对人类来说都是可以学习的。

752
来自专栏灯塔大数据

初识机器学习和人工智能

近日,英国皇家学会(Royal Society)发布了一份题为《机器学习:能通过样本进行学习的计算机的力量与希望(Machinelearning: the p...

3598
来自专栏数据科学与人工智能

【机器学习】深度学习 vs 机器学习 vs 模式识别

作者:Tomasz Malisiewicz 【编者按】本文来自CMU的博士,MIT的博士后,vision.ai的联合创始人Tomasz Malisiewicz的...

3068
来自专栏AI科技评论

CoRL2018最佳论文:抓取新物体成功率96%的深度强化学习机械臂

AI 科技评论按:致力于研究机器人与机器学习技术之间互动的新晋学术会议 CoRL 2018 于 10 月 29 日到 31 日在瑞士苏黎世召开。虽然 CoRL ...

2202
来自专栏人工智能快报

专家展望未来5年深度学习技术的发展

2015年12月29日,美国科技资讯网Re-work发文,总结了多位深度学习专家对未来5年深度学习技术的发展预测。 (1)人工智能研究机构OpenAI的研究主任...

3356
来自专栏吉浦迅科技

NVIDIA研究员如何进行机器人的抓取研究(附Deep Object Pose Estimation 代码)

英伟达的机器人研究人员开发了一种基于深度学习的新系统,该系统允许机器人在其环境中感知家居物体,以获取物体并与之互动。通过这种技术,机器人能够对已知的家用物体进行...

2042
来自专栏AI科技评论

学界 | 深度学习与强化学习相结合,谷歌训练机械臂的长期推理能力

AI 科技评论按:机器人如何能够学到在多样且复杂的真实世界物体和环境中能够广泛使用的技能呢?如果机器人是设计用来在可控环境下进行高效的重复工作,那么这个任务就相...

1131
来自专栏AI派

近邻推荐之基于物品的协同过滤

在了解了基于用户的协同过滤之后,还有基于物品的的协同过滤。它们的原理非常类似。在电商平台中经常看到“看了又看”,“看过它的人还看”等等推荐,这些推荐背后对应的算...

3665

扫码关注云+社区

领取腾讯云代金券