机器学习理解视频重点，微软视觉智能技术突破

新智元

发布于 2018-03-26 10:07:49

1K0

发布于 2018-03-26 10:07:49

文章被收录于专栏：新智元

【新智元导读】中国台湾国立清华大学与微软合作，首次实现了让机器自动生成视频标题。与生成视频描述不同，生成标题需要理解视频内容，抓住重点，用自然语言给出吸引人的概括（标题）。研究人员表示，这让我们离视觉智能的圣杯更近了一步。本文还介绍了微软 VideoToText 挑战赛及用于实现句子和视频转换的大型数据库 MST-VTT

当你的祖母上传一个视频到云端，它会躺在那里，孤零零的，没有人观看，除非你的祖母比我奶奶更会给视频取标题和打标签。我奶奶非常喜欢用手机拍摄家庭录像，虽然她拍的内容很有趣，她却不是很擅长吸引观众。虽然我和姐姐可能会喜欢看那些视频，但它们却几乎不可能被其他人看到。

我想你的祖母（以及朋友、同事、家人）可能与我奶奶一样，因为用户上传的、储存在云端的视频有很大一部分的观看量很少。现在，人工智能研究的成果能为这些用户带来帮助。这项研究能让你很方便地找到用户上传的视频，包括你爷爷在你表弟的婚礼上跳舞时假牙掉下来的有趣剪辑。

机器学习理解 UGC 视频，生成亮点描述

中国台湾国立清华大学电子工程系教授林嘉文和孙民利用机器学习解决了这个问题。他们创建了一个系统，可以由机器人观看视频、找出视频中的亮点，为其添加一个相关的标题以便搜索，并将视频推荐给目标观众。

孙民说：“我们的研究使我们离视觉智能的圣杯更近了一步，机器学习能够理解用户上传的视频中的视觉内容。”

孙民教授开发了一种生成视频标题的新方法，该方法利用深度学习自动找到视频中的特殊时刻或亮点内容，并根据这些亮点内容生成准确有趣的标题。同时，林嘉文教授开发了一种能自动检测视频中的人脸的方法，这能为视频生成更丰富的描述，并为分享这些视频的用户提供相关推荐。他们合作的算法能检测视频的重要内容，生成视频亮点的描述，并标记潜在观众。

两位教授的研究受到微软 COCO（Common Objects in Context）的启发。COCO 是一个新的图像识别、分割及标题生成数据集，它识别了语境下的超过 300000 幅图像，因为视频本质上是一系列的图像，这个数据集也可以用于帮助生成视频标题。两位教授在 2015 年与微软亚洲研究院的高级研究员梅涛博士合作，使用 COCO 的说明文字进行句子扩充，并且利用 MSCOCO 的数据来训练他们的系统。他们的研究结果发表在 arxiv【进入新智元公众号，直接在对话框输入“1012”，下载论文（附 VideoToText 挑战赛介绍）】。

目前，该系统已经分析了 18000 个视频的亮点内容，生成了 44000 个标题/描述。为了进一步改进系统，孙教授和他的学生参加了微软研究院发起的 VideoToText 挑战赛，使用比赛中发布的数据来验证他们的系统。他们的研究将在2016年10月8日~16日的ECCV（欧洲计算机视觉大会）上发表。孙民教授和梅涛博士已经开始进行他们的合作研究的下一个阶段，研究为个人照片生成故事说明。

如果你也对视觉智能研究感兴趣，微软的计算机视觉 API 会对你有帮助。它能从任何图像中提取丰富的信息，并对视觉数据进行分类和处理。你也可以使用微软在 GitHub上发布的范例自己做一个生成视频标题的 App。不妨试试看！

微软计算机视觉 API：https://www.microsoft.com/cognitive-services/en-us/computer-vision-api
Github 官网：https://github.com/Microsoft/Cognitive-Samples-VideoFrameAnalysis/

微软 VideoToText 挑战赛 & MSR-VTT 开源数据库

视频在互联网、广播频道和个人设备上变得越来越常见，大量的应用中都出现了用于分析视频内容语义的先进技术。视频识别一直是几十年来计算机视觉中的绝大难题。此前的研究大部分都着眼于识别预先定义而且非常有限的词汇。

本挑战赛需要再进一步，把目标视频内容转化成一个完整和自然文字句子。

微软将会发布 Video to Text （MSR-VTT），这是一个开源的大规模视频基准，用于实现视频与语言之间的转换（具体时间关注新智元后续报道）。MSR-VTT 数据库包含了 41.2 小时的视频和 200 K 短语，覆盖了最全的种类和最多样化的视觉内容。在句子和词汇上目前做到了最大。

数据库可以被用于训练和评估视频到语言的转换任务，在不远的未来，也可以用于其他一些任务，比如，视频检索、事件监测、视频分类等等。这一挑战赛将允许使用外部数据来训练和挑战算法的参数。

下面简单介绍 VideoToText 挑战赛（有兴趣参赛的读者可以下载论文查看详细内容）。

任务描述

今年的比赛将聚焦于视频到语言的转化任务。给定一个输入视频片段，其目标是自动的生产一个完整的自然语言句子，描述视频中的内容，把视频中的信息提取出来。

参赛者需要根据提供的MSR-VTT数据库（作为训练数据），或者别的任何公共、私人数据开发语言模型，来识别图像或者视频中大量的物体、场景和事件。为了满足评价标准，一个参赛系统至少需要产生关于视频的一个描述。其准确率被用于与人类写成的描述进行比较。

提交样本

评价标准

最后评价的标准将取决于在 MSR-VTT 测试集上取得的结果，会对多项常用标准进行评价，其中包括 BLEU@4, METEOR, ROUGE-L, and CIDEr-D。

此外，竞赛还会加入人为测评。标准如下：

连贯性：判断句子的逻辑和可读性
相关性：句子中有没有包含更加重要和相关的信息
对盲人的帮助性（额外标准）：这句子对于盲人理解视频是否有帮助

论文：为用户生成的视频生成标题

作者：Kuo-Hao Zeng, Tseng-Hung Chen, Juan Carlos Niebles, Min Sun

摘要

好的视频标题简洁明了地描述最显著的特征，同时吸引观众的眼球。相比之下，视频描述（video captioning）往往生成的是描述整个视频的句子。尽管自动生成视频的标题十分有用，但受的关注却远不如视频描述。我们结合两种方法，首次实现了自动生成视频标题的任务，这两种方法都是当前最先进的视频描述技术的扩展。

首先，我们使用一个重点检测器（highlight detector）对视频描述生成器进行初始化，让视频描述生成器能够关注重点部分。我们的框架能够同时训练标题生成模型和视频重点定位模型。然后，我们将高度句子多样性引入视频描述生成器，这样生成的标题听上去就多样而且上口。这意味着系统需要大量的句子作为训练数据，学习标题的句子结构。

因此，我们提出了一种全新的句子增强（sentence augmentation）法，使用仅含有句子的样本对其进行训练，这些句子都是之前没有用过的，而且也没有对应的视频。我们收集了一个大规模的 Video Titles in the Wild（VTW）数据集，含有 1.81 万机器从网上自动获得的用户生成的视频和标题。在 VTW 上面，我们的方法持续提高标题预测的准确率，在自动评估和人类评估两方面都取得了最好的成果。最后，我们的句子增强法还超过了 M-VAD 数据集的基准。

编译来源：https://www.microsoft.com/en-us/research/bots-generate-video-titles-and-tags-to-bring-ai-researchers-one-step-closer-to-visual-intelligence/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-10-13，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

机器学习

登录后参与评论

0 条评论

热度

机器学习理解视频重点，微软视觉智能技术突破

机器学习理解视频重点，微软视觉智能技术突破

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐