北卡罗来纳大学教堂山分校：利用观众聊天反应的视频集锦预测

文章来源：企鹅号 - 读芯术

你和“懂AI”之间，只差了一篇论文

很多读者给芯君后台留言，说看多了相对简单的AI科普和AI方法论，想看点有深度、有厚度、有眼界……以及重口味的专业论文。

为此，在多位AI领域的专家学者的帮助下，我们解读翻译了一组顶会论文。每一篇论文翻译校对完成，芯君和编辑部的老师们都会一起笑到崩溃，当然有的论文我们看得抱头痛哭。

同学们现在看不看得懂没关系，但芯君敢保证，你终有一天会因此爱上一个AI的新世界。

这是读芯术解读的第74篇论文

EMNLP 2017 Regular Papers

利用观众聊天反应的视频集锦预测

Video Highlight Prediction Using Audience Chat Reactions

北卡罗来纳大学教堂山分校

UNC Chapel Hill

【摘要】体育频道视频门户网站提供了一个令人兴奋的用于研究多模式、多语言分析的研究领域。我们提出了一种解决自动视频集锦预测的方法，该方法基于联合视觉特征和面向含有复杂英语与繁体中文俚语的真实世界观众谈话的文本分析方法。我们提供了一个Twitch.tv频道(为进一步研究将会发布)中来自北美和中国台湾关于英雄联盟冠军赛的新数据集，并在这些数据上使用多模、字符级CNN-RNN模型架构来展示其强大的结果。

1 引言

在线电子竞技活动提供了一种可以观察大型社交互动的新环境，该互动主要聚焦于一种随着时间而演变的视觉故事——视频游戏。虽然观看体育比赛是几千年以来的主要娱乐来源并且是当今文化的重要组成部分，但是电子竞技在好多方面都将这一问题带到了一个新高度。一是全球覆盖，同一个游戏可以在世界各地和说不同语言的不同文化中流行。二是在比赛中基于文本的在线聊天规模，这是公开的且能修正分析。最受欢迎的游戏之一“英雄联盟”，2016年世界大赛决赛(18种语言广播)吸引了4300万的浏览量，并且其峰值并发收视率为1470万(http://www.lolesports.com/en_US/articles/2016-league-legends-world-championship-numbers)。最后，玩家通过他们在屏幕上看到的东西进行互动，而粉丝(和研究人员)可以看到完全一样的视图。

本文以围绕电子竞技的大量互动为基础，建立了基于观众在线聊天和比赛视频记录的比赛视频集锦预测模型。电子竞技的记者和粉丝们在比赛中创建了重要时刻的精彩视频。以此为基础，本文通过多模态CNN+RNN模型探索了多语言条件下的集锦自动预测技术。需要注意的是，这个任务是自然产生的，因为社区已经产生了大量全球性的多语言多模的实际数据。

集锦预测是捕捉特定视频中(在本文中是一场比赛)的激动时刻，它取决于上下文、游戏状态和玩家。预测激动时刻的任务与将整个比赛的摘要生成不同。集锦预测可以从粉丝的实时文本评论中获益，对于揭露更抽象的背景语境很有价值，而这可能无法通过计算机视觉技术（这些技术很容易地识别出游戏状态的某些方面）来实现。举一个例子，计算机视觉可能无法理解为什么迈克尔乔丹越过另外一个球员的扣篮是精彩表现，而并发的球迷评论可能会揭示这一点。

我们从Twitch.tv上收集数据，它是一个集成评论的实时流媒体平台(见图1)以及最大的视频游戏直播平台。我们记录英雄联盟(LOL)游戏，一个最大的电子竞技游戏的两个赛事子集：1）北美英雄联盟春季冠军联赛(NALCS)；2）中国台湾/中国香港/中国澳门的英雄联盟大师赛（LMS），其聊天评论分别用英语和繁体中文。我们使用社区创建的集锦去标注比赛的每个帧。

图1：广播平台照片：（a）Twitch：英雄联盟锦标赛广播，（b）Youtube：新闻频道；（c）个人生活分享

除了我们的新数据集外，我们还介绍了几个基于多语言字符模型的实验，和以深度学习为基础的单帧或视频序列集合的视觉模型LSTM-RNN，以及语言和视觉模型的组合。我们的结果表明，视觉模型通常比基于语言的模型表现更好，但是我们仍然可以构建一些相当有用的语言模型，来消除视觉模型的歧义，而结合这两个来源的模型是最有效的(跨多种语言)。

2 相关工作

我们简要地讨论了部分与语言和视觉数据集、摘要生成和集锦预测的相关工作。在过去的几年里，涌现了大量关注于标题的视觉和语言数据集 (Rashtchian et al., 2010;Ordonez et al., 2011; Lin et al., 2014)，随后出现的数据集专注于图像特定部分(Krishna et al., 2016)，或关注于指称词语表达 (Kazemzadeh et al., 2014)，或关注于广义语境(Huang et al., 2016)。对于视频而言，已有类似工作收集了描述(Chen and Dolan, 2011)，而其中有人使用了现有的描述性视频服务(Dsecriptive Video Service, DVS)源(Rohrbach et al., 2015; Torabi et al., 2015)。除了描述，其他数据集还用问题来关联图像和语言(Antol et al., 2015; Yu et al., 2015)。最近，Tapaswi等人(2016)将这种方法被扩展到电影中。

视频摘要生成的相关问题(相对于寻找集锦)已经产生了大量节日和体育事件的数据集，它们用多个用户制作摘要视频(Gygli et al., 2014)，以及用多个用户从短视频中选出关键帧(de Avila et al.，2011)。对于基于语言的摘要生成，抽取式模型(Filippova and Altun, 2013; Filippova et al.,2015)通过选择重要的句子，然后将这些句子组合起来生成摘要；而生成式模型(Chopra et al., 2016; Mei et al., 2016;Nallapati et al., 2016; See et al., 2017)则从零开始生成/重写摘要。

与我们背景更接近的是，在现有足球和篮球比赛的集锦预测(Cheng and Hsu, 2006) (Wang et al., 2004)中，评论员们可能会有巨大的影响或视觉特征(Bertini et al.，2005)。坦率地说，已有一些工作(Hsieh et al., 2012)关注于体育赛事中的推文，但这些推文并不像电子竞技评论那样直接，或与游戏保持一致。与我们的工作更密切相关的是，Song(2016)为风暴英雄、英雄联盟和Dota2等在线广播网站收集了大约327小时的视频。他们还提供了由四个标注器标注的集锦标记。换句话说，我们的方法也有类似的数据量，但是我们使用了现有的集锦，并且我们还使用了文本式的观众聊天评论，从而为语言和视觉研究提供了一个新的资源和任务。总之，我们提供了第一个用于视频集锦的语言视频数据集，它包含了多种语言、聊天式的观众反应。社区产生的真实数据为每一帧提供了标签，并可用于监督学习。这个新数据集在语言方面，对于现实世界中互联网风格的俚语带来了一些有趣挑战。

3 数据采集

我们的数据集涵盖了2017年第1周到第9周的春季系列赛事，分别有218个来自NALCS的视频以及103个来自LMS的视频，共计321个。每周有10场NALCS比赛和6场LMS比赛。比赛是三局两胜制，所以由两局或三局组成。第一局和第三局用来训练，前4周的第二局比赛用作验证，剩下的第二局比赛用作测试。表1列出了训练、验证和测试子集的视频数量。

表1：数据集统计（视频个数为单位）

每局的视频长度从30到50分钟不等，其中包含与每局游戏指定时间戳相关的图像和聊天数据。每段视频的平均聊天次数为7490，标准偏差为4922。标准偏差高的主要是由于NALCS同时在两个不同的频道(nalcs1(https://www.twitch.tv/nalcs1)和nalcs2(https://www.twitch.tv/nalcs2))广播比赛，往往会导致大部分用户观看相对更受欢迎的团队比赛，由此造成聊天数量上的不平衡。如果我们只考虑使用单通道广播的LMS，那么平均聊天次数为7210，标准偏差为2719。每场比赛的观众人数平均为21526人，而参与聊天的用户数量平均为2185人，大约是观众数量的10%。

集锦标记对于每局比赛，我们收集社区生成的长度从5分钟到7分钟不同的集锦。为了保证我们数据的一致性，我们从单一的Youtube频道Onivia(https://www.youtube.com/channel/UCPhab209KEicqPJFAk9IZEA)上收集，该频道为两个冠军联赛提供了一致的安排。我们希望这样的一致性有助于辅助我们的模型更好地挑选集锦特征。

我们接下来需要将集锦视频中帧的位置与完整游戏视频中的帧对齐。为此，我们采用了模板匹配的方法。我们把视频和集锦中的每一帧分成4×4共16个区域，并使用每个区域内每种颜色通道的平均值作为特性。如图2所示，每一帧的特征最终表示为一个48维向量。对于集锦中的每一帧，我们可以通过计算这两个向量之间的距离找到其在整个视频中最相似的帧。然而，将单一个帧匹配到另一个帧会有噪音。因此，我们可以连接随后的帧以形成一个窗口，并使用模板匹配在视频中找到最佳的匹配位置。我们发现，当窗口大小是60帧，它产生了一致、高质量的结果。对于每一帧，匹配结果不仅包含最好的帧匹配得分，还包括该匹配在视频中的位置。（当窗口包含一个集锦的剪辑切换场景时，最佳匹配的得分很低。这是用于分离集锦中的所有剪辑。然后，我们可以使用每个剪辑的起始和结束位置来标注视频）。图2 (b)说明了这个匹配的过程。

图2：集锦标注：(a)用每个区域的颜色通道平均值来计算每一帧的特征表示。(b)模板匹配后，顶部栏显示集锦中每一帧相似性匹配的最大值，底部栏给出视频的标注结果。

4 建模

在本节中，我们将解释所提出的模型和组件。我们首先描述问题的符号和定义，以及使用的评价指标。接下来，我们将解释我们的视觉模型VCNN-LSTM和语言模型L-Char-LSTM。最后，我们描述联合多模态模型lv-LSTM。

问题定义我们的基本任务是确定输入的完整视频中的一个帧是否应该被标记为是输出集锦的一部分。为了简化符号，我们用X = 表示帧的一系列特性。聊天表示为C={(c1,ts1), ..., (cn, tsn)}。每个聊天c都有一个时间戳ts。获取图像特征和/或聊天特征的，并预测帧的标注方法为Y = 。

评价指标我们将一组带有正的真值标签的帧集合记为Sgt，一组带有正标签的预测帧记为Spred。根据(Gygli et al., 2014; Song et al., 2015)，我们使用了在视频摘要生成任务中广泛使用调和平均数F-score来评估：

V-CNN我们使用ResNet-34模型(He et al., 2016)来表示帧，因为它在ImageNet挑战赛上(Russakovskyet al., 2015)的结果很好。我们的单纯V-CNN模型(图3a)使用这个网络(https://github.com/pytorch/pytorch)预先训练的特征，直接在每一帧上进行预测（将其大小调整为224x224）。

V-CNN-LSTM为了能够顺序地开发利用可视化的视频信息，我们在图像特性之上使用基于内存的LSTM-RNN，以便对长期依赖关系进行建模。我们所有的视频都是30帧/秒（FPS）。由于连续帧之间的差异通常很小，所以我们在评估过程中每10帧进行预测，并在这些帧之间进行插值。在训练期中，由于GPU内存的限制，我们将LSTM单元展开16次。因此，图像窗口大小大约为5秒(从30fps视频中每10帧取一个抽样，共抽取16个抽样)。从最后一个单元格中隐藏的状态被用作V-CNN-LSTM特性。这个过程如图3(b)所示。

L-Word-LSTM and L-Char-LSTM接下来，我们讨论基于语言的模型，该模型使用观众聊天文本。文字级的LSTM-RNN模型(Sutskeveret al.，2014)是嵌入句子的常用方法。不幸的是，这并不适合我们的互联网俚语风格的语言，因为它不符合规范，有“拼写错误”(hapy，happppppy)，表情符号(^.^)，缩写(LOL)，标记(?!?!?!?!)，或者拟声词用法(例如：4听起来像在繁体中文中和“是”的发音一样)。人们可以输入各种长度的4，比如44444444来表达他们的评论。

因此，作为一种可选项，我们用字符级LSTM-RNN模型(Graves,2013)对观众聊天进行建模。根据聊天服务器上使用Unicode或其他表示，将人物的语言，汉语，英语、或表情等扩展到多个ASCII字符。我们为每个输入的ASCII字符编制一个独热向量。对于每一帧，我们使用所有发生在后续Wt秒（文本窗口大小）的聊天来形成L-Char-LSTM的输入。我们将所有聊天按照窗口大小连接，并由一个特殊的停止字符分开它们，然后再送给一个三层L-Char-LSTM模型（这些停止字符的数量则是一个聊天数量的编码。因此，如果它是一个有用的特性，L-Char-LSTM可以学习使用这个#号聊天信息。此外，也删除了Twitch.tv或者频道本身一些使用不当的内容。我们用符号“\n”来取代这种情况下）。这个模型如图3 (c)所示。依照第五章的设置，我们评估文本窗口大小从5秒到9秒，并得到以下精度：32.1%，29.6%，41.5%，28.2%，28.2%。我们取得最好的结果7秒设为文本窗口大小，并在其他实验中使用该设置。

lv-LSTM模型我们的最终的lv-LSTM模型结合了最好的视觉和语言模型：V-CNN-LSTM和L-Char-LSTM。对于视觉和语言模型，我们可以分别从V-CNN-LSTM和L-Char-LSTM提取Fv和Fl特征。然后，我们将Fv和Fl连接起来，并将其输入到一个2层的MLP中。完整的模型如图3 (d)所示。未来，我们希望通过使用更多相关的表示方法如双线性池(Fukui et al.，2016)，记忆网络(Xiong et al.，2016)，以及注意力模型(Lu et al., 2016)来改进这种方法。

5 实验和结果

训练细节在开发和ablation研究方面，我们使用源自NALCS的数据进行训练和值分离，来评估第3节的模型。对于最终结果，模型在训练和val数据结合上进行了重新训练(遵循主要的视觉基准，例如PASCAL-VOC和COCO)，并且在测试集上进行了性能测试。基于使用不同的输入数据，我们将集锦预测分为三个不同的任务：视频、聊天和视频+聊天。数据集的详细信息在第3节中。我们的代码是在PyTorch中实现。

为了处理大量的帧，我们在每个周期（epoch）只抽取5k正样本和5k负样本。我们在所有实验上的批大小为32和运行次数为60。权重衰变是10−4和学习速率在前20个周期设置为10−2，，随后设为为10−3。使用交叉熵损失。集锦由粉丝产生的多个剪辑组成。我们将每个剪辑匹配到它在完整比赛视频中开始的位置，并称之为集锦剪辑(非重叠)。有用的情节(比如杀死、目标控制等)经常发生的后期的集锦剪辑中，而剪辑包括一些额外的上下文，而这些动作有助于实验。对于我们的一些实验设置(表2)，我们使用了只包括最后25%集锦剪辑帧的启发式算法作为正训练样本。而在评估中，我们使用所有的集锦剪辑帧。

表2：消融研究：各种模型的效果：C：聊天，V：视频，UF：在集锦剪辑里面当做正训练样本的百分比，P：准确率，R：召回率，F：F-score

消融研究表2显示了每个模块的性能在开发集上的性能。基本L-Char-LSTM和V-CNN模型，只使用训练效果最好的集锦剪辑的后25%。为了评估L-Char-LSTM模型的性能，我们也通过分词所有的聊天记录并只考虑出现10次以上的单词，训练了Word-LSTM模型，导出10019个词。我们使用这个词表将词编码为独热向量。L-Char-LSTM优于L-WordLSTM22.3%。

测试结果测试结果如表3所示。令人奇怪的是，尽管评论流具有实时特性，但是视觉模型比语言模型更准确。这可能是由于游戏的视觉形式，亮点的事件可能有类似的动画。然而，包括语言与视觉lv-LSTM模型只显著提高了视觉，因为评论有可能出现额外的上下文信息。比较消融和最终测试结果，似乎数据更多更有助于提高精度。这种效果在视觉模型上更明显，这或许是源于其复杂性。此外，L-Char-LSTM在英语中的表现比繁体中文好。从第三节中给出的数字来看，聊天次数变化方面，NALCS比LMS高得多，这可能会对语言模型产生至关重要的影响。然而，我们的研究结果似乎表明L-Char-LSTM模型可以整理聊天数据(如内容)的其他因素，而不是计算聊天次数。我们期待更适合繁体中文的语言模型能够提高LMS的结果数据。

表3：在NALCS（英语）和LMS（繁体中文）数据机上的测试结果

6 结论

我们提出了一个新的数据集和基于视觉线索和多语言下的文本式观众聊天反应的多模集锦预测。我们希望我们的新数据集可以支持进一步的多语言多模研究。

发表于: 2018-07-152018-07-15 13:00:34
原文链接：https://kuaibao.qq.com/s/20180715G0NC5700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

北卡罗来纳大学教堂山分校：利用观众聊天反应的视频集锦预测

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐