专栏首页机器之心学界 | 通过流量识别加密视频内容:以色列学者提出神经网络攻击模型

学界 | 通过流量识别加密视频内容:以色列学者提出神经网络攻击模型

选自GitHub

作者:Roei Schuster等

机器之心编译

参与:李泽南、Smith、吴攀

深度学习在数据特征识别上的能力强大,目前已成为计算机视觉、图像处理、语音识别、自然语言处理等领域的流行方法。最近,研究人员又尝试将深度学习应用到了网络攻击中。利用视频流量分析,以色列特拉维夫大学和康奈尔大学的研究者们开发的新算法只需在电脑或手机浏览器中加入几行 JavaScript 代码,就能在这台设备连接到 Wi-Fi 后通过流量数据识别出用户观看的视频内容,而识别准确率接近 100%。

电视剧《黑镜》中的又一项技术被科学家们部分实现了

目前,研究人员的算法已经可以识别目标用户在 Netflix、Youtube、亚马逊视频等平台上观看的视频内容,他们可以通过网络在远程完成这项工作,只需用户(或者相同局域网内的其他用户)浏览经过适当制作的网站。这种方法无需直接访问食品本身,也不用访问正在播放视频的设备,研究人员表示,从路由器、网络服务供应商到网站都可以通过这种方式窥探人们的隐私。

论文:Beauty and the Burst: Remote Identification of Encrypted Video Streams

论文链接:https://beautyburst.github.io/beautyburst.pdf

美是在观察者眼中产生的,因此,为了获得我们观察到的东西,我们需要四处搜集我们所喜爱的东西。时至今日,很多我们观察到的东西是以互联网上的视频形式出现的,而且我们对电影、电视节目、新闻、社交媒体视频的选择往往揭露了我们的个性、喜好、社会经济状况和心情。很多机构都渴望开发这些信息:广告商家、保险机构、定价商或者去惩罚那些访问不良信息的人。

网络传输加密技术给这些监控设置了障碍,但是我们知道网络传输分析,只能检查网络传输的规模和时序,而对于传输的内容,通常需要进行归纳分析。怎样对加密的视频进行有效的流量分析?对于潜在的对手而言,这又有多容易呢?

我们提出了一种非常有效的方法,它有关攻击者(attacker)如何用直接和间接的方法对目标用户观看的视频内容进行分析的(通过像 Netflix 和 YouTube 这样的流媒体)。我们考虑了三类攻击情景:

路径攻击(On-path attacks),最简单的方法,包括一个可以被动监控用户流量的对手。这包括互联网服务供应商,恶意 Wi-Fi 接入点、代理、V**、路由器等。它们可以对完全精确地看到单个数据包,并且通过我们的方法,它们可以辨认出用户正在观看的加密视频是什么。

跨站攻击(Cross-site attacks),攻击者的唯一一次访问就是通过受害者的浏览器来发送 javascript 代码(如下图)。这是一个相当危险的方法:现在,那些对用户访问习惯有着浓厚商业兴趣的操作者无处不在,那些不受信任的 Javascript 代码通常出自他们之手。浏览器可能会在一个被限制的环境中运行这些代码,来防止其搜寻个人信息。但我们的研究展示了这种限制是失败的:攻击者可以通过一个旁路通道(side channel)来访问网络视频传输:他会用自己的数据来冲毁网络连接,然后在网络阻塞的时候去测量其波动。几分钟后,他们就可以对视频进行推断性的分析。

跨设备攻击(cross-device attacks):这是一种更强大的识别流量模式的方法。比如,一个在自己的电视上观看 Netflix 视频的用户可能会被碰巧运行在其本地网络中的某台电脑上的一个浏览器中的 JavaScript 代码攻击(参见下图)。这种攻击也依赖于归纳和测量该流媒体设备和 PC 在共同网络连接上的拥塞(congestion)。

为了基于记录的流量模式识别视频,我们使用了深度学习技术,并使用几种领先的流媒体服务上的电影内容训练了一个人工神经网络系统。这种神经网络视频分类器的训练过程类似于用户将视频传输到其流媒体设备(或软件)的过程,并且连接到相似的流媒体服务。当被训练识别数十个标题时,我们的 YouTube 检测器实现了 0 负例,回调为 0.988,而 Netflix 检测器的负例率为 0.0005,回调为 0.93.

Q&A

对于这项技术,研究者们还对一些人们关心的问题进行了解答。

Q1:哪些流媒体服务会被探测?

A:我们测试了四种热度最高的在线视频服务:Netflix、YouTube、Amazon Video 和 Vimeo,发现所有这些都很容易受到我们的视频识别技术的影响。通常,流媒体服务使用 MPEG-DASH 标准运行在 HTTP(S)上,而 MPEG-DASH 的分段机制让信息泄露变得简单。具体原因将在 Q6 中讨论。以上所有四种服务在测试中都具有危险性:YouTube 直接使用标准方式,而 Amazon Video、Netflix 和 Vimeo 使用了非常接近的变体。

Q2:流量信息如何泄露?

A:从恶意 WiFi 接入点、代理、路由器、公司网络、国家级网关和 ISP 都可以用来获取用户观看视频习惯的信息。无线网关可以使用这些信息来屏蔽受监控的内容,即使它们已被加密。

用户访问的所有网络内容提供商(包括广告、分析提供者和社交网络)也可能通过利用我们的侧信道攻击来破坏用户隐私。

Q3:VBR 与视频内容的关系?

A:使用可变比特率压缩(VBR)编码可以让视频在给定质量的前提下存储空间最小。这种方式高度依赖于视频内容。例如:视频鬣蜥与蛇之间多动作场景需要高比特率来表示。下图展示了视频在不同场景中比特率的波动。

示例视频:https://www.youtube.com/watch?v=Rv9hn4IGofM

Q4:什么是流量突发特征?它与视频内容有什么联系?

A:在 MPEG-DASH 视频流中,服务器上的视频会被分割为小段传送到客户端处。这就导致在播放中流量会呈现间歇性突发增长。

为了说明它与视频内容本身有什么关系,我们使用一段鬣蜥的视频:其中存在低比特率和高比特率交织的片段。(下图)左侧显示数据包大小延时间轴的变化,右侧图显示流量突发的情况(第一个突发流量是缓冲)。

Q5:这种视频识别是如何工作的?

A:这种自动视频比对是通过机器学习算法来完成的。通常,在线播放的视频都会被分割为多个小块以便下载,同时可被其他会话探知从而避免重复下载。尽管如此,我们还需要在加密协议层中引入一种非常稳定的方式来避免噪音和失真。通过使用侧信道攻击(如本研究中的 JavaScript 攻击方式),我们可以对流媒体服务的内容或缓冲进行间接测量。

深度神经网络(多层级的人工神经网络)在多种特征识别任务中已被证明是非常有效的。它的设计理念让计算机可以识别各种抽象的概念:那些人类可以直观体会,但难以表达的概念。因此,深度学习算法是目前计算机视觉、图像处理、语音识别、自然语言处理等领域的流行方式。在本研究中,我们构建了一个深度卷积神经网络架构来探测网络流量中视频数据信息的特征。深度学习方法可以形成准确的抗噪声探测器,即使在侧信道执行任务时也是有效的。

Q6:为什么这些信息会泄露?我能防止这样的事发生吗?

A:流媒体信息泄露的根本原因在于感知视频片段所需的信息量取决于片段的内容。例如:几乎静止的自然场景,或脱口秀的视频中,图像是几乎静态的,它可以被压缩为体积很小的数据。流媒体服务利用了这个特点,通过可变比特率(VBR)压缩方案来减少发送的数据量。因此,流量大小是和数据内容相关的。

我们当然可以弃用 VBR 编码,或降低自适应码率来改变视频的压缩率,但这样做明显会降低效率(提高了观看成本,也会导致网路堵塞,视频观看卡顿)。

如果客户端的缓冲视频的持续时间接近于常数(或呈随时间变化的仿射函数),则 VBR 的特性是在流量中可解的。因此,人们可以尝试通过不断更改缓冲区大小来规避被观察的可能,尽管这也降低了网络效率,并增加了视频播放缓冲延迟的几率。

Q7:这种攻击会被探测到吗?

A:这种单向攻击是完全被动式的,它无法被探测,无论是对于用户,还是对于基于网络的监视器而言。

在我们的实验中,旁接模式的攻击对于观察者而言是无法察觉的:流媒体播放并没有受到干扰,虽然因为攻击的存在,流量的使用略有增多。这是因为上游路由器会尝试在多个数据流之间公平分配带宽:在我们的例子中它们是视频和攻击者。由于视频流通常只需要用到全部带宽的不到一半,所以播放仍然顺利。此外,在传输视频片段时,路由器通常会给视频更高的动态优先级(即队列顶部)而不会侵占攻击者的带宽。攻击者引起的额外流量会影响到用户网络的总流量使用情况。

原文链接:https://beautyburst.github.io/

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-06-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • ICLR 2020 | MIT、DeepMind等联合发布CLEVRER数据集,推动视频理解的因果逻辑推理

    从视频的物理事件中识别物体并推断其运动轨迹的能力是人类认知发展的核心。人类,即使是幼儿,也能够通过运动将图片区域划分为多个物体,并使用物体的永久性、实体性和连贯...

    机器之心
  • Tumblr扫黄正式开始!AI鉴黄也许是老司机们的头号敌人

    12 月初,美国著名图片博客网站 Tumblr 宣布将全面禁止任何成人内容。新规定将于 12 月 17 日正式施行。这一行为看来是主动在和「互联网的 30% 流...

    机器之心
  • 爱因斯坦未披露演讲公开了?不,这只是一张图、一段音合成的AI视频

    还记得那个「会说话」的蒙娜丽莎吗?机器之心前不久报道了一项来自三星莫斯科 AI 中心和 Skolkovo 科学技术研究所的研究。在那项研究中,研究人员利用一张图...

    机器之心
  • VR视频识别率测试方案

    VR眼镜层出不穷,VR 应用如雨后春笋,它们消费的内容主要有图片,视频和游戏3种。那么如何判断一个视频是否是 VR 视频呢?

    腾讯移动品质中心TMQ
  • 短视频火爆异常,光鲜背后隐忧频现

    短视频市场在经历了早期的野蛮生长后,开始回到巨头争霸的状态。抖音、快手、微视等短视频背后几乎都有互联网巨头的身影,这也映衬出短视频作为一种全新的内容展现形式所具...

    孟永辉
  • 喜提苹果“年度趋势奖”,美图WIDE“解密”短视频新趋势

    12月2日,苹果公司评选出2019年度最佳应用和游戏,从iPhone、iPad和Mac三端数百万个APP中挑选出6款年度最佳APP、游戏以及8款年度趋势APP(...

    曾响铃
  • 5G 将会给视频娱乐带来哪些技术助力?产生哪些变化?

    近日,腾讯无线网络与物联网技术负责人李秋香与高校科研教授、产业链、运营商等各行业的嘉宾一起参与了知乎「 科技共振之 5G+ 」活动,除了专业的5G探讨,也聊了不...

    云加社区
  • 面对短视频平台开发的发展,从营销的角度要怎么做?

    电子设备、wifi、5G和互联网的发展,给短视频创造了良好的外部条件。以前手机内存不足,手机很卡,网络不好,wifi普及不全面,别说视频,就连图片打开都得半天。...

    布谷安妮
  • 短视频系统源码APP开发由哪些功能模块组成?

    近年来,随着新媒体技术的快速发展,短视频系统源码APP,如今已经成为一种网络传播主流。短视频的快速兴起,究其原因,既有其形式的简约、技术的成熟等基础性因素,也源...

    布谷安妮
  • 了解短视频系统开发的详细功能再进行搭建部署

    互联网的发展每天都在不断变化,可能稍不注意就会被挤出市场。但是在各种压力下人们也渴望找到一个缓解的“出口”,所以短视频软件开发成为了那个“出口”。我们只知道短视...

    布谷安妮

扫码关注云+社区

领取腾讯云代金券