他们如何做大数据、人工智能 | RSA 进阶篇

中国计算机学会今天在北京主办了 RSA2017热点研讨会,RSA作为全球信息安全峰会,一直备受国内关注,会议是快速了解全球安全趋势的风向标,更是影响安全产业转型与持续发展的重要会议平台。腾讯云安全的技术专家参会后也对会上热点进行了总结,特别关注了云安全这个方向。本文是参会同事在内部的一个分享,综合整理,主要从云安全的重要性在迅速提升、关于大数据AI的应用案例、国外公司如何使用大数据、AI来做安全、以及一些大数据、AI在未来发展的总结几大方面进行解读。

此文更适合你收藏后仔细品读 ^_^

开篇

本届大会以“POWER OF OPPORTUNITY”为主题,邀请到了各地著名的安全专家出席与分享,汇集全球超过500家顶级安全厂商参展。

本届所有的演讲分类主要有17个分类: 

人气爆棚的RSA大会,参会人数超过了4W。大家一起感受一下RSA博览会的人流:

见闻

云安全的重要性在迅速提升

今年Cloud Security Alliance (CSA)举办了全天的云安全论坛,此论坛的人气都比其他论坛都要高出不少(会场面积基本是其他论坛的三倍,并且人数爆满)。不少人都在说后续越来越多的安全领域都会与云安全发生联系,一天的时间就不够了。会议上提到几个比较重要的观点为:

  • 认为云上更安全的IT人数已经开始占据主流;
  • 企业在公有云上的投入将会和自建机房持平(笔者认为是在美国范围内看成立,大陆内还没到达该阶段)。只要云上安全性有所保障,企业上云的速度将会大大提升;
  • 云上数据合规、隐私保护等安全问题需企业方和云平台方共同协作,但企业需要对此负责;
  • 身份认证是新的云安全边界,基于防火墙的边界已经消亡。当访问云资源时,多因素认证是最低的要求;
  • 云安全需要引入自动化机制来提升可运营性;数据治理已成为必需品;

安全合作方能产生价值

今年的RSA主题中强调了UNITY这个概念,也即是联合、合作的意思。

在RSA大会的开幕式中,RSA CTO Zulfikar Ramzan博士讨论了具有政治动机的网络攻击的影响,呼吁企业进行情报数据共享,并呼吁公司在公共和私有层面进行更多的合作以抵御攻击,确保组织、基础设施和社会机构具备弹性。

网络威胁联盟(Cyber Threat Alliance) 也专门带来了演讲《Could 7.4Bn+ Collaborate Together against the Bad Minority?》,一同讨论情报共享的价值,并向听众讲解了情报共享的机制、系统和协议。

但从可操作性来看,情报的共享在业界还是存在很多的争议,并且可能会对数据的隐私性带来不小的冲击,真正意义上的合作共享还是任重而道远。

没有不提大数据、人工智能的安全公司

前几年的RSA中,安全公司都在提用户行为分析、异常检测,今年大数据+人工智能(以下称“大数据AI”)成为了绝对的热点。从业人员对此表示了很大的热情,并普遍认为大数据AI能够:

  • 能够解决一切安全问题(apt攻击、ddos攻击、数据泄露、欺诈等);
  • 目前已经广泛地投入了生产环境(从各个安全公司的产品介绍均能看到);
  • 能够大幅缩减安全运营人力;
  • 具有很好的恶意识别率和很低的误杀率;
  • 具有很高的检出时效性;

但从Google、微软等行业巨头的演讲中,和腾讯云安全的亲身实践来看,目前大数据AI还在婴儿学步的阶段,目前也只在少数领域进行了应用。从实际应用效果来看,大数据AI确实表现出了很强大的能力,但离人们的期望还有很长的路要走。下面将会针对大数据AI进行更为详细的讲解。

关于大数据AI的应用案例

首先来看看各家对于大数据AI的看法和应用:

Alphabet(Google母公司)

Alphabet的执行主席Eric Schmidt以“The Great A.I. Awakening”作为主题,谈了自己对AI发展现状的看法。Google的战略已经从”移动优先”迁移到了”AI优先”,但这并不意味着Google放弃了移动,而是将AI更多地应用于产品中,去解决商业问题。比如说Google使用了AI来:

  • 优化图片搜索引擎,Google使用了大量的样本来训练AI模型,让模型能够区分出来猩猩和狮子;
  • 优化数据中心的利用效率,目前在资源利用率已有15%的提升;
  • 对人进行健康诊断和制定治疗报告,并预测未来的健康状况;
  • 优化语音识别和视觉识别技术,并且能力将会远超人类的能力(因为计算机能不知疲倦地处理海量数据);

Eric同样谈到了针对AI的误解和担忧:

  • AI会具有自我思维并威胁人类吗?Eric谈到AI正在做人们让他们做的事情,系统目前还不会自行思考,目前AI正处于婴儿学步阶段,接近这个地步还遥遥无期,目前我们不会面临任何风险;
  • 目前的公司对自己的研究成果丝毫不愿透露和分享。但Alphabet观点相反,会开放一个完全开放和透明的生态,这个生态能够更快地自我完善。可能安全工程师会说我能自己建立一个完美并且闭环的防火墙,但最终会发现这并不完美也不闭环。只有开放了才能做到;

Microsoft Azure

微软Azure的首席技术官Mark Russinovich讲解了如何采用AI(基本等同于机器学习)技术来分析失陷主机。

  • 传统的分析方法会使用人工的规则来对主机行为数据进行判定;AI的方式只需要向模型输入大量好标记好的数据进行训练,那么AI系统就能训练出分类模。此过程为有监督学习。
  • 那么为了分析失陷主机,需要向AI模型输入哪些标签数据呢?每一种标签数据都至少有上百万的样本,样本基本都是来源于专家经验进行的标记,并且样本的标记的准确性对模型训练非常重要,数量越多对模型的训练效果越好。
  • 微软认为成功的AI方案需要具备可扩展性、成功检测、可解释性、可执行性这四要素。
  • 微软采用Gradient Boosting算法,并采用了多轮训练的机制来提升有监督分类模型的能力(也即是减少False Positive和False Negative)。
  • 从效率上看,微软重新训练一次模型(360G的数据)只需要几分钟的时间,并且每天都会针对主机的流量数据进行多次分类,每次分类只需要几秒钟的时间,如果发现主机失陷那么就会邮件告知服务器的所有者;
  • 从效果上看,只用IPFIX+基于规则的模型,只能识别到55%的失陷主机,然而在添加了AI模型和O365的标签数据后,模型能够覆盖81%的失陷主机,并且错误率还能够保持在1%的水平,可见AI的能力还是不错的;

滑铁卢大学

滑铁卢大学的助理教授Mark Crowley和Infosec研究员Jennifer Fernick讲解了如何使用机器学习来构建多维用户模型,以执行近实时异常检测。

  • 机器学习(AI)的目的是发现未覆盖的模式,学习这些模式并对未来的数据进行预测。在安全领域,AI可以去发现新的恶意模式,通过人工对发现的异常样本打上标签并进行学习(得到分类模型),并对后续的数据进行预测。
  • 机器学习可分为无监督学习和有监督学习,前者用于探索数据(比如说搜寻新的恶意),后者用于对数据进行分类(比如说对新产生的用户行为进行恶意判定),对比如下图所示:

笔者早在出行前就约好了两家大数据AI的公司进行沟通交流,我们看看他们是怎么做的:

 Data Visor(以下简称DV)

DV提供领先的欺诈检测方案,方案主要使用无监督学习来识别恶意账号的攻击,在损害发生前就抓住恶意。方案适用于银行业务、面向用户的网站业务、移动应用业务。他们并不依赖于事先发生过的恶意攻击样本。

据CEO介绍,DV是使用了用户行为的多维度数据,在高维空间内进行聚类,得到若干的聚簇。并通过人工分析,标记出正常和异常的聚簇。如果后续新的行为落入了异常聚簇,或者是自成一个新的聚簇,那么都可以认为是异常的行为。在进行用户行为判定的时,DV的某些客户会认为:使用聚簇的归属来判定恶意会让人难以理解。为解决此问题,DV将聚簇翻译成人工规则进行识别(比如说如果某一批账号在某一段时间内,在某些IP上操作,那么就是恶意的)。

CEO在轻描淡写的介绍中让人很清晰地理解了DV的原理,然而在这背后确是很成熟的特征提取处理、无监督学习、海量大数据并发处理技术。目前腾讯云安全已经展开了和DV在技术层面的合作。

CEO兼创始人谢映莲(左二)和CTO兼创始人俞舫(左一),她们分别毕业于卡内基梅隆大学和加州大学,均拥有计算机的博士学位,并在微软都有多年的网络安全从业经验。两位美女创始人非常热情地接待了笔者。

PatternEx(以下简称PE)

PE是一家使用AI技术来做信息安全的公司(比如说DDoS攻击、数据爬取、垃圾消息等)。PE的系统会实时对用户行为进行检测,并通过无监督学习引擎自动感知可疑样本。感知的高可疑样本会送往安全专家进行判定(引擎会挑选具有代表性的样本,这个样本可以代表一类的恶意),判定结果将会送回模型训练器训练有监督分类模型。训练好的模型再继续对实时的流数据进行恶意判定和可疑感知。

据该公司CEO介绍,PE在特征选取处理、异常样本的选取、少量样本快速训练高质量模型上具备核心优势,使用了PE的引擎后只需要有人工进行恶意标注即可,对安全专家的依赖性会大幅下降。

该公司多名员工都具备MIT的博学学历,据称在Machine Learning领域的能力非常强悍。笔者和PatternEx的CEO、CRO、首席数据科学家、首席销售官对该公司的AI产品进行了交流,随后笔者还介绍了腾讯云安全-天御产品的能力和在AI上的尝试,并探讨了腾讯和PatternEx合作的可能性。目前合作已在进行中。

一些大数据AI在未来发展的总结

  • 大数据AI其实还处于婴儿学步的阶段,离人们认为的具备自主思考还有漫长的道路要走;
  • 大数据AI需要具备机器学习+大数据处理+行业背景的人才,这方面人才极为稀缺,门槛较高,后续大数据AI SAAS服务将会成为趋势;
  • 大数据AI还是非常依赖人工参与,并且效果受制于训练样本的质量;

一个共识为:AI只有在拥有大量高质量训练样本的情况下才能很好地工作。然而高质量样本的生成,本省就需要耗费很多的人力进行标注。如何将标注和机器学习做得更轻快,还需要进行大量的研究。

  • 大数据AI在安全上的应用上存在一定的风险。 虽然有监督的分类模型效果很好。但在分类的时候,其可解释性比较差(所以DV公司会将模型转化成规则)。并且模型的训练周期一般以天为单位,在恶意的应对上还是存在效率的问题,并且在存在误杀的情况下也很难及时调整模型来适应。
  •  大数据AI虽然有很多的难点和问题,但值得做更多的投入 从各公司的介绍来看,AI都对安全有比较可喜的提升(恶意识别能力提升、人工运营成本下降),企业应在大数据AI上投入更多资源。

写在最后

如何在安全上成功运用大数据AI?笔者可以认为几点不可或缺:

1. 首先要拥有海量的大数据

2. 拥有对大数据进行高效处理的能力

3. 拥有将数据转换成高质量安全模型的能力

腾讯云安全天御,基于腾讯集团全业务线产生的数据进行分析和挖掘,沉淀出高质量的恶意库,并结合自研的AI安全模型对外输出业务安全能力,为金融、电商、O2O、直播等行业提供专业的业务安全服务,为企业解决业务被滥用的问题。后续笔者将会输出专题文章,系统性地介绍天御的大数据AI能力,敬请期待。

原文发布于微信公众号 - 腾讯云安全(TencentCloudSecurity)

原文发表时间:2017-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

Smartcat为翻译自动化平台募集了700万美元

近年来,机器翻译变得越来越强大,无数的在线工具和应用程序可以作为自己学习新语言的艰难过程的不错选择。

711
来自专栏量子位

幻想AI自己打开黑箱?谷歌工程总监说:所谓解释,全是编的

李杉 编译整理 量子位 报道 | 公众号 QbitAI ? 假设你开发了一个AI,让它做决策。结果,你可能根本没办法知道这些决策的依据是什么。 这种失去控制力的...

3515
来自专栏互联网数据官iCDO

2018,营销所面对的5大阻碍(5):人工智能

最近由Resulticks进行的一项研究发现,人工智能是当今市场营销中最被过分夸大的术语。它在与大数据、全渠道、即时营销和个性化等流行词的激烈竞争中拨得头筹。 ...

2737
来自专栏新智元

盖茨、扎克伯格都看好的AI智适应教育,松鼠AI聚拢顶尖技术专家

1645
来自专栏AI科技大本营的专栏

2016:深度学习独领风骚的一年

作者: CADE METZ 编译: AI100 原文地址: https://www.wired.com/2016/12/2016-year-deep-lear...

33114
来自专栏CDA数据分析师

大数据AND机器学习:大数据是原材料,机器学习是原材料加工厂

导 读 大数据是原材料,机器学习是原材料加工厂,而新一代人工智能服务则是工厂出炉的产品被消费在越来越多的日常生活中。 在Deepmind和AlphaGo获得的...

18010
来自专栏AI科技评论

你离能够拥有一个“强AI”女友还有多久?让专家告诉你

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

27611
来自专栏AI科技大本营的专栏

机器学习到底能创造什么价值?我们精选了9位从业者的答案

来源 | HackerNews 编译 | 晓查 不温不火的机器学习忽然蹿红业界,也就是这两三年的事,于是不仅传统行业,连风光一时的互联网公司也开始疑惑:我们要不...

26911
来自专栏罗超频道

2014年百度瞄准图像搜索

摘要:李彦宏早在三年前便宣称“读图时代”的到来,而瀑布流、Pinterest、Snapchat等图片应用更是掀起了图片应用之风,图片已经成为移动设备最重要的内容...

2765
来自专栏人工智能快报

剑桥科学家用两百万段视频教会人工智能预测未来

人工智能系统可以预测场景如何展开,也可以设想不久的将来。 对于静止画面,深度学习算法生成的微视频可以预测接下来可能发生的场景。例如,如果展示的是一幅火车站的场景...

3537

扫码关注云+社区