他们如何做大数据、人工智能 | RSA 进阶篇

中国计算机学会今天在北京主办了 RSA2017热点研讨会,RSA作为全球信息安全峰会,一直备受国内关注,会议是快速了解全球安全趋势的风向标,更是影响安全产业转型与持续发展的重要会议平台。腾讯云安全的技术专家参会后也对会上热点进行了总结,特别关注了云安全这个方向。本文是参会同事在内部的一个分享,综合整理,主要从云安全的重要性在迅速提升、关于大数据AI的应用案例、国外公司如何使用大数据、AI来做安全、以及一些大数据、AI在未来发展的总结几大方面进行解读。

此文更适合你收藏后仔细品读 ^_^

开篇

本届大会以“POWER OF OPPORTUNITY”为主题,邀请到了各地著名的安全专家出席与分享,汇集全球超过500家顶级安全厂商参展。

本届所有的演讲分类主要有17个分类: 

人气爆棚的RSA大会,参会人数超过了4W。大家一起感受一下RSA博览会的人流:

见闻

云安全的重要性在迅速提升

今年Cloud Security Alliance (CSA)举办了全天的云安全论坛,此论坛的人气都比其他论坛都要高出不少(会场面积基本是其他论坛的三倍,并且人数爆满)。不少人都在说后续越来越多的安全领域都会与云安全发生联系,一天的时间就不够了。会议上提到几个比较重要的观点为:

  • 认为云上更安全的IT人数已经开始占据主流;
  • 企业在公有云上的投入将会和自建机房持平(笔者认为是在美国范围内看成立,大陆内还没到达该阶段)。只要云上安全性有所保障,企业上云的速度将会大大提升;
  • 云上数据合规、隐私保护等安全问题需企业方和云平台方共同协作,但企业需要对此负责;
  • 身份认证是新的云安全边界,基于防火墙的边界已经消亡。当访问云资源时,多因素认证是最低的要求;
  • 云安全需要引入自动化机制来提升可运营性;数据治理已成为必需品;

安全合作方能产生价值

今年的RSA主题中强调了UNITY这个概念,也即是联合、合作的意思。

在RSA大会的开幕式中,RSA CTO Zulfikar Ramzan博士讨论了具有政治动机的网络攻击的影响,呼吁企业进行情报数据共享,并呼吁公司在公共和私有层面进行更多的合作以抵御攻击,确保组织、基础设施和社会机构具备弹性。

网络威胁联盟(Cyber Threat Alliance) 也专门带来了演讲《Could 7.4Bn+ Collaborate Together against the Bad Minority?》,一同讨论情报共享的价值,并向听众讲解了情报共享的机制、系统和协议。

但从可操作性来看,情报的共享在业界还是存在很多的争议,并且可能会对数据的隐私性带来不小的冲击,真正意义上的合作共享还是任重而道远。

没有不提大数据、人工智能的安全公司

前几年的RSA中,安全公司都在提用户行为分析、异常检测,今年大数据+人工智能(以下称“大数据AI”)成为了绝对的热点。从业人员对此表示了很大的热情,并普遍认为大数据AI能够:

  • 能够解决一切安全问题(apt攻击、ddos攻击、数据泄露、欺诈等);
  • 目前已经广泛地投入了生产环境(从各个安全公司的产品介绍均能看到);
  • 能够大幅缩减安全运营人力;
  • 具有很好的恶意识别率和很低的误杀率;
  • 具有很高的检出时效性;

但从Google、微软等行业巨头的演讲中,和腾讯云安全的亲身实践来看,目前大数据AI还在婴儿学步的阶段,目前也只在少数领域进行了应用。从实际应用效果来看,大数据AI确实表现出了很强大的能力,但离人们的期望还有很长的路要走。下面将会针对大数据AI进行更为详细的讲解。

关于大数据AI的应用案例

首先来看看各家对于大数据AI的看法和应用:

Alphabet(Google母公司)

Alphabet的执行主席Eric Schmidt以“The Great A.I. Awakening”作为主题,谈了自己对AI发展现状的看法。Google的战略已经从”移动优先”迁移到了”AI优先”,但这并不意味着Google放弃了移动,而是将AI更多地应用于产品中,去解决商业问题。比如说Google使用了AI来:

  • 优化图片搜索引擎,Google使用了大量的样本来训练AI模型,让模型能够区分出来猩猩和狮子;
  • 优化数据中心的利用效率,目前在资源利用率已有15%的提升;
  • 对人进行健康诊断和制定治疗报告,并预测未来的健康状况;
  • 优化语音识别和视觉识别技术,并且能力将会远超人类的能力(因为计算机能不知疲倦地处理海量数据);

Eric同样谈到了针对AI的误解和担忧:

  • AI会具有自我思维并威胁人类吗?Eric谈到AI正在做人们让他们做的事情,系统目前还不会自行思考,目前AI正处于婴儿学步阶段,接近这个地步还遥遥无期,目前我们不会面临任何风险;
  • 目前的公司对自己的研究成果丝毫不愿透露和分享。但Alphabet观点相反,会开放一个完全开放和透明的生态,这个生态能够更快地自我完善。可能安全工程师会说我能自己建立一个完美并且闭环的防火墙,但最终会发现这并不完美也不闭环。只有开放了才能做到;

Microsoft Azure

微软Azure的首席技术官Mark Russinovich讲解了如何采用AI(基本等同于机器学习)技术来分析失陷主机。

  • 传统的分析方法会使用人工的规则来对主机行为数据进行判定;AI的方式只需要向模型输入大量好标记好的数据进行训练,那么AI系统就能训练出分类模。此过程为有监督学习。
  • 那么为了分析失陷主机,需要向AI模型输入哪些标签数据呢?每一种标签数据都至少有上百万的样本,样本基本都是来源于专家经验进行的标记,并且样本的标记的准确性对模型训练非常重要,数量越多对模型的训练效果越好。
  • 微软认为成功的AI方案需要具备可扩展性、成功检测、可解释性、可执行性这四要素。
  • 微软采用Gradient Boosting算法,并采用了多轮训练的机制来提升有监督分类模型的能力(也即是减少False Positive和False Negative)。
  • 从效率上看,微软重新训练一次模型(360G的数据)只需要几分钟的时间,并且每天都会针对主机的流量数据进行多次分类,每次分类只需要几秒钟的时间,如果发现主机失陷那么就会邮件告知服务器的所有者;
  • 从效果上看,只用IPFIX+基于规则的模型,只能识别到55%的失陷主机,然而在添加了AI模型和O365的标签数据后,模型能够覆盖81%的失陷主机,并且错误率还能够保持在1%的水平,可见AI的能力还是不错的;

滑铁卢大学

滑铁卢大学的助理教授Mark Crowley和Infosec研究员Jennifer Fernick讲解了如何使用机器学习来构建多维用户模型,以执行近实时异常检测。

  • 机器学习(AI)的目的是发现未覆盖的模式,学习这些模式并对未来的数据进行预测。在安全领域,AI可以去发现新的恶意模式,通过人工对发现的异常样本打上标签并进行学习(得到分类模型),并对后续的数据进行预测。
  • 机器学习可分为无监督学习和有监督学习,前者用于探索数据(比如说搜寻新的恶意),后者用于对数据进行分类(比如说对新产生的用户行为进行恶意判定),对比如下图所示:

笔者早在出行前就约好了两家大数据AI的公司进行沟通交流,我们看看他们是怎么做的:

 Data Visor(以下简称DV)

DV提供领先的欺诈检测方案,方案主要使用无监督学习来识别恶意账号的攻击,在损害发生前就抓住恶意。方案适用于银行业务、面向用户的网站业务、移动应用业务。他们并不依赖于事先发生过的恶意攻击样本。

据CEO介绍,DV是使用了用户行为的多维度数据,在高维空间内进行聚类,得到若干的聚簇。并通过人工分析,标记出正常和异常的聚簇。如果后续新的行为落入了异常聚簇,或者是自成一个新的聚簇,那么都可以认为是异常的行为。在进行用户行为判定的时,DV的某些客户会认为:使用聚簇的归属来判定恶意会让人难以理解。为解决此问题,DV将聚簇翻译成人工规则进行识别(比如说如果某一批账号在某一段时间内,在某些IP上操作,那么就是恶意的)。

CEO在轻描淡写的介绍中让人很清晰地理解了DV的原理,然而在这背后确是很成熟的特征提取处理、无监督学习、海量大数据并发处理技术。目前腾讯云安全已经展开了和DV在技术层面的合作。

CEO兼创始人谢映莲(左二)和CTO兼创始人俞舫(左一),她们分别毕业于卡内基梅隆大学和加州大学,均拥有计算机的博士学位,并在微软都有多年的网络安全从业经验。两位美女创始人非常热情地接待了笔者。

PatternEx(以下简称PE)

PE是一家使用AI技术来做信息安全的公司(比如说DDoS攻击、数据爬取、垃圾消息等)。PE的系统会实时对用户行为进行检测,并通过无监督学习引擎自动感知可疑样本。感知的高可疑样本会送往安全专家进行判定(引擎会挑选具有代表性的样本,这个样本可以代表一类的恶意),判定结果将会送回模型训练器训练有监督分类模型。训练好的模型再继续对实时的流数据进行恶意判定和可疑感知。

据该公司CEO介绍,PE在特征选取处理、异常样本的选取、少量样本快速训练高质量模型上具备核心优势,使用了PE的引擎后只需要有人工进行恶意标注即可,对安全专家的依赖性会大幅下降。

该公司多名员工都具备MIT的博学学历,据称在Machine Learning领域的能力非常强悍。笔者和PatternEx的CEO、CRO、首席数据科学家、首席销售官对该公司的AI产品进行了交流,随后笔者还介绍了腾讯云安全-天御产品的能力和在AI上的尝试,并探讨了腾讯和PatternEx合作的可能性。目前合作已在进行中。

一些大数据AI在未来发展的总结

  • 大数据AI其实还处于婴儿学步的阶段,离人们认为的具备自主思考还有漫长的道路要走;
  • 大数据AI需要具备机器学习+大数据处理+行业背景的人才,这方面人才极为稀缺,门槛较高,后续大数据AI SAAS服务将会成为趋势;
  • 大数据AI还是非常依赖人工参与,并且效果受制于训练样本的质量;

一个共识为:AI只有在拥有大量高质量训练样本的情况下才能很好地工作。然而高质量样本的生成,本省就需要耗费很多的人力进行标注。如何将标注和机器学习做得更轻快,还需要进行大量的研究。

  • 大数据AI在安全上的应用上存在一定的风险。 虽然有监督的分类模型效果很好。但在分类的时候,其可解释性比较差(所以DV公司会将模型转化成规则)。并且模型的训练周期一般以天为单位,在恶意的应对上还是存在效率的问题,并且在存在误杀的情况下也很难及时调整模型来适应。
  •  大数据AI虽然有很多的难点和问题,但值得做更多的投入 从各公司的介绍来看,AI都对安全有比较可喜的提升(恶意识别能力提升、人工运营成本下降),企业应在大数据AI上投入更多资源。

写在最后

如何在安全上成功运用大数据AI?笔者可以认为几点不可或缺:

1. 首先要拥有海量的大数据

2. 拥有对大数据进行高效处理的能力

3. 拥有将数据转换成高质量安全模型的能力

腾讯云安全天御,基于腾讯集团全业务线产生的数据进行分析和挖掘,沉淀出高质量的恶意库,并结合自研的AI安全模型对外输出业务安全能力,为金融、电商、O2O、直播等行业提供专业的业务安全服务,为企业解决业务被滥用的问题。后续笔者将会输出专题文章,系统性地介绍天御的大数据AI能力,敬请期待。

原文发布于微信公众号 - 腾讯云安全(TencentCloudSecurity)

原文发表时间:2017-03-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

您的位置信息如何被利用?——基于位置信息的应用和地理信息匹配算法

最近有段视频很火,《CCTV重磅新闻:美国超级间谍潜入中国!就在你身边》!描述了借助iPhone手机的定位功能,记录了您的所有行踪。

853
来自专栏大数据文摘

脑洞 | AI之间有一场“搏击赛”,邪恶 AI 能否被战胜?

1813
来自专栏企鹅号快讯

为什么神经网络会把乌龟识别成步枪?现在的 AI 值得信任吗?

概要:人工智能的快速发展的确值得欣喜,但快速发展的背后还有各种不完善的地方。 人工智能的快速发展的确值得欣喜,但快速发展的背后还有各种不完善的地方。比如,前不久...

1786
来自专栏数值分析与有限元编程

“The Scientific Paper Is Obsolete”

这是《大西洋月刊》的一篇文章的标题,因此加了引号。意思是科研论文已经过时了。作者的观点是:

1032
来自专栏深度学习

AI 领域最最稀缺的人才——人工智能架构师

这里,就不卖关子了。AI领域最最最最最稀缺的人才应该为人工智能架构师。有过4次技术创业经历,如今做AI投资的星瀚资本创始合伙人杨歌如是说。 在杨歌的身上,传奇的...

5727
来自专栏人工智能头条

深度学习:生成艺术的新范式与版权的烦恼

991
来自专栏达观数据

达观数据自然语言处理技术,提升科技企业文档管理效率

在这个人工智能备受推崇的时代,即便如华为这样的大型科技企业也无法忽视人工智能的正向作用,因为时代在召唤,科技的助推只会帮助企业更好地释放价值。 企业堆积海量信...

45710
来自专栏全栈数据化营销

详解RFM客户价值模型,送你20个企业战略和竞争分析模型

不会模型,做不了分析! 最近在做一个比较大型公司的案子,涉及到营销、销售、架构、财务等各方面的分析和研究,不得不说,在信息量很大、分析维度很多的时候,有准确的分...

43213
来自专栏机器之心

学界 | 谷歌联手OpenAI等发布可视化机器学习平台Distill,创始人详述创立背景

机器之心报道 参与:微胖、蒋思源 传统学术发表形式是 PDF 文件。但是,这种文件形式阻碍社区以一种新的互动创造性的方式共享科研成果。Distill 是一个现代...

3489
来自专栏新智元

滴滴研究院副院长叶杰平:深度学习在交通领域应用潜力巨大【北大AI公开课第9讲】

【新智元导读】 在北大 AI 公开课第9讲上,滴滴出行副总裁、滴滴出行研究院院长叶杰平老师,和北大人工智能创新中心主任、曾经的“百度七剑客”之一雷鸣老师一道,为...

4026

扫码关注云+社区