Imperva创新机器学习:领先威胁一步

在过去的两年里,企业生产的数据量超过了之前整个人类历史创造的数据总和。要为如此大规模的数据提供安全保障,专家们不得不重新思考,该以何种方式决定敏感文件的授权与撤销;更加重要的是,该如何识别和追踪不可避免的异常访问,并排查出哪些是真正具有危险的行为。

对于数据安全而言,最为关键的问题就是:“这个行为正常吗?如果不正常,那么它是被允许的吗?”Imperva的机器学习创新技术可以为这一问题提供答案。机器学习把模式识别算法应用在每一位用户的每一次SQL查询上,把内部威胁扼杀在摇篮之中。

数据安全中的机器学习

机器学习作为一种人工智能,可以让计算机检测出各种模式,并使用通过训练或观察而习得的算法来建立行为基线。机器学习可以大规模地处理和分析人力难以把握的大量数据,而提供人类可以理解的分析结果。

传统的安全控制通常基于最小访问特权模型。这个模型在理论上是成立的,但是在实践中却很难得到大规模的实现。要想以人工的方式决定每个用户对每种数据具体的访问权,本身就足够令人望而却步了。而在此基础之上,还要从访问日志中筛选并识别出潜在的不良行为,这就更难以实现了。即使是在一个只有50到200个数据库的小企业环境中,这个过程也会让20人规模的IT部门难以招架。而在更大的企业中,数据库的数量很可能达到1万以上。

好消息是,机器学习有望减轻这份负担。对机器学习而言,更多的信息意味着更多的学习燃料。系统学习更多的输入,就能通过学习给出更高质量的结果。

话虽如此,机器学习的有效应用依然要求人类大脑的参与,需要透彻理解他们想要解决的问题并可以把恰当的算法应用在恰当的问题上。算法并不是万能钥匙,而企业结构也不都是一样的。真正创新式的机器学习必须更进一步。

上下文中的机器学习

简单的机器学习可以处理日志文件并解读访问行为模式;可是,仅仅根据何人在何时登录何种资源来生成行为模型,是远远不够的。在数据安全的问题领域中,真正的需求是对潜在的恶意数据滥用提早一步的识别,这就需要机器学习更深地了解被访问的具体数据。

机器学习可以把建立数据访问模式基线的手动进程自动化。使用模式识别,机器学习可以识别对等群组中个体的正常行为,还可以动态地学习真正有效的对等群组,而摆脱对于静态的“组织结构图”的依赖——后者极少能够反映人们的真实工作状态。

过去几年,人工智能与机器学习在模式识别上取得了显著的进展。例如,Facebook的机器学习应用,不仅可以识别图像中有什么,而且还能识别场景的上下文,以及其中是否包含其它已知的实体或地标。同理,Imperva设计师在数据集合上应用了恰当的机器学习算法,创造了一个检查对等群组分支使用模式的系统。这个技术已经超出了识别登录和访问时长的范畴,可以针对性地识别和建立正常的用户数据访问行为,可以轻松过滤出潜在的有危险的行为,避免其损害企业数据。

对于安全团队而言,关键的问题在于:在一次个人访问中,发生了什么,行为是否良好?他们需要制作一份事件清单,以备适当规模的SOC团队调查。出于实用性的考虑,得出的数据必须满足三点要求:有限性,保证团队可以轻松地消化信息:精确性,排除噪音,提高信度;以及上下文的丰富性,让调查无须从零开始。

让机器学习更聪明

Imperva开发者通过把机器学习算法的丰富知识和关于构成不同种类用户不当数据访问行为的特定专业知识相结合,达到了三个目标。

利用模式识别算法处理数据安全信息,与Facebook图像识别相似,只不过识别的对象换成了上下文中的数据访问模式,包括上万名员工的账户,以及每天上百亿次的个人数据访问。基于行为的群组自动识别,可以精确定义每个用户的访问权限,并根据用户与企业文件的交互变化进行动态调整。在对比试验中,Imperva应用机器学习动态对等群组分析算法,发现了大量其他方式无法注意到的问题。

以往,大多数机器学习应用都从很高的视角观测数据访问,比如:王刚在星期二上午8点12分登入了一个特定的数据库,并在8点39分登出。可是它们无法确定王刚在那27分钟内真正做了些什么,所以很难判定行为模式是否正常,是否存在潜在的数据滥用。

而Imperva机器学习在理解模式识别算法的基础上,可以更加聪明地识别威胁数据的用户行为模式。检查每个用户的每次SQL查询,意味着机器学习不仅可以识别王刚在何时登录了多长时间,而且更为重要的是,还可以学习到他访问了什么。然后,我们可以参照他的对等群组,比较他的行为与其他人的行为,最终判定数据访问到底是正常的,还是不正常的。

大规模、动态化、结合上下文与专业知识的机器学习,能够提早适应新兴的威胁形态,永远领先一步,提早预防数据违规。

郑重声明:中国软件资讯网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。中国软件资讯网不负责其真实性 。

本文来自企鹅号 - 中国软件资讯网媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

OpenAI:人工智能程序在Dota2的5V5比赛在中击败人类玩家

国外人工智能团队OpenAI在一篇博客文章中透露,为Dota 2设计的最新版本AI击败了五支业余选手团队,其中包括一个由Valve员工组成的团队。上一代 Ope...

964
来自专栏新智元

PNAS | 神经所龚能、蒲慕明合作研究:恒河猴自我意识最新进展

【新智元导读】“镜像测试”是检测自我识别和自我意识的常用方法,过去只有人类和少数类人猿等通过该测试。中科院神经科学研究所的龚能博士团队与蒲慕明研究员近日发现,当...

2817
来自专栏腾讯高校合作

卡耐基梅隆大学刑波教授做客“腾讯大讲堂”

‍‍‍‍作为2014年国际机器学习大会(ICML2014)的合作伙伴,腾讯有幸邀请到大会主席,卡耐基梅隆大学刑波教授(Eric Xing)访问腾讯。访问期间,E...

2835
来自专栏量子位

谷歌大脑揭秘:48名成员20大研究领域(认猫事件距今已五年整)

李根 若朴 李林 发自 凹非寺 量子位 报道 | 公众号 QbitAI 人类第一次发现猫的记录已无从查证,但机器第一次“发现”猫是在5年前的今天。 当是时,谷歌...

2595
来自专栏数据科学与人工智能

【数据科学家】如何成为一名数据科学家?

一、数据科学家的起源 “数据科学”(DataScience)起初叫”datalogy “。最初在1966年由Peter Naur提出,用来代替”计算机科学”(丹...

2156
来自专栏机器之心

专栏 | 滴滴KDD2017论文:基于组合优化的出租车分单模型

机器之心专栏 机器之心编辑部 数据挖掘顶会 KDD 2017 已经开幕,国内有众多来自产业界的论文被 KDD 2017 接收。本文是对滴滴 KDD 2017 论...

3108
来自专栏吉浦迅科技

NVIDIA推出人工智能引擎DRIVE PX 2 抢攻自动汽车市场

NVIDIA 于绘图卡市场称皇称霸,市场巩固,近年积极向多元化发展,除了早前涉足 VR 市场, 5 日宣布推出全球车载」 ,加速自动车驾驶进展,其采用 NVID...

3255
来自专栏PPV课数据科学社区

大数据时代统计学发展的若干问题

作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌 本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”...

2706
来自专栏机器之心

Python扩大领先优势,PyTorch仅占6.4%:2018年数据科学语言&工具排名

1196
来自专栏IT大咖说

Kubeflow用户研究:Data Scientist是一群什么生物?

内容来源:2018 年 04 月 22 日,Pinlan创始人兼CEO李一帆在“全球首发| Kubeflow Meetup 4.22 杭州场,开拓 AI 新视野...

902

扫码关注云+社区