人工智能平台可有效预测网络攻击

现今使用的安全系统通常分为两类:基于人或机器的安全系统。所谓“分析师驱动的解决方案”(analyst-driven solutions)基于的是真人专家所建立的规则,因此会错过与规则不相匹配的攻击。此外,现今使用的机器学习方法基本是依赖于“异常检测”,而这往往会引发误报,造成对系统的不信任并最终不得不由人亲自调查。那么有没有可能将这两类方案合并?合并之后会怎样呢?

据美国麻省理工学院网站2016年4月18日报道,该校计算机科学与人工智能实验室(CSAIL)与机器学习技术新创公司PatternEx的研究人员在一篇新发表的论文中展示了一个名为AI2的人工智能平台,该平台可不断整合专家输入的信息,对网络攻击的预测效果大大优于现有系统。

该团队称,AI2平台能够检测出85%的网络攻击,约为过去检测水平的3倍,并将误报率减少了5倍。研究人员采用数百万用户在三个月内生成的36亿个“日志行”数据块对系统进行了测试。为了预测攻击,AI2采用非监督机器学习法让数据集变得有意义,从而进行数据梳理并发现可疑活动,然后将此类活动的信息传达给分析人员,由分析人员确认哪些是实际攻击,并将反馈信息集成到下一组数据的模型中去。

据研究人员Veeramachaneni称,该系统如同一个虚拟分析师,能够不断生成新的模型,并可在短短数个小时内对其进行优化,因此可以快速显著提高其检测率。Veeramachaneni在2016年4月纽约召开的IEEE大数据安全国际会议上向与会者介绍了一篇关于该系统的论文。在他看来,基于人与计算机方法的网络安全系统的研发并非易事,部分原因是因为这些算法要求对网络安全数据手动添加标签,这一点很具挑战性。

例如,开发人员在开发一种能够准确识别对象的计算机视觉算法时只需完成简单的数据标签:只需招几个志愿者给图片添加“对象(objects)”或“非对象(non-objects)”标签,并将数据输入算法即可。但在网络安全任务中,一般人根本未掌握在Amazon Mechanical Turk等众包网站上应用“分布式拒绝服务(DDOS)”或“数据渗漏攻击(exfiltration attacks)”标签这一技能,需要由安全专家完成这项工作。

这就引出了另一个问题:专家们都很忙,不可能成天审查那些可疑数据。已有公司打算放弃这些工作量巨大的平台工作,因此一个高效的机器学习系统必须能够在不消耗大量人力的情况下实现自动优化。

AI2的秘密武器在于其结合了三种不同的非监督学习方法,将优先级最高的事件报告给分析师,让分析师添加标签,然后系统会构建一个监督模型,该模型可通过一个“持续主动学习系统”不断完善。AI2在学习的第一天采集了200个异常事件并报告给专家。经过不断优化后,AI2能够识别越来越多的实际攻击事件,也就意味着数日后,分析师每天只需查看三四十个事件。

美国圣母大学的一位教授认为,该研究结合了分析师直觉和机器学习的优点,并最终降低了误报和漏报率,其研究成果可用于防御欺诈、服务滥用和账户侵权等攻击,这些攻击是现今一些面向用户的系统需要攻克的主要难题。

AI2每天可扫描数十亿日志行,数据转换速度以分钟计。系统检测到的攻击事件越多,其接收到的分析师反馈信息就越多,进而可提高未来预测的准确度。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

数据驱动决策的13种思维

“数据驱动决策”,为了不让这句话成为空话,请先装备以下13种思想武器,相信将来你一定能用上! 第一、信度与效度思维 这部分也许是全文最难理解的部分,但我觉得也...

3516
来自专栏人工智能快报

微软发布情绪识别API

2015年11月11日,微软宣布其Oxford项目将开放一个可用于情绪识别的API。微软一位负责技术与研究的人员表示该API可帮助市场营销人员评估顾客对商店展示...

3854
来自专栏数据科学与人工智能

【数据】数据驱动决策的13种思维

小编邀请您,先思考: 1 如何让数据驱动决策? “数据驱动决策”,为了不让这句话成为空话,请先装备以下13种思想武器,相信将来你一定能用上! 1. 信度与效度...

34910
来自专栏DT数据侠

数据分析1382份简历:就业性别歧视真的存在吗?

在求职时,性别真的有影响吗?不同行业、不同职业类别的人对此或许有不同看法。这样的看法是如何产生的?有没有一种科学的方法来衡量呢?美国旧金山的一位数据侠Prasa...

940
来自专栏机器之心

观点 | 除了学位证书,如何证明自己的深度学习实力?

选自fast.ai 作者:Rachel Thomas 机器之心编译 参与:蒋思源、晏奇 不是研究生,不是相关专业的我们又该怎样证明自己的深度学习技能?也许很多读...

2596
来自专栏BestSDK

大数据分析了1382份简历:女性求职被拒率,是男性的5.6倍

用大数据的方法来衡量职场的性别不平等 在科技业,求职时的性别不平等一直是个重要话题。但针对该议题,在实际操作层面却鲜有基于大数据的系统性研究。 对于那些拥有大...

37012
来自专栏华章科技

写给准数据人的数据世界入门指南

因为我做过交互设计——会画DEMO;和PD接触时间长——多少知道PRD怎么写;又给分析师提过需求——知道数据大概怎么回事……

746
来自专栏阮一峰的网络日志

泊松分布和指数分布:10分钟教程

大学时,我一直觉得统计学很难,还差点挂科。 工作以后才发现,难的不是统计学,而是我们的教材写得不好。比起高等数学,统计概念其实容易理解多了。 ? 我举一个例子,...

2826
来自专栏算法channel

一个合格的程序员真的要求英语非常好吗?

关于程序员是否要努力学好英语是个有趣的话题,有些人激进地认为程序员必须要学好英语,真的是这样吗?程序员如何正确地定位英语在计算机中的地位,给出一些个人看法。

500
来自专栏人工智能头条

大数据驱动下的微博社会化推荐

1995

扫码关注云+社区