现今使用的安全系统通常分为两类:基于人或机器的安全系统。所谓“分析师驱动的解决方案”(analyst-driven solutions)基于的是真人专家所建立的规则,因此会错过与规则不相匹配的攻击。此外,现今使用的机器学习方法基本是依赖于“异常检测”,而这往往会引发误报,造成对系统的不信任并最终不得不由人亲自调查。那么有没有可能将这两类方案合并?合并之后会怎样呢?
据美国麻省理工学院网站2016年4月18日报道,该校计算机科学与人工智能实验室(CSAIL)与机器学习技术新创公司PatternEx的研究人员在一篇新发表的论文中展示了一个名为AI2的人工智能平台,该平台可不断整合专家输入的信息,对网络攻击的预测效果大大优于现有系统。
该团队称,AI2平台能够检测出85%的网络攻击,约为过去检测水平的3倍,并将误报率减少了5倍。研究人员采用数百万用户在三个月内生成的36亿个“日志行”数据块对系统进行了测试。为了预测攻击,AI2采用非监督机器学习法让数据集变得有意义,从而进行数据梳理并发现可疑活动,然后将此类活动的信息传达给分析人员,由分析人员确认哪些是实际攻击,并将反馈信息集成到下一组数据的模型中去。
据研究人员Veeramachaneni称,该系统如同一个虚拟分析师,能够不断生成新的模型,并可在短短数个小时内对其进行优化,因此可以快速显著提高其检测率。Veeramachaneni在2016年4月纽约召开的IEEE大数据安全国际会议上向与会者介绍了一篇关于该系统的论文。在他看来,基于人与计算机方法的网络安全系统的研发并非易事,部分原因是因为这些算法要求对网络安全数据手动添加标签,这一点很具挑战性。
例如,开发人员在开发一种能够准确识别对象的计算机视觉算法时只需完成简单的数据标签:只需招几个志愿者给图片添加“对象(objects)”或“非对象(non-objects)”标签,并将数据输入算法即可。但在网络安全任务中,一般人根本未掌握在Amazon Mechanical Turk等众包网站上应用“分布式拒绝服务(DDOS)”或“数据渗漏攻击(exfiltration attacks)”标签这一技能,需要由安全专家完成这项工作。
这就引出了另一个问题:专家们都很忙,不可能成天审查那些可疑数据。已有公司打算放弃这些工作量巨大的平台工作,因此一个高效的机器学习系统必须能够在不消耗大量人力的情况下实现自动优化。
AI2的秘密武器在于其结合了三种不同的非监督学习方法,将优先级最高的事件报告给分析师,让分析师添加标签,然后系统会构建一个监督模型,该模型可通过一个“持续主动学习系统”不断完善。AI2在学习的第一天采集了200个异常事件并报告给专家。经过不断优化后,AI2能够识别越来越多的实际攻击事件,也就意味着数日后,分析师每天只需查看三四十个事件。
美国圣母大学的一位教授认为,该研究结合了分析师直觉和机器学习的优点,并最终降低了误报和漏报率,其研究成果可用于防御欺诈、服务滥用和账户侵权等攻击,这些攻击是现今一些面向用户的系统需要攻克的主要难题。
AI2每天可扫描数十亿日志行,数据转换速度以分钟计。系统检测到的攻击事件越多,其接收到的分析师反馈信息就越多,进而可提高未来预测的准确度。