机器学习算法可帮助政府对信息进行保密分类

美国麻省理工学院《技术评论》杂志发表文章称机器学习算法可以帮助政府完成保密信息的分类工作。

美国国务院每年产生的电子邮件约20亿封,其中很大一部分含有敏感或机密信息,因此必须进行分类。这项工作既耗时又费钱,仅2015年一年美国政府就花了160亿美元来保护机密信息。但这种分类过程的可靠性尚不清楚,没有人知道信息分类制度能否得到一致遵守。事实上,对于应该分类管理哪些信息这一点都存在重大争议。官方机密文件的错误分类主要是人为错误,但没有人知道这些错误的影响有多大。

如今巴西智库圣保罗瓦加斯商学院的Renato Rocha Souza等人的研究改变了这一现状,他们使用机器学习算法对美国国务院自上世纪70年代收到的超过一百万条电报进行了研究。

该研究对官方机密信息的性质提供了前所未有的见解,揭示了人类如何应用规则,以及因错误信息分类导致敏感信息被披露或无害细节被隐藏的频率有多高,他们的算法还以电报丢失的方式披露了可疑模式。

该团队以一百万条电报为样本,这些电报是从美国国家档案馆下载的XML格式数据。每条电报都是国务院和外国使馆交流的文本信息。这些电报被标记为“机密”、“秘密”、“限制性官方使用”或“未分类”四类。机密信息被定义为有可能严重损害国家安全,秘密信息被定义为有可能造成损害,但非严重损害,关于“限制性官方使用”类别的界定至今仍有争议。

电报还含有其他信息,每条消息都有日期、发送者、接收者和主题,当然还有信息内容,Souza和其同事使用各种机器学习方法来确定这些因素如何与分类标签相关联。在发现了这种相关性之后,他们对算法进行了测试,研究其能否预测给定的电报是否被分类。

测试结果非常有趣。Souza和他的同事们说,信息本身是评价是否对电报进行分类的最佳指标,在所有的特征中,信息中各种词出现的相对频率在识别敏感信息中最有用。发送者和接收者的数据也是评价敏感水平的良好指标,但可能导致算法将许多电报误分类,即很高的假阳性率。

当机器学习算法结合各种元数据进行决策时,它可以发现90%的机密电报,假阳性率仅为11%。Souza和同事称,如果将仍在保密阶段的电报内容纳入研究,效果会更好。

假阳性和假阴性本身很有趣,假阳性是指机器预测出有些电报已被归类为机密信息,但实际却不是,假阴性正好相反。该研究中,机器揭示了多条被认为错误分类的电报,例如有一条电报内容是日本政府对美国检查其核设施保持警惕,这条电报未被归类为机密信息,但其文本显示应为保密信息。

一个数据上的限制是许多电报已经丢失,表面上看是在转换为电子格式的过程中发生了丢失,而该研究表明这些信息也可能是因为其他原因而丢失。其中一条线索是:已归类和未被归类为机密的电报信息的丢失比例差异很大,Souza与其同事表示:“与未分类的和限制性官方使用的信息相比,被归类为‘机密’的电子信息丢失的几率要高出三倍以上。”这些丢失的电子版电报的相关元数据往往还存在,而出现这种情况的原因不得而知。

此外,如果信息在从一种格式转换为另一种格式时丢失,则最有可能是在国务院安装新数据存储系统时发生。该团队指出,值得注意的是,这些丢失的大多数电报未能录入国务院部署的新系统,当时人们可能认为这是一种可以在不同的硬件和软件平台之间进行可靠数据传输的方式。

该研究对保持透明度与保密性之间的平衡有重要启示。机器有助于监视数据分类工作,但其表现通常不能超过其学习的数据库的水平,如果这些数据库含有错误信息,机器学习也失去了意义。

一个有趣的问题是,如果这种机器学习揭示的行为模式可能会损害国家利益,其数据本身是否应该被归类为机密信息呢?例如,机密信息的假阳性率对于那些试图从未分类的电报中收集机密信息的其他大国而言可能有利用价值。

显然,还有更多的工作要做。Souza和同事说,尽管国务院在保护分类信息方面花费巨大,但关于信息分类统一性的研究还很少甚至没有,并且对这种机器学习的信息挖掘能力也缺乏认识。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-12-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

数据挖掘这些年,这些算法,这些反思

写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是,由于boss不在,我们讨论讨论着就...

2826
来自专栏机器之心

资源 | 横向对比5大开源语音识别工具包,CMU Sphinx最佳

选自svds 作者:Cindi Thompson 机器之心编译 参与:李泽南、Smith 目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了...

3956
来自专栏大数据挖掘DT机器学习

基于微软案例数据库数据挖掘知识点总结(Microsoft 决策树分析算法)

随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结。 应用场景介绍 其实数据挖掘应...

2865
来自专栏Windows Community

UWP 手绘视频创作工具技术分享系列 - 有 AI 的手绘视频

AI(Artificial Intelligence)正在不断的改变着各个行业的形态和人们的生活方式,图像识别、语音识别、自然语言理解等 AI 技术正在自动驾驶...

35312
来自专栏华章科技

干货:如何构建用户画像

用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如:

944
来自专栏数据科学与人工智能

【数据分析】用户画像,这么构!

从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据...

3629
来自专栏数据科学与人工智能

【数据可视化】大牛深度解析大数据可视化、可视分析案例

大数据可视化是个热门话题,在信息安全领域,也由于很多企业希望将大数据转化为信息可视化呈现的各种形式,以便获得更深的洞察力、更好的决策力以及更强的自动化处理能力,...

5177
来自专栏大数据文摘

资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!

24510
来自专栏FreeBuf

物理Hacking之通过摄影收集情报

*免责声明:本文提供的工具和方法仅供安全研究用途,禁止非法用途 介绍 在渗透过程中的第一阶段就是尽可能的多收集关于目标的信息。实际上这是进行渗透时最关键的步骤之...

1815
来自专栏智能算法

配视觉系统的直角坐标机器人的应用实例

一 . 直角坐标机器人的定义及主要特点 机器人按ISO 8373定义为:位置可以固定或移动,能够实现自动控制、可重复编程、多功能多用处、末端操纵器的位置要在...

3399

扫码关注云+社区