机器学习算法可帮助政府对信息进行保密分类

美国麻省理工学院《技术评论》杂志发表文章称机器学习算法可以帮助政府完成保密信息的分类工作。

美国国务院每年产生的电子邮件约20亿封,其中很大一部分含有敏感或机密信息,因此必须进行分类。这项工作既耗时又费钱,仅2015年一年美国政府就花了160亿美元来保护机密信息。但这种分类过程的可靠性尚不清楚,没有人知道信息分类制度能否得到一致遵守。事实上,对于应该分类管理哪些信息这一点都存在重大争议。官方机密文件的错误分类主要是人为错误,但没有人知道这些错误的影响有多大。

如今巴西智库圣保罗瓦加斯商学院的Renato Rocha Souza等人的研究改变了这一现状,他们使用机器学习算法对美国国务院自上世纪70年代收到的超过一百万条电报进行了研究。

该研究对官方机密信息的性质提供了前所未有的见解,揭示了人类如何应用规则,以及因错误信息分类导致敏感信息被披露或无害细节被隐藏的频率有多高,他们的算法还以电报丢失的方式披露了可疑模式。

该团队以一百万条电报为样本,这些电报是从美国国家档案馆下载的XML格式数据。每条电报都是国务院和外国使馆交流的文本信息。这些电报被标记为“机密”、“秘密”、“限制性官方使用”或“未分类”四类。机密信息被定义为有可能严重损害国家安全,秘密信息被定义为有可能造成损害,但非严重损害,关于“限制性官方使用”类别的界定至今仍有争议。

电报还含有其他信息,每条消息都有日期、发送者、接收者和主题,当然还有信息内容,Souza和其同事使用各种机器学习方法来确定这些因素如何与分类标签相关联。在发现了这种相关性之后,他们对算法进行了测试,研究其能否预测给定的电报是否被分类。

测试结果非常有趣。Souza和他的同事们说,信息本身是评价是否对电报进行分类的最佳指标,在所有的特征中,信息中各种词出现的相对频率在识别敏感信息中最有用。发送者和接收者的数据也是评价敏感水平的良好指标,但可能导致算法将许多电报误分类,即很高的假阳性率。

当机器学习算法结合各种元数据进行决策时,它可以发现90%的机密电报,假阳性率仅为11%。Souza和同事称,如果将仍在保密阶段的电报内容纳入研究,效果会更好。

假阳性和假阴性本身很有趣,假阳性是指机器预测出有些电报已被归类为机密信息,但实际却不是,假阴性正好相反。该研究中,机器揭示了多条被认为错误分类的电报,例如有一条电报内容是日本政府对美国检查其核设施保持警惕,这条电报未被归类为机密信息,但其文本显示应为保密信息。

一个数据上的限制是许多电报已经丢失,表面上看是在转换为电子格式的过程中发生了丢失,而该研究表明这些信息也可能是因为其他原因而丢失。其中一条线索是:已归类和未被归类为机密的电报信息的丢失比例差异很大,Souza与其同事表示:“与未分类的和限制性官方使用的信息相比,被归类为‘机密’的电子信息丢失的几率要高出三倍以上。”这些丢失的电子版电报的相关元数据往往还存在,而出现这种情况的原因不得而知。

此外,如果信息在从一种格式转换为另一种格式时丢失,则最有可能是在国务院安装新数据存储系统时发生。该团队指出,值得注意的是,这些丢失的大多数电报未能录入国务院部署的新系统,当时人们可能认为这是一种可以在不同的硬件和软件平台之间进行可靠数据传输的方式。

该研究对保持透明度与保密性之间的平衡有重要启示。机器有助于监视数据分类工作,但其表现通常不能超过其学习的数据库的水平,如果这些数据库含有错误信息,机器学习也失去了意义。

一个有趣的问题是,如果这种机器学习揭示的行为模式可能会损害国家利益,其数据本身是否应该被归类为机密信息呢?例如,机密信息的假阳性率对于那些试图从未分类的电报中收集机密信息的其他大国而言可能有利用价值。

显然,还有更多的工作要做。Souza和同事说,尽管国务院在保护分类信息方面花费巨大,但关于信息分类统一性的研究还很少甚至没有,并且对这种机器学习的信息挖掘能力也缺乏认识。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-12-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏视频咖

极速高清——给你带来全新的高清视野

很生气!!!我才刚落地,就因游戏界面糊了一下,阻止了我捡枪的步伐,就被不知道从哪蹿出来的家伙给打死了!!!瞬间落地成盒!!!

983
来自专栏机器人网

工业机器人的主体结构的基本形式

工业机器人的主体结构 的基本形式工业机器人的机械系统一般由一系列连杆、关节或其他形式的运动副所组成。机械系统通 常包括机座、立柱、腰关节、臂关节、腕关节和...

2656
来自专栏大数据文摘

从商业视角理解数据:数据科学家的思维之路

672
来自专栏大数据挖掘DT机器学习

为什么有些公司在机器学习业务方面倾向使用 R + Hadoop 方案?

作者:王威扬 文思海辉技术有限公司数据挖掘解决方案经理 知乎 https://www.zhihu.com/question/22145076/answer/...

3005
来自专栏大数据文摘

资源 | 从医疗语音到灾难响应,这八大优质数据集快抱走

963
来自专栏机器之心

2018谷歌学术期刊&出版物排名公布:CVPR挤进前20

榜单链接:https://scholar.google.com/citations?view_op=top_venues

1122
来自专栏大数据挖掘DT机器学习

从小白到年薪10万+,优秀的数据分析能力如何速成?

广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网...

3396
来自专栏互联网大杂烩

最优化模型 数据挖掘之优化模型

最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。

462
来自专栏数据派THU

独家 | 一文读懂LinkedIn个性化推荐模型及建模原理

原文标题:HowLinkedIn Makes Personalized Recommendations via Photon-ML Machine Learni...

23610
来自专栏CSDN技术头条

从原理到策略算法再到架构产品看推荐系统 | 附Spark实践案例

作者 | HCY崇远 01 前言 本文源自于前阵子连续更新的推荐系统系列,前段时间给朋友整理一个关于推荐系统相关的知识教学体系,刚好自身业务中,预计明年初随着业...

44811

扫描关注云+社区