专栏首页人工智能快报机器学习算法可帮助政府对信息进行保密分类

机器学习算法可帮助政府对信息进行保密分类

美国麻省理工学院《技术评论》杂志发表文章称机器学习算法可以帮助政府完成保密信息的分类工作。

美国国务院每年产生的电子邮件约20亿封,其中很大一部分含有敏感或机密信息,因此必须进行分类。这项工作既耗时又费钱,仅2015年一年美国政府就花了160亿美元来保护机密信息。但这种分类过程的可靠性尚不清楚,没有人知道信息分类制度能否得到一致遵守。事实上,对于应该分类管理哪些信息这一点都存在重大争议。官方机密文件的错误分类主要是人为错误,但没有人知道这些错误的影响有多大。

如今巴西智库圣保罗瓦加斯商学院的Renato Rocha Souza等人的研究改变了这一现状,他们使用机器学习算法对美国国务院自上世纪70年代收到的超过一百万条电报进行了研究。

该研究对官方机密信息的性质提供了前所未有的见解,揭示了人类如何应用规则,以及因错误信息分类导致敏感信息被披露或无害细节被隐藏的频率有多高,他们的算法还以电报丢失的方式披露了可疑模式。

该团队以一百万条电报为样本,这些电报是从美国国家档案馆下载的XML格式数据。每条电报都是国务院和外国使馆交流的文本信息。这些电报被标记为“机密”、“秘密”、“限制性官方使用”或“未分类”四类。机密信息被定义为有可能严重损害国家安全,秘密信息被定义为有可能造成损害,但非严重损害,关于“限制性官方使用”类别的界定至今仍有争议。

电报还含有其他信息,每条消息都有日期、发送者、接收者和主题,当然还有信息内容,Souza和其同事使用各种机器学习方法来确定这些因素如何与分类标签相关联。在发现了这种相关性之后,他们对算法进行了测试,研究其能否预测给定的电报是否被分类。

测试结果非常有趣。Souza和他的同事们说,信息本身是评价是否对电报进行分类的最佳指标,在所有的特征中,信息中各种词出现的相对频率在识别敏感信息中最有用。发送者和接收者的数据也是评价敏感水平的良好指标,但可能导致算法将许多电报误分类,即很高的假阳性率。

当机器学习算法结合各种元数据进行决策时,它可以发现90%的机密电报,假阳性率仅为11%。Souza和同事称,如果将仍在保密阶段的电报内容纳入研究,效果会更好。

假阳性和假阴性本身很有趣,假阳性是指机器预测出有些电报已被归类为机密信息,但实际却不是,假阴性正好相反。该研究中,机器揭示了多条被认为错误分类的电报,例如有一条电报内容是日本政府对美国检查其核设施保持警惕,这条电报未被归类为机密信息,但其文本显示应为保密信息。

一个数据上的限制是许多电报已经丢失,表面上看是在转换为电子格式的过程中发生了丢失,而该研究表明这些信息也可能是因为其他原因而丢失。其中一条线索是:已归类和未被归类为机密的电报信息的丢失比例差异很大,Souza与其同事表示:“与未分类的和限制性官方使用的信息相比,被归类为‘机密’的电子信息丢失的几率要高出三倍以上。”这些丢失的电子版电报的相关元数据往往还存在,而出现这种情况的原因不得而知。

此外,如果信息在从一种格式转换为另一种格式时丢失,则最有可能是在国务院安装新数据存储系统时发生。该团队指出,值得注意的是,这些丢失的大多数电报未能录入国务院部署的新系统,当时人们可能认为这是一种可以在不同的硬件和软件平台之间进行可靠数据传输的方式。

该研究对保持透明度与保密性之间的平衡有重要启示。机器有助于监视数据分类工作,但其表现通常不能超过其学习的数据库的水平,如果这些数据库含有错误信息,机器学习也失去了意义。

一个有趣的问题是,如果这种机器学习揭示的行为模式可能会损害国家利益,其数据本身是否应该被归类为机密信息呢?例如,机密信息的假阳性率对于那些试图从未分类的电报中收集机密信息的其他大国而言可能有利用价值。

显然,还有更多的工作要做。Souza和同事说,尽管国务院在保护分类信息方面花费巨大,但关于信息分类统一性的研究还很少甚至没有,并且对这种机器学习的信息挖掘能力也缺乏认识。

本文分享自微信公众号 - 人工智能快报(AI_News),作者:人工智能快报

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-12-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 美国防部将投资6亿美元研发无人潜航器

    2016年2月3日,美国国防部部长阿什顿·卡特(Ashton Carter)对外表示,美国国防部未来五年将在各种型号的无人潜航器领域投入6亿美元。这种新武装力量...

    人工智能快报
  • 新仿生技术可帮助无人机实现自主飞行能力

    据瑞典隆德大学网站4月6日报道,通过对昆虫在茂密的植被中辨别方向的研究,该校科研人员开发出了一套可应用于无人机的系统,使得无人机能根据环境自动调整飞行速度,完全...

    人工智能快报
  • 麦肯锡报告:到2030年机器人将取代8亿人的就业(上)

    麦肯锡全球研究院(McKinsey Global Institute)发布《失业与就业:自动化时代的劳动力转型》报告,称到2030年,全球将有多达8亿人的工作岗...

    人工智能快报
  • Confluence 6 从关闭的连接中恢复 原

    当数据库服务器进行重启或者因为网络问题导致连接中断。所有在数据库连接池中的连接都会被中断。希望处理这个问题,通常需要 Confluence 进行重启。

    HoneyMoose
  • http协议详解(一)HTTP协议基础

        最近在看一些http的东西,http比较杂,大致整理了一下,用思维导图的方式呈现了出来。我会分几个板块来介绍http协议,具体的板块也在下面的思维导图中...

    十里桃花舞丶
  • 基本 SQL 之增删改查(二)

    上一篇文章中,我们介绍了 SQL 中最基本的 DML 语法,包括 insert 的插入数据、update 的更新数据、delete 的删除数据以及基本的查询语法...

    Single
  • 【leetcode刷题】T64-电话号码的字母组合

    比如,res为["a", "b", "c"],当遇到数字2时,添加所有可能的字符,得到["ad", "ae", "af", "bd", "be", "bf", ...

    木又AI帮
  • 死里逃生?机器学习算法揭露泰坦尼克号幸存者之谜

    影片根据真实事件改编,片中的泰坦尼克号是英国白星航运公司下辖的一艘奥林匹克级邮轮,于1909年动工建造,1912年首次航行。1912年4月15日,在首次航行期间...

    用户1621951
  • 小白都能玩转的Nmap(一)

    在以上语法中,仅指定使用的Nmap脚本即可,不需要指定目标地址。由于broadcast­dhcpdiscover脚本将会发送包到局域网中的所有主机,并且等待有响...

    天钧
  • 从语义上理解卷积核行为,UCLA朱松纯等人使用决策树量化解释CNN

    机器之心

扫码关注云+社区

领取腾讯云代金券