美国麻省理工学院《技术评论》杂志发表文章称机器学习算法可以帮助政府完成保密信息的分类工作。
美国国务院每年产生的电子邮件约20亿封,其中很大一部分含有敏感或机密信息,因此必须进行分类。这项工作既耗时又费钱,仅2015年一年美国政府就花了160亿美元来保护机密信息。但这种分类过程的可靠性尚不清楚,没有人知道信息分类制度能否得到一致遵守。事实上,对于应该分类管理哪些信息这一点都存在重大争议。官方机密文件的错误分类主要是人为错误,但没有人知道这些错误的影响有多大。
如今巴西智库圣保罗瓦加斯商学院的Renato Rocha Souza等人的研究改变了这一现状,他们使用机器学习算法对美国国务院自上世纪70年代收到的超过一百万条电报进行了研究。
该研究对官方机密信息的性质提供了前所未有的见解,揭示了人类如何应用规则,以及因错误信息分类导致敏感信息被披露或无害细节被隐藏的频率有多高,他们的算法还以电报丢失的方式披露了可疑模式。
该团队以一百万条电报为样本,这些电报是从美国国家档案馆下载的XML格式数据。每条电报都是国务院和外国使馆交流的文本信息。这些电报被标记为“机密”、“秘密”、“限制性官方使用”或“未分类”四类。机密信息被定义为有可能严重损害国家安全,秘密信息被定义为有可能造成损害,但非严重损害,关于“限制性官方使用”类别的界定至今仍有争议。
电报还含有其他信息,每条消息都有日期、发送者、接收者和主题,当然还有信息内容,Souza和其同事使用各种机器学习方法来确定这些因素如何与分类标签相关联。在发现了这种相关性之后,他们对算法进行了测试,研究其能否预测给定的电报是否被分类。
测试结果非常有趣。Souza和他的同事们说,信息本身是评价是否对电报进行分类的最佳指标,在所有的特征中,信息中各种词出现的相对频率在识别敏感信息中最有用。发送者和接收者的数据也是评价敏感水平的良好指标,但可能导致算法将许多电报误分类,即很高的假阳性率。
当机器学习算法结合各种元数据进行决策时,它可以发现90%的机密电报,假阳性率仅为11%。Souza和同事称,如果将仍在保密阶段的电报内容纳入研究,效果会更好。
假阳性和假阴性本身很有趣,假阳性是指机器预测出有些电报已被归类为机密信息,但实际却不是,假阴性正好相反。该研究中,机器揭示了多条被认为错误分类的电报,例如有一条电报内容是日本政府对美国检查其核设施保持警惕,这条电报未被归类为机密信息,但其文本显示应为保密信息。
一个数据上的限制是许多电报已经丢失,表面上看是在转换为电子格式的过程中发生了丢失,而该研究表明这些信息也可能是因为其他原因而丢失。其中一条线索是:已归类和未被归类为机密的电报信息的丢失比例差异很大,Souza与其同事表示:“与未分类的和限制性官方使用的信息相比,被归类为‘机密’的电子信息丢失的几率要高出三倍以上。”这些丢失的电子版电报的相关元数据往往还存在,而出现这种情况的原因不得而知。
此外,如果信息在从一种格式转换为另一种格式时丢失,则最有可能是在国务院安装新数据存储系统时发生。该团队指出,值得注意的是,这些丢失的大多数电报未能录入国务院部署的新系统,当时人们可能认为这是一种可以在不同的硬件和软件平台之间进行可靠数据传输的方式。
该研究对保持透明度与保密性之间的平衡有重要启示。机器有助于监视数据分类工作,但其表现通常不能超过其学习的数据库的水平,如果这些数据库含有错误信息,机器学习也失去了意义。
一个有趣的问题是,如果这种机器学习揭示的行为模式可能会损害国家利益,其数据本身是否应该被归类为机密信息呢?例如,机密信息的假阳性率对于那些试图从未分类的电报中收集机密信息的其他大国而言可能有利用价值。
显然,还有更多的工作要做。Souza和同事说,尽管国务院在保护分类信息方面花费巨大,但关于信息分类统一性的研究还很少甚至没有,并且对这种机器学习的信息挖掘能力也缺乏认识。