梵蒂冈密室中的秘密,让AI告诉你

编译自 MIT Technology Revies

原文作者 Emerging Technology from the arXiv

不知道大家有没有看过电影《天使与魔鬼》,发生在梵蒂冈的一场关于密码破译的角逐十分酷炫。电影里将梵蒂冈机密档案馆描述成一个戒备森严、不允许任何人查阅资料的禁地,现实中是不是真的是这样的呢?

梵蒂冈机密室就是这样的存在。据说密室里的书架长达85公里,仅可供参考的目录就有35,000卷。不同于电影里的是,这些材料是可以查阅的,但如果要阅览其中的材料,需要先提交一份申请书,由相关的负责人将文献取出给你,借阅人不允许进入档案室。由于戒备森严、保存的史料数量过多,大量文件从未被转录,即便是教堂档案员也对其中隐藏的秘密一无所知。不过,机器学习正在揭开这些中世纪文本的神秘面纱,带你一探这些隐秘史料。

那些保存完整,但却未被公开过的史料

梵蒂冈机密档案室位于梵蒂冈城,是罗马教廷颁布的所有法令的中央资料库。在长达84千米的书架里,保存有过去教皇的私人信件和其他文件, 其中一些甚至可以追溯到8世纪。即使借阅人只被允许借阅少量的资料,但这些档案已经能揭露很多秘密。比如,一张长达60米的羊皮纸上记满了对法国圣殿骑士的审判供词。这场对异教徒的审判自1307年伊始,期间没有发现任何人证物证,所有的审判证据全凭道听途说,一直持续数年无果。在这些信件中,还有米开朗基罗的手稿、国王亨利八世请求废除婚姻的申请书,还有苏格兰女王玛丽被斩首前的说情信。

档案馆的馆藏不但有尘封已久的古老书信,还有年代较新的重要史料。比如亚伯拉罕 · 林肯和杰弗逊 · 戴维斯试图说服教皇庇护九世分别支持联邦和联邦的相关记录,还有关于教皇庇护十二世和他在二战期间与纳粹政权打交道的记录,这些记载在此前从未公开过。

A现身,助力揭秘珍贵档案

虽然档案馆馆藏的资料被禁止对外公布,但档案馆有自己的摄影和保存工作室用以进行相关研究工作。但现在,和世界上许多历史档案一样,为了能够让馆藏档案留存更久,他们着手保存史料的照片或进行手抄工作,并允许进一步研究。但是梵蒂冈密室里的资料体量如此庞大,要在短时间内手抄史料或拍摄图片进行研究是不切实际的。

但如果有机器学习的帮助呢?意大利罗马第三大学的Donatella Firmani及其同事启动了“In Codice Ratio(编码系统’的拉丁文)”的项目,就在开发能够自动转录梵蒂冈机密文件(名为Vatican Registers)的系统,借助图像识别和机器学习,给档案留存工作提供技术支持。

“这个系统的语料库里,存储着超过18,000页的材料,囊括13世纪天主教会与欧洲各国国王、王后以及政治和宗教机构之间互通的官方信件。这些文件在过去从来没有被转录过,因此(这个系统)具有前所未有的历史意义。”Firmani和他的团队如是说。

当然了,这个系统也遭遇了一定的问题。传统的光学字符识别算法似乎并不适用,因为这些手稿的写作风格各异,有不同的文字(比如含有近似字母拼写方式的单词)和各种特殊的缩写。为了解决这个问题,学者们开发出了能识别整个单词而不是字母的机器视觉系统。但结果似乎还是不尽如人意,因为大多数单词就算在一篇很长的文档中可能也就出现几次,需要输入这套系统的单词数量十分庞大,因此为机器学习创建数据集是十分困难的。

▲图片来源:MIT Technology Review

现在,Firmani和他的团队想出一种新的方法来训练这个机器视觉系统。他们尝试着将每个单词拆分成不同的笔画,系统识别出不同笔画后再将其拼凑成一个完整的单词,就像在玩拼图游戏。具体的工作过程是这样的——系统试图将拆分的笔画组合起来,形成已知的字母,然后分析所有可能的字母排列,最后系统进行相关分析后筛选掉不符合语法和语境的单词,留下正确的词汇。举个例子,一个常见的笔画模式可能被系统辨认为“iii”或“m”, 但前者可以被认定为不符合语法规则。为了在它们之间作出正确决定,系统必须仔细地研究这个词及其上下文语境。

Firmani团队的目标是开发出一个更为完善的系统,尽可能多地转录档案馆里留存的档案。开发系统的第一步,是创建一个基于神经网络的数据集。所有数据必须加上标签,以便系统学习不同笔画组合所代表的不同字母或单词,由于工作量巨大,团队采用众包模式(即动员一批人共同完成某项任务)来完成这个注释。他们向120名高中生展示了拼图式分词模式的运作规则,学生们在几个小时之内就手动标记了一个包含15000个字符的训练数据集,这已经足以完成65%的档案转录工作。不过,现在的工作还是有许多需要逐步改善的地方,比如现在的文本转录都是用小写字母完成的,团队下一步工作是扩大数据集来辨识大写字母和其它字符。

梵蒂冈秘密档案室将要如何运用这项技术、以及转录后的文字是否会出版成册都不得而知,无论如何,Firmani团队的这项技术研发都是具有不容忽视的学术意义和科学意义的。想象一下,未来通过人工智能,我们能够完美解读中世纪甚至更久以前的文稿,探寻更多历史的秘密。

那么,大家有没有什么特别想要了解的秘史,希望AI来帮你揭开神秘的面纱呢?

*本文头图及正文图片来自网络。

AI你以后能不能帮我破译WiFi密码啊

Delta

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180328B1J7MU00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券