【Nature 特稿】机器学习算法重构威尼斯千年历史,成为“谷歌和 Facebook”

【新智元导读】瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 利用机器学习算法,将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine),不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献。

今天我们要介绍的科研项目——威尼斯时间机器,将让历史学家拥有从现今(上图右)穿越到 18 世纪(上图左)威尼斯的能力。

计算机科学家、瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 想要将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine),预计扫描地图、专著、手稿和乐谱等大量文件。Kaplan 希望“威尼斯时间机器”不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献。

如果这个项目成功,将为整个欧洲历史文化和商业研究做出巨大的贡献,或能以前所未有的细节揭示整个欧洲大陆当时的社会网络、贸易和知识发展的历史。Kaplan 表示,“威尼斯时间机器”将成为供几个世纪以后的人使用的谷歌和 Facebook。

圣方济会荣耀圣母圣殿里存储的各种手稿和史册资料。它们将全部被输入“威尼斯时间机器”,用于构建一个供几个世纪以后的人使用的谷歌和 Facebook。圣方济会荣耀圣母圣殿是威尼斯最大的教堂之一,具有次级宗座圣殿的地位。这座天主教堂位于圣波罗区的核心,敬奉圣母升天为主保圣人。图片来源:Nature

威尼斯时间机器的诞生,得益于机器学习技术的进步。这个项目成功的关键,也在于机器学习技术。

单纯扫描手稿、文献将其数字化的科研项目已有很多,令威尼斯时间机器脱颖而出的,是其规模和这个项目预计使用的新技术。据 Kaplan 介绍,他计划使用最先进的扫描仪,有些甚至可以在不打开书籍的情况下,读取书中纸页上的内容。此外,还有先进的机器学习算法,将手写文档转换成可被搜索和引用的数字文档。

威尼斯有着深厚悠久的历史,这些历史被一代代人整理和记录了下来。最重要的是,虽然几经动荡,这些记录都比较完好地保存了下来,最早从公元前 5 世纪开始。1797 年,拿破仑结束了威尼斯的共和国时代,1815 年,圣方济会荣耀圣母圣殿变为威尼斯国家档案馆(State Archives of Venice)。在接下来的几十年中,所有国家的行政文件,包括死亡登记册,医疗记录,公证记录,地图和建筑图案,专利注册和其他文件都陆续转移到这里。这些档案大多以拉丁文或威尼斯方言写就,有些从来没有被现代历史学家阅读过。

现在,根据 Kaplan 的计划,这些海量的文献将被系统化地送入威尼斯时间机器,和其他更多非常规数据来源一起,以更形象的形式,比如绘画和旅行者日志的形式呈现出来。

威尼斯时代机器这个项目始于 2012 年,实际上,在此之前,威尼斯国家档案馆就有相关的数字化项目,由意大利文化遗产部资助。威尼斯时代机器大幅推进了相关的过程,引进了专门设计的先进的高速扫描仪,包括一个负责翻页的机械臂,以及一个 2 米宽转盘的旋转扫描仪,能够同时扫描多个 A3 尺寸的文档。这些扫描仪现在每小时生成 TB 级的数千幅用于长期存储的高清图像。这些数据还会被传到洛桑,那里有高性能计算机,专门将图像转换为数字文本,以便进行注释。

自动识别手稿是一个重大的技术挑战。因为手写的字符,比如个人信件上的文字形状可能有很大差异,并且随着时间的推移可以演变。欧盟专门有一个项目,叫做 READ(Recognition and Enrichment of Archival Documents),在制定各种解决方法。

Kaplan 也是 READ 的成员之一,他在威尼斯时代机器这个项目里采用的首选方式,就是利用机器学习来识别整个单词的形状。

机器学习依靠算法,能修改规则和行为,根据从数据集中获取的示例,不断更新提高性能。威尼斯时间机器的算法旨在分析书面文本的结构,并提取看起来类似的图形形状,并将形状与结构联系起来。这让用户能在一份文档中找到一个名称,然后让系统显示数据库中所有其他手稿中出现相同名称的位置。

Nature 的一篇特稿详细介绍了威尼斯时间机器项目,包括 Kaplan 致力于将人工智能用于人文研究的经历。

我们可以看 Nature 特稿中给出的这幅图,形象地展示了机器学习算法重构可搜索数据库的过程。

首先,机械臂负责翻书,扫描仪将图像扫描下来。同时,还有断层扫描技术,能够在不翻开书本的情况下,将书页上的内容扫描下来。这一概念基于医学中使用的计算机断层扫描技术(CT),CT 以不同角度拍摄的 X 射线图像,逐层地建立人体内部的 3D 图像。EPFL 的科学家正在研究古代墨水的组成成分,从而找出可以用作 X 射线造影剂的分子。断层扫描仪扫描书籍的速度更快,质量更高,扫描时对文物造成的损害也较小。

然后,算法将扫描的图像转换为数字文本。同一个词(比如人物、地方、商标)会被标记出来,还有这个词在其他不同地方出现的情况。

相关数据综合在一起,构成一个覆盖时间和空间的社交网络。

视频内容

Nature 特稿原文链接:https://www.nature.com/news/the-time-machine-reconstructing-ancient-venice-s-social-networks-1.22147

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

干货 | 清华大学郑方:语音技术用于身份认证的理论与实践

“网络空间身份认证”事关新时代的国家安全、经济安全、社会稳定、民众福祉等,这其中包括五个方面:

1834
来自专栏机器人网

【妙趣科学】为何难懂女人心,大脑“电路”不一样!

汉子们有没有奇怪过,女人是怎么做到边煲电话粥边涂指甲油,同时还能构思待会出门衣服怎么搭晚上去哪吃?有没有吐槽过路痴为何老是妹子,新手女司机们又总是倒不好车?妹子...

2705
来自专栏大数据钻研

如何考评一名前端工程师?

「如何考评」这个词看起来「diǎo * 2」的。虽然标题看起来很有逼格,但对于我这种面试(他人)经验用一个手就能数出来的菜鸟来说,谈这个话题还为时过早。(我感到...

2666
来自专栏FreeBuf

关于机器学习在网络安全中的五大误解

机器学习已经渗透到了人类活动的所有领域,它不仅在语音识别、手势识别、手写识别和图像识别上起着关键的作用,这些领域如果没有机器学习在现代医学、银行、生物信息和存在...

2035
来自专栏大数据文摘

关于机器学习在网络安全中的五大误解

2812
来自专栏企鹅号快讯

用照片也能追踪手机?人脸识别迎来“终结者”

就像世界上没有两片相同的雪花,你用手机拍摄的每张照片也是独一无二的。布法罗大学的研究人员掌握了一种方法,可以通过分析照片来追踪拍摄的手机,这项研究为身份验证提供...

2265
来自专栏量子位

便宜可靠的激光雷达可能要来了!Luminar关键部件成本降到3美元

激光雷达(Lidar)比车还贵的价格和永远缺货的状态,已经成了无人车行业发展的一块巨大绊脚石。

902
来自专栏PPV课数据科学社区

技术贴:大数据告诉你,如何给微信公众号文章取标题?

267个新闻时政类自媒体公号在11月23日—11月29日(周日—周六)的统计周期里共发表了1447篇文章。此次我们选择其中的1000篇文章作为样本进行分析。 ?...

3284
来自专栏PPV课数据科学社区

【观点】数据挖掘入门必看10个问题

NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般...

2857
来自专栏Data Analysis & Viz

知乎上8个100K+高赞回答(筛选自63万个回答)

最近知乎首页上老是看到这个话题:《知乎上的高票答案就是好的吗?》,很好奇目前高赞回答都有哪些?各有多少赞同数?于是继续这些天爬知乎数据的节奏,以大小V主页的回答...

1153

扫码关注云+社区

领取腾讯云代金券