AI眼中的历史:用人工智能挖掘旧报纸里的英国现代史

大数据文摘作品,转载要求见文末

本文作者|Martha Henriques

编译团队|Sophie,刘晓莉

试问,哪位历史学家有时间阅读跨越一个多世纪英国历史的数千万份报纸?没人可以。所以,计算机科学家和历史学家一起,教会了计算机做这件事——分析新闻报道中的数十亿个词,让我们重新认识19世纪到20世纪初的英国历史。

这项研究发表在PNAS上(http://www.pnas.org/content/early/2017/01/03/1606380114),是对“文化组学”这一新兴学科的实践。

注:

文化组学culturomics,指通过数字化文本的定量分析研究人类行为和文化趋势的计算词汇学

计算机分析了1800年至1950年间的3500万份英国地区新闻报道中的286亿词汇,约占该时期英国地区报刊总量的14%。

作为对比,一个成年人的平均阅读速度为大约每分钟300字。按照这个速度,一个人需要整整180年来完成所有的阅读。如果算上人类的休息时间,阅读需要的时间就更长了。而计算机算法用大约8周完成了所有的工作,该项目研究员英国布里斯托大学计算机科学家Nello Cristianini称。

这项研究的第一步是人工检查,以确保计算机可以从报纸中提取真实的历史事件。检查的内容为计算机是否能准确地找到诸如加冕,已知的疾病流行和战争等事件。

有趣的部分发生在下一步:研究计算机算法是否可以找到历史学家使用传统方法不能找到的历史事件。

我们正在寻找一些不太明显的历史进程——例如,技术的兴起,”Cristianini说。“我们看到1900年左右,技术发生了变化。我们还能进一步解读更微妙的信号:我们可以看到电报,电话和广播被公众接受的速度有多快。这个速度在不断加快。现在,人们接受Twitter或Facebook只需要一年。”

人工智能分析不仅仅是简单的字数统计(这是曾经大量数字化文学研究的做法)。这一次,研究人员使用AI技术,如自然语言处理,以获得对上下文和文本含义的理解。你可以认为它是终极的快速阅读。

他们发现了什么?这是AI眼中的英国历史:

电力什么时候赶超了蒸汽?

1898年。这一年,电在新闻中出现的频率开始超过蒸汽,电能逐渐取代了蒸汽。

图:20世纪来临时,电力取代了蒸汽(来源Nello Cristianini / PNAS)

火车什么时候赶超了马车?

仅仅四年后的1902年。火车的时代开始于19世纪40年代,那时英国开始发展国家铁路系统。但就新闻方面而言,火车在半个多世纪后才变得比马车更重要。

图:“铁马”(来源New York Public Library / Flickr)

人们什么时候开始

不再讨论奴隶制?

对奴隶制的报道高峰出现于1830-1870年废奴运动时期和1861-1865年美国南北战争期间。1870年后,报纸几乎不再提及奴隶制。

图:1830年到1870年,奴隶制出现在新闻中(来源Nello Cristianini / PNAS)

记者什么时候开始

报道妇女参政权运动?

1906年。一个戏剧性的报道高峰出现在1913年,在女性参政倡议者Emily Wilding Davison试图在赛马会上阻拦英国国王的马之后。

图:Emily Davison倒在英国国王的马前,四天后她死于头部创伤(来源Hulton Archive)

注:

女权运动还有这段历史!今天的一切来之不易啊!

女性什么时候得到了

和男性相同数量的报道?

从来没有过。20世纪开始,对女性的报道率有上升趋势,且在二战时期突然增加。但在整个分析覆盖的时期,新闻中每提到一个女性大约会提到三个男性。在21世纪,这个数字更接近男女比2:1,但这种转变并不大。

图:战争时期,女性得到了更多的报道(来源Wikime)

勇气什么时候最重要?

毫不意外,在第一次和第二次世界大战期间勇气被提到最多。维多利亚时代的价值观,例如毅力,在整个分析覆盖时期表现出报道频率的稳步下降。但在战争年代,对耐力和勇气等价值观的报道出现了明显的增加。

英国和英国人的概念

(Britishness)是何时出现的?

注:

英国全称为大不列颠及北爱尔兰联合王国United Kingdom of Great Britain and Northern Ireland。不列颠Britain/British是对英国和英国人的统称,相较于对英国某部分的特指例如England/English是指英格兰和英格兰人,或Scotland/Scottish是指苏格兰和苏格兰人。

对“不列颠”的报道出现于20世纪早期,1900年左右出现第一个峰值,一战和二战期间出现了两个更大的峰值。这个发现和很多历史学家的观点不同——很多历史学家认为“不列颠”在更早前就已经是一个活跃的概念了。

图:“不列颠”的概念在20世纪早期开始活跃,而传统上,历史学家认为“不列颠”出现得更早(来源Nello Cristianini / PNAS)

经济什么时候成为了口号?

与“经济”相比,“政治经济”一直是更为常用的术语,直到1900年左右,这两个词的用法变得更加模糊。20世纪初,这两个术语在约十年间的使用频率大致相似,之后,“经济”开始成为更受欢迎的用语,在几个剧烈的峰值后使用频率开始稳步上升。

图:“政治经济”的使用被“经济”取代(来源Nello Cristianini / PNAS)

原文链接:

http://www.ibtimes.co.uk/here-are-top-moments-modern-british-history-according-artificial-intelligence-1600122

关于转载如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 |bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-01-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

数据分析之老顾客养成秘籍—让顾客回头的必杀技!

现在整个淘宝的市场形式日益严峻,新用户成本越来越高,转化越来越低,新品难以打开销路,新增商家日益增多,产品重复率大,竞争十分惨烈,且顾客及其容易流失。在这种情...

19590
来自专栏北京马哥教育

Linux运维工程师的现在与未来

Linux运维工程师的现在与未来 目录: 1. IT行业发展 2. Linux运维行业现状 a> Linux哪些行业在运用? b> Linux运维学习起来难吗?...

5.5K50
来自专栏云加头条

12月5日 云头条:TIOBE公布12月编程语言排行

TIOBE 公布了 12 月编程语言排行榜,前五名依旧是 Java、C、Python、C++ 和 Visual Basic.NET。TIOBE 编程社区指数是编...

16520
来自专栏java学习

Java学习问答

大家在学习上?工作上有什么问题不懂的?可以留言把你的问题留下来 然后我会把大家所有的问题整理在一起发给大家去解答! 比如说:我学历低以后找工作难不难呀? 反正就...

37790
来自专栏云加头条

12月11日 云头条:人生苦短 我学python

在前几天发布的 TIOBE 12 月编程语言榜中,Python 以 8.376% 的份额挤下 C++ 重回季军位置。而在另一个非常流行的参考指标 PYPL 编程...

12830
来自专栏码洞

Redis作者Antirez经历的「性别歧视」风波

老钱致歉 可能是因为我的英语还不够好,或者是作者表达比较晦涩,里面有好多语句翻译时遇到了很大障碍,只能猜测其含义,也许并不准确,读者还请见谅。

9510
来自专栏java一日一条

值得程序员一看的 8 个冷门小知识

想要成为一名成功的程序员,我们除了了解不同编程语言的设计思路,也应当了解编程的发展历史,从而判断未来的编程技术将走向何方。接下就为大家普及下计算机发展历程中的8...

12750
来自专栏PPV课数据科学社区

☞【观点】徐尽欢:我也说说大数据

一:在Oracle做了六年数据库销售的我从5月份开始内部转到新成立的大数据部门,虽然还没有转完但是已经到新部门上了一个月的班了,如果我说我是Oracle 数据...

34560
来自专栏腾讯大讲堂的专栏

新鲜出炉:全球最创新的十大APP,微信居首

美国知名的财经科技新闻网站Business Insider旗下的Tech Insider近日评选出了世界上最创新的十大APP。该榜单称十大APP改变了人们沟通、...

292100
来自专栏游戏杂谈

手游开发Android平台周边工具介绍

主要是需要接入各平台的登录、充值接口,各家SDK又不统一,Android渠道都是鱼龙混杂,就算小渠道你看不上,但量多了,加起来也还可观,所以大家都拿出吃奶的尽去...

39910

扫码关注云+社区

领取腾讯云代金券