《指环王》中的数据魔法

《指环王》是英国作家、语言学家约翰·罗纳德·瑞尔·托尔金创作的经典长篇奇幻小说。在书中,托尔金虚构了一个极具传奇色彩的“中土”世界,这里有精灵、矮人、巫师、蛮族等等,故事精彩纷呈。数据侠Tianyi Gu尝试通过数据爬取来分析指环王三部曲的电影剧本,用可视化的方法展现中土世界的有趣故事。

我从在网上爬取数据开始我的研究。我的数据主要来自两个网站:lotr.wikia 这个网站上有关于中土世界的人口信息;ageofthering.com 这个网站上有指环王的电影剧本。

在第一个网站上,我爬取了名字,生卒年份,种族,配偶,发色,身高,所属王国等信息。一共涉及1000个角色。在第二个网站,我爬取了三部曲的所有电影台词,以及对应的电影名以及是属于谁的台词。这部分一共生成了2400行数据。

第一张柱状图显示了这1000个角色的种族以及性别分布。很明显,这故事里男人居多,事实上,整个故事里只有一个女性侏儒,一个女性兽人。

第二个图显示的是不同种族的平均寿命。就像所显示的,迈雅(Maiar)有非常长的寿命,看起来除非遇到非自然因素,否则他们就不会死亡)。在进一步研究分析后,我发现主要的角色比如甘道夫,萨鲁曼,索龙都是这一种族,并且已经活了超过7000年。

第三张图展示了不同年份中土世界的居民数量。侏儒的人口数量在第四纪元以前看起来很稳定,因为他们寿命很长。而随着三部曲进行,人口结构剧烈变化。

值得注意的是,这些数据只包含了书中写到的人物,并不能代表整个中土世界的人口情况。

上面的图展示了中土世界的婚姻状况。合乎预期的是,霍比特人在所有种族里结婚的比例最高。尽管书中只有提及一名女性侏儒,但仍然有36%的侏儒是已婚。兽人从不结婚。另外,整个故事里也没有同性婚姻,只有一个角色是复婚。

上图显示了不同角色在不同电影里说的台词,不同颜色的柱状图代表了三部不同的指环王电影。

对应的词云显示了不同角色用到的单词的频率。弗罗多和萨姆最常说的单词是对方的名字(哈哈)。对比甘道夫和阿拉贡,很容易发现,这些英雄角色最常说的单词是“Will”。尽管分享着同一个躯体,咕噜和史麦戈的性格完全不同,他们对应的词云也证明了这一点。

除此之外,我还对这些角色做了一点情感分析。上面的气泡图展示了对不同角色说的话进行的情感分析结果。梅里和皮聘两个快乐的霍比特人得到了最高的分数。但出乎意料的是,萨姆得到了最高的负分。这可能是因为他是负责给弗罗多训词的人,要告诉他什么不能做,谁不能信任,以及永远小心危险,这些话会让他听起来更加消极。

对于中土世界的探索,我只是略窥一二。对指环王感兴趣的朋友可以访问我提到的两个网站,一起作出更多精彩的数据分析。

注:本文编译自数据博客《Journey to Middle Earth - Webscraping the Lord of the Rings》。点击“阅读原文”查看。内容仅为作者观点,不代表DT财经立场。

作者 | Tianyi Gu

题图 | 站酷海洛

期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。

▍数据侠门派

本文数据侠Tianyi Gu。Tianyi Gu拥有极强量化分析技术以及批判思维能力。他研究生毕业于纽约大学的城市信息专业,本科毕业于纽约州立大学的精算专业。出于对数据科学无限潜能的热情,他加入NYCDSA,希望学习成为一名数据科学家所需要的技能和知识。

原文发布于微信公众号 - DT数据侠(DTdatahero)

原文发表时间:2018-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

IBM利用机器学习描绘更清晰的心脏图,模拟近乎实时

冠状动脉疾病(CAD)是冠状动脉壁上形成斑块的病症,会导致冠状动脉壁变窄。最终,这可能导致心脏病发作或死亡。这种情况现在是世界上最大的健康问题,每年有超过一百万...

742
来自专栏PPV课数据科学社区

天龙八部:一张图告诉你如何8步炼成数据科学家

如何成为一个数据科学家?不少刚刚接触这个领域的探索者都在寻找一条尽可能正确的道路。 OK, 这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足...

35912
来自专栏华章科技

天龙八部:一张图告诉你如何8步炼成数据科学家

OK,这条道路确实不是无迹可寻的。虽然并不简单,但是,通过科学的规划和足够的时间投入,数据科学家可以通过很少的花费炼成。

952
来自专栏ATYUN订阅号

研究团队合作开发一种机器学习算法,能够使用AI预测智力

来自美国加州理工学院,Cedars-Sinai医学中心和美国萨勒诺大学的研究人员表示,新开发的人工智能系统可以通过查看个人大脑的扫描来判断一个人的聪明程度。

1003
来自专栏人工智能快报

DARPA神经工程系统设计项目研发脑机接口

2017年7月,美国国防高级研究计划局(DARPA)宣布为美国布朗大学、美国哥伦比亚大学、美国约翰·皮尔斯实验室、美国加州大学伯克利分校、美国Paradromi...

5029
来自专栏PPV课数据科学社区

到底穿T恤、正装还是道袍?数据挖掘师的定位

(图为:剑网3 玩家Cosplay) 文|周学春,一个在银行做挖掘的博士,微信公众号:比格堆塔 心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一...

3066
来自专栏新智元

Jeff Dean力荐!牛津美女博士分享:读博士前要了解的20件事

近日,机器学习大牛、谷歌AI总负责人Jeff Dean发推转帖,推荐了一篇刚毕业的博士生写的文章,内容与技术无关,而是关于攻读博士学位时需要注意的一些小tip。...

1045
来自专栏大数据文摘

天龙八部:一张图告诉你如何8步炼成数据科学家

1341
来自专栏CSDN技术头条

谷歌Principal Scientist谈AI:知识表示为何重要

如今人工智能(AI)的焦点与90年代时期时有很大的区别。20年前,人工智能关注的重点在于基于逻辑的AI,通常属于知识表示,即KR(Knowledge Repre...

1987
来自专栏大数据文摘

我发现我的数据被操纵了……

1293

扫码关注云+社区

领取腾讯云代金券