大数据文摘作品 转载具体要求见文末
作者| Marisa Krystian 选文|Aileen
翻译|行者 校对|肖文琪
伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。
◆ ◆ ◆
导言
人们天生喜欢去寻找并转述各类故事。我们所拥有的那种分享信息并定义自身存在性的能力就可以很好地解释为什么我们天生沉迷于此。
而现在,随着计算能力、语言处理和文本数字化三种技术方面的改善,以文字“大数据”来研究某种文化成为了可能。
正如美国作家库尔特·冯内古特(Kurt Vonnegut)曾经说过的那样:“这些故事都有着美丽而方便计算的格式,没有理由说我们不能把它们套进计算机的算法里去。”
图1 J.K.罗琳所著的《哈利·波特与死亡圣器》的情感线
(注:整个系列共七部书可以被定义为一个复杂的“杀死怪物”情节。数据分析:Hedonometer / Andy Reagan / Kirsch)
伯灵顿佛蒙特大学故事计算实验室的安德鲁·里根(Andrew Reagan)和他的研究团队用情绪分析绘制了约1300多个故事的情感线,然后使用数据挖掘技术来揭示最常见的情感线是什么样子。研究中,安德鲁·里根和他的研究团队发现,形成复杂叙事的基石仅仅源自于六种核心故事线。
这项研究令人着迷的奇妙之处就在于首次提出了基本故事线的确存在的实验性依据,并由此解开了讲故事之所以能够吸引人们的本质特征。
◆ ◆ ◆
实验展示
科学家收集了1327本书作为样本,这些样本书绝大多数采用了收录进古登堡计划中的元数据来虚构故事(P.S.古登堡计划是于1971年发起的世界上第一个数字图书馆。其中所有书籍的输入都是由志愿者完成的)。为了生成样本书的情感线,研究者将文本分为了一个个10000的小块,并分析每个小块里的所表达的感情。(如图2所示)
图2
研究中所有样本书的故事线和相应的数据可视化如图3所示。
六种基本故事线形态分别为:
图3 六种基本故事线的形态展示
(点击查看高清图片)
(注:从左至右从上到下依次为:“白手起家”、“陷入困境的人”、“灰姑娘”、“悲剧”、“俄狄浦斯”、“伊卡洛斯”。数据分析:Reagan et. al/ University of Vermont)
◆ ◆ ◆
结论
当研究团队确定了六种基本的情感故事线之后,又进一步观察了情感线与其故事下载量之间的关系,并据此探索最受欢迎的情感故事线类型。最终的研究结果显示,最受欢迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”两种类型的情感故事线。
另外,把众多感情线揉到一起的那些更复杂的故事同样受到追捧。事实上,研究结果显示,最受欢迎的故事往往是连续两次出现“陷入困境的人”的,还有“灰姑娘”紧接一个“悲剧”的故事。