首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

最受欢迎的小说套路是什么?主成分分析、层次聚类、SOM 神经网络分析法告诉你答案

有一种理论说,人们更喜欢阅读有熟知模式的故事,而不喜欢那些和我们经历相去甚远的故事。

例如,在当代的中国网络小说领域,有一些为人熟知的网文套路,例如“退婚流”、“屌丝逆袭”等。很多读者表示这些套路都看腻了,然而人气最高的小说恰恰离不开这些套路,侧面反映了大众读者们对某种套路小说的喜爱。

文本小说是一种没有语调、面部表情和肢体语言的故事类型,因此我们可以通过文本分析,得到故事整体给人引发的情感体验。有一篇论文,就从文本小说中运用情感分析,来提取随着情节发展给读者带来的情感体验,进而推测出读者的内心情感也随着文中情感词语的应用被激发出来。

6种情感曲线

情感曲线是用于衡量读者阅读时情绪高低的曲线,这和故事情节不一样。 故事情节是事件的支撑脊梁,以时间为顺序,串联起时间的展开。而情感曲线,则是通过文本中的词汇激发读者情绪变化产生的

情感曲线并不能展示关于情节的的直接信息,但也间接与情节相关,随着文中情感词运用的变化而变化。这种通过情感曲线进行文本分析的方法,可以分析、理解、描绘、比较不同文化地域背景下的小说。

通过对1327本小说的情感曲线的构建,我们发现所有小说大致都能分为以下6种情感曲线

以”rags to riches白手起家“类故事 为例的”上扬型“(屌丝逆袭,未雨绸缪的典型情感变化)

以 "riches to rags由盛转衰“类 和 悲剧型 故事为例的”跌落型“(例如电视剧“琅琊榜:风起长林”里一开始权高位重的长林王府渐渐衰落的过程。

以”man in a hole"类故事为例的“落-起型”(例如网络小说《邪气凛然》,主人公被大哥陷害→远走他乡忍气吞声→复仇后扬眉吐气)

以"Icarus“类故事为例的”起-落型“(类似一个集合版的《明朝那些事儿》,朝代从废墟建立到盛世,再由盛转衰的过程)

以”Cinderalla灰姑娘“类故事为例的”起-落-起型”(你不认识灰姑娘吗?)

以“Odipus俄狄浦斯”类故事为例的“落-起-落型”(如果你没看过俄狄浦斯的话,可参考《琅琊榜》中靖王的身世:有一个快乐的童年(低)→兄长、最好的兄弟被杀(高)→十年远离朝堂,不问国事(低)→贵人相助,一飞冲天,推翻旧案,成为新的皇帝(高))

分析方法

这种用情感曲线进行小说分析的方法,不仅是可行的,而且还可以检验以上6种情感曲线分类理论的正确性。

在分析中,我们会综合使用三种相互独立的方法:SVD奇异值分解有监督学习中的层次聚类(利用Ward方法)无监督学习中的SOM(一种神经网络)。每种方法优势各不相同,但是这三种方法的结果却相互照应,让我们能够最终确认我们的结论。(PS:这篇文章的核心在介绍情感分析在分析一本小说的用途,不会对机器学习、神经网络等计算机知识进行过多的介绍。)

1. 情感曲线的构建

为构建情感曲线,我们选择10000字的文字窗口进行情感分析,然后将这个窗口顺延到没有分析过的文字。在每个情感窗口中我们进行情感评分,具体流程如图:

举个例子,我们用这种方法对JK罗琳的《哈利波特与死亡圣器》进行情感曲线的构造,尽管这本书的情节错综复杂,我们却发现其情感曲线较为清晰简洁。从情感曲线中,我们可以推测出大致的情节起伏,而且情感曲线很好地反映了故事的高潮和低谷,这些对于哈利波特的死忠粉而言应该并不陌生。

2 语料库 Project Gutenberg的选择

(PS:什么是语料库?借助百度百科的解释:语料库中存放的是在语言的实际使用中真实出现过的语言材料。更加通俗小白一点,我们从语料库这个地方寻找书籍然后进行分析。)

为了分析验证我们的结论,我们需要多部小说。我们在含有大约50000本书的Gutenberg语料库中选择具有代表性的英文小说。我们选择的标准是,语言是英文的,字数在20000到100000之间,下载次数大于40,并且作品类型是小说类。为了确保我们的40次这个门槛选择是正确的,我们同时试了10,20,40,80次,发现结果是不变的。

3 主要方法及每种方法的结论

(1) 主成分分析法(SVD)(SVD 是线性代数里的奇异值分解。)

通过这种方法,我们发现,第一种类型, 包含了“rags to riches 由衰转盛” 上扬型和悲剧型,2本十分对应上扬型的书是来自奥斯卡王尔德的《道林格雷的画像》和《冬天的故事》,符合”悲剧型“的故事有简奥斯汀的苏珊夫人,Warlord of Kor,以及罗密欧与朱丽叶。 符合类型2“跌落性”情感曲线的书有《奥兹国的魔法》和《森林的孩子们》。而符合以”Icarus“为例的起落型故事则有《Shadowings》《Battle-Pieces》和《Aspects of the Wae》。 至于以”Cinderalla“为例的”起-落-起“类型则有书《Mystery of the Hasty Arrow》和《Through the Magic Dorr》。对于以”俄狄浦斯“为例的”落-起-落“型,我们有故事《This Word is Taboo》,《古印地时期》和《The Evil Guset》。

其中SV1 表示上扬型,-(SV1)表示跌落型,SV2表示”落-起型“,-(SV2)表示”起-落型“,SV3表示”起-落-起“型,

-(SV3)表示”落-起-落“型

(2)层次聚类法

通过层次聚类法我们可以得到以下树状图

如果我们从分成6个类切割这棵树,可以得到如下6种情感曲线类型,恰好是符合我们之前所说的6种抑扬顿挫的情感曲线类型。

(3)SOM 神经网络法

我们发现,曲线A和G比较符合我们之前说的”man in a hole”类落-起型情感曲线,曲线B和 I,符合我们说的"由衰转盛“上扬型曲线, 曲线C和F 比较符合”俄狄浦斯“类起-落-起型故事。在曲线D 中我们发现”Icarus“起-落型情感曲线,在曲线E和H 中我们发现跌落型情感曲线。这些都说明了我们先前概括的6种情感曲线,是有普适性的。换句话来说,几乎所有小说的情感变化都可以被这六个情感曲线之一囊括

4 通过数据分析成功的故事

花费了这么大的精力得出了一个基本的规律,不去在其他的样本上试一试怎么知道效果呢?为了检验情感曲线与故事成功与否,我们利用下载次数和SVD模型来进行研究,得到以下的图:

其中mode表示情感模式编号,mode arc表示改情感模式下的情感曲线,download distribution表示下载次数的分布

通过对情感曲线和小说下载量的分析,我们发现,读者阅读小说时的情感体验会对小说是否成功有很大的影响”Icarus起落型”(-sv2),"俄狄浦斯起-落-起型“(-SV3) 和 ”man in a hole 落-起型“(SV4) 是最受欢迎的3种情感曲线类型。如同我们在文章开头所说的一样,大众读者们对于小说有自己喜欢的套路,这里通过数据佐证了这一点。

5 结论

通过3种不同的分析方法,我们有力证明了6种情感曲线是有普适性的。我们也发现了情感曲线类型对于小说的成功与否是很重要的,当然,我们这里衡量小说成功与否的指标是下载量,我们也可以选取更细节的影响小说成功与否的标量比如销量或者文化影响力。

我们的研究也可以在用在反向应用中。比如以某一种情感曲线为导向开始,来展开丰富的故事描述,从而能更好的抓住读者。了解情感曲线可以帮助我们更好的构造故事叙述,以及为训练AI写作提供素材。把眼界和思路再放开一些,情感曲线在未来汉可以被电影电视剧等其他影视作品所采用进行分析,通过曲线来寻找最有潜力的作品,在未来具有无限的可能性。

(本文翻译整理自文章“The emotional arcs of stories are dominated by six basic shapes”)

• end •

【一鱼数据】

致力于打造泛娱乐大数据服务领导品牌

运用大数据技术解决泛娱乐产业交易信息不对称问题

促进IP所有者与投资者高效合作

助力泛娱乐产业的工业化、产业化发展

推动中国泛娱乐产业创新升级

地址:上海浦东新区浦东大道981号6楼

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180409G1BHOX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券