首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

用 Python 分析《红楼梦》(1)

(文章:用机器学习判定红楼梦后40回是否曹雪芹所写)作者的结论是后四十回的用词和前八十回有明显的差距。...考虑到版权问题,我决定不提供《红楼梦》原文。如果想复现实验结果的话,可以去找小说网站下载。(更新:根据网友提醒,《红楼梦》因为作者去世远远超过 100 年而进入公有领域,不受版权限制。...也可在这里获取《红楼梦》全文:紅樓夢 - 维基文库,自由的图书馆。) 2 文本预处理 这一步很基础,就不赘述了。...最后,我使用了 Ukkonen 算法快速地创建了整篇《红楼梦》的后缀树(用专业的语言描述 Ukkonen 算法的速度:它的时间复杂度是 O(n))。...现在我选出《红楼梦》中出现次数大于 5 的片段,对它们的凝固度做个排序: ? 这是凝固度排名前 20 的组合,括号内是凝固度。可以看到效果还是不错的。

2K80

用 Python 分析《红楼梦》(2)

(括号内为频数) 通过分词后的词频,我们发现《红楼梦》中的人物戏份由多到少依次是宝玉、凤姐、贾母、袭人、黛玉、王夫人和宝钗。...根据估算的词频表中正确单词的比例,我估计《红楼梦》的词汇量大约是 1.6 万。...在很多用 PCA 分析《红楼梦》的博文里,大家都是用出现频率最高的词来分析的。然而问题是,万一频率最高的词是和情节变化相关的呢?...莫非《红楼梦》的最后 40 回真的不是同一个作者写的?! 别着急,分析还没结束。...[转载]白坤峰讲红楼梦(172)贾府鼎盛:该来的都来了史鼎说红楼新浪博客 也许“笑道”这一看似平常的词汇确实侧面反应了贾府的兴衰史呢。

1.8K50

红楼梦、法律,BERT 已有如此多的神奇应用

红楼梦知识提取 ?...红楼梦人物知识图谱,来源 http://kw.fudan.edu.cn/ 知识图谱是人工智能研究中的核心问题,它是人类对世界的近似表示与理解,能够赋予机器精准查询、理解与逻辑推理等能力。...知识图谱也能够辅助我们快速了解小说的人物关系,对于没有仔细读过红楼梦或者是读得似懂非懂的同学们来说,我们可以利用 BERT 搭建起知识提取的机器学习模型提取红楼梦中的人物即实体,并分析人物与人物之间的关系...有一位作者利用 BERT 对红楼梦进行了一个简单的人物知识图谱建模,接下来我们将会详细说明作者是如何从红楼梦中抽取人物和关系。...1)数据准备:作者首先利用正则表达式从红楼梦提取对话,如果假设说出这段话的人的名字出现在这段话的前面,那么可以用这段话前面的一段话作为包含说话人(speaker)的上下文(context)。

94331

红楼梦》带给你的影响有多大?

以前在知乎,看到不少人说“少不读红楼”,于是针对看完《红楼梦》后产生悲观、抑郁、消极、虚无情绪这点来写写。 万紫千红总是空。 我曾在有哪些诗词稍微一改动,马上意境大变?里提到这句诗。...同样的《红楼梦》,又何尝不是呢?...《红楼梦》就像一场春事,从早春的“小青缀树,花信始传”、“有时三点两点雨,到处十枝五枝花”,到仲春的“夹岸桃花蘸水开”、“一枝化作两枝看”,最后归于暮春的“画梁春尽落香尘”、“岁华尽摇落,芳意竟何成”。...或许这就是很多人提到“少不读红楼”的原因,也是我自己曾经有过这段经历的原因:为什么看过红楼梦后,自己变得越来越消极,生活没了动力? 鲁迅说:“悲剧将人生的有价值的东西毁灭给人看”。...大家还记得《红楼梦》第三十一回,宝黛二人对待聚散的两种截然不同态度嘛: 那黛玉天性喜散不喜聚,他想的也有个道理。他说:“人有聚就有散,聚时喜欢,到散时岂不清冷?既清冷则生感伤,所以不如倒是不聚的好。

41520

干货 ▏用机器学习的方法鉴别红楼梦作者

作者:ituzhi(微信公众号:timeisnull) 在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。...本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。...基于支持向量机技术的《 红楼梦》 作者研究. 红楼梦学刊, (5), 35-52. 李贤平. (1978).《红楼梦》成书新说. 复旦学报(社会科学版). 特征选取 ?...这里的版本是网上下的电子版,版本不明,建议使用人民文学出版社 1982 年出版的《红楼梦》作为研究对象。 1~80 回有一些被分成了 2 类,可能是后 40 回作者在续写过程中对部章节进行了修改。

42330

用Python分析红楼梦,见证贾府的兴衰

写在前面 在上一篇文章,我们借用jieba分词工具,提取了《红楼梦》120回中的出现次数较高的词,然后用词云工具将结果画了出来。...这一次我们将会更细致分析红楼梦,而且由于jieba分词工具是基于现代白话文而进行分词,可能对红楼梦这种半白半古的文风分析起来有偏差。这里我们借鉴知乎的一篇文章,手动建立分词。...为了查看分词随着章节的变化,除了分析整本红楼梦,我们还将红楼梦120章回分开来,逐章进行分词分析。...作为红楼梦中的搞笑担当,刘姥姥的出场三个阶段十分明显,第6回刘姥姥一进荣国府、39回刘姥姥是信口开河、41回刘姥姥醉卧怡红院、113回忏宿冤凤姐托村妪。...后语 我们用文本分析方法,窥见了红楼梦中一些主要信息和情节变化。欢迎大家留言讨论,说出自己感兴趣的文本素材,比如小说,朋友圈,微博等等。

1.6K10

Python分析红楼梦,宝玉和十二钗的人物关系

红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析。...第二个是红楼梦人物有多个表达方式,最常见的是文本中有时候会给人物加上姓,如林黛玉;有时候不带上姓,如黛玉。还有贾元春有时候叫贾妃,元妃等: ?...人物关系网大全 上面展示的分析仅仅是宝玉和十二钗之间的简单分析,并不能看到整个红楼梦的全貌,这里给大家分享一个人物关系网大全: https://grapheco.github.io/InteractiveGraph...在这里你可以看到红楼梦几乎所有人物和关键地点之间的联系。 用鼠标点击人物头像后会出现相关介绍: ? 也可以看到和其他人物之间的关系,和这个人物的主要事件: ?...可谓是非常详尽了,用来辅助读红楼梦是再好不过了。

2.2K30
领券