首页
学习
活动
专区
工具
TVP
发布

Python 分析《红楼梦》(2)

專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦...(括号内为频数) 通过分词后的词频,我们发现《红楼梦》中的人物戏份由多到少依次是宝玉、凤姐、贾母、袭人、黛玉、王夫人和宝钗。...根据估算的词频表中正确单词的比例,我估计《红楼梦》的词汇量大约是 1.6 万。...莫非《红楼梦》的最后 40 回真的不是同一个作者写的?! 别着急,分析还没结束。

1.8K50

Python 分析《红楼梦》(1)

專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...(文章:用机器学习判定红楼梦后40回是否曹雪芹所写)作者的结论是后四十回的用词和前八十回有明显的差距。...考虑到版权问题,我决定不提供《红楼梦》原文。如果想复现实验结果的话,可以去找小说网站下载。(更新:根据网友提醒,《红楼梦》因为作者去世远远超过 100 年而进入公有领域,不受版权限制。...也可在这里获取《红楼梦》全文:紅樓夢 - 维基文库,自由的图书馆。) 2 文本预处理 这一步很基础,就不赘述了。...最后,我使用了 Ukkonen 算法快速地创建了整篇《红楼梦》的后缀树(用专业的语言描述 Ukkonen 算法的速度:它的时间复杂度是 O(n))。

2K80
您找到你想要的搜索结果了吗?
是的
没有找到

Python 分析《红楼梦》(全)

專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦...》(1) 用 Python 分析《红楼梦》(2) 9.3 再次分析 在之前的分析中我们发现,“笑道”这个词似乎和情节的关系比较大,并且严重影响到了我们的分析。...总之,我有点把握认为《红楼梦》前 80 回和后 40 回的用词是有一些差异的,不过因为难以排除剧情的影响,所以我对于作者是不是同一个人这个问题还不敢下定论。

2.3K100

Python分析红楼梦,见证贾府的兴衰

写在前面 在上一篇文章,我们借用jieba分词工具,提取了《红楼梦》120回中的出现次数较高的词,然后用词云工具将结果画了出来。...这一次我们将会更细致分析红楼梦,而且由于jieba分词工具是基于现代白话文而进行分词,可能对红楼梦这种半白半古的文风分析起来有偏差。这里我们借鉴知乎的一篇文章,手动建立分词。...为了查看分词随着章节的变化,除了分析整本红楼梦,我们还将红楼梦120章回分开来,逐章进行分词分析。...作为红楼梦中的搞笑担当,刘姥姥的出场三个阶段十分明显,第6回刘姥姥一进荣国府、39回刘姥姥是信口开河、41回刘姥姥醉卧怡红院、113回忏宿冤凤姐托村妪。...后语 我们用文本分析方法,窥见了红楼梦中一些主要信息和情节变化。欢迎大家留言讨论,说出自己感兴趣的文本素材,比如小说,朋友圈,微博等等。

1.5K10

Python分析红楼梦,宝玉和十二钗的人物关系

红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析。...第二个是红楼梦人物有多个表达方式,最常见的是文本中有时候会给人物加上姓,如林黛玉;有时候不带上姓,如黛玉。还有贾元春有时候叫贾妃,元妃等: ?...我们使用Python中Echarts将人物关系网画出来: ? 这里圆圈的大小代表人物出场的频率,通过将鼠标发在两个人物之间的边上面,可以显示人物之间关联的次数: ?...在这里你可以看到红楼梦几乎所有人物和关键地点之间的联系。 用鼠标点击人物头像后会出现相关介绍: ? 也可以看到和其他人物之间的关系,和这个人物的主要事件: ?...可谓是非常详尽了,用来辅助读红楼梦是再好不过了。

2.2K30

Python 来理一理红楼梦里的那些关系

问题或建议,请公众号留言或加本人微信; 如果你觉得文章对你有帮助,欢迎加微信交流 今天,一起用 Python 来理一理红楼梦里的那些关系 不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,...而红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。 好了,不酸了,开干。...数据准备 红楼梦 TXT 文件一份 金陵十二钗 + 贾宝玉 人物名称列表 人物列表内容如下: 宝玉 nr 黛玉 nr 宝钗 nr 湘云 nr 凤姐 nr 李纨 nr 元春 nr 迎春 nr 探春 nr...数据处理 读取数据并加载词典 with open("红楼梦.txt", encoding='gb18030') as f: honglou = f.readlines()...renwu_forcut", header=-1) mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()] 这样,我们就把红楼梦读取到了

97220

Python绘制红楼梦词云图,竟然发现了这个!

Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小说中的词云...这里我们需要注意两点: 1、为了提高分词的准确度,我们最好寻找我们分词的词库,这里我下载到了红楼梦的分词库,加载如jieba中,然后再进行分词。...wordcloud.fit_words(segStat.head(1000).itertuples(index=False)) plt.imshow(wordcloud) plt.close() 好了,这个就是用Python...绘制红楼梦词云的结果,你发现了什么玄机没有?...我有一个微信公众号,经常会分享一些python技术相关的干货;如果你喜欢我的分享,可以用微信搜索“python语言学习” 关注。欢迎大家加入千人交流答疑裙:699+749+852

1.3K30

红楼梦、法律,BERT 已有如此多的神奇应用

红楼梦知识提取 ?...红楼梦人物知识图谱,来源 http://kw.fudan.edu.cn/ 知识图谱是人工智能研究中的核心问题,它是人类对世界的近似表示与理解,能够赋予机器精准查询、理解与逻辑推理等能力。...知识图谱也能够辅助我们快速了解小说的人物关系,对于没有仔细读过红楼梦或者是读得似懂非懂的同学们来说,我们可以利用 BERT 搭建起知识提取的机器学习模型提取红楼梦中的人物即实体,并分析人物与人物之间的关系...有一位作者利用 BERT 对红楼梦进行了一个简单的人物知识图谱建模,接下来我们将会详细说明作者是如何从红楼梦中抽取人物和关系。...1)数据准备:作者首先利用正则表达式从红楼梦提取对话,如果假设说出这段话的人的名字出现在这段话的前面,那么可以用这段话前面的一段话作为包含说话人(speaker)的上下文(context)。

93731

红楼梦》带给你的影响有多大?

以前在知乎,看到不少人说“少不读红楼”,于是针对看完《红楼梦》后产生悲观、抑郁、消极、虚无情绪这点来写写。 万紫千红总是空。 我曾在有哪些诗词稍微一改动,马上意境大变?里提到这句诗。...同样的《红楼梦》,又何尝不是呢?...《红楼梦》就像一场春事,从早春的“小青缀树,花信始传”、“有时三点两点雨,到处十枝五枝花”,到仲春的“夹岸桃花蘸水开”、“一枝化作两枝看”,最后归于暮春的“画梁春尽落香尘”、“岁华尽摇落,芳意竟何成”。...或许这就是很多人提到“少不读红楼”的原因,也是我自己曾经有过这段经历的原因:为什么看过红楼梦后,自己变得越来越消极,生活没了动力? 鲁迅说:“悲剧将人生的有价值的东西毁灭给人看”。...大家还记得《红楼梦》第三十一回,宝黛二人对待聚散的两种截然不同态度嘛: 那黛玉天性喜散不喜聚,他想的也有个道理。他说:“人有聚就有散,聚时喜欢,到散时岂不清冷?既清冷则生感伤,所以不如倒是不聚的好。

41420

Python分析《红楼梦》:见证了贾府的兴衰,你是否还能“笑道”世事无常

没读过《红楼梦》也能知道前后四十回是不是一个作者写的?很久以前,数据侠黎晨,用机器学习的算法分析了《红楼梦》,认为后四十回和前八十回内容上有明显差距。...(DT君注:数据侠黎晨原文《从没看过红楼梦,如何用机器学习判定后40回并非曹雪芹所写》)作者的结论是后四十回的用词和前八十回有明显的差距。...在很多用PCA分析《红楼梦》的博文里,大家都是用出现频率最高的词来分析的。然而问题是,万一频率最高的词是和情节变化相关的呢?...所以,我有点把握认为《红楼梦》前八十回和后四十回的用词是有一些差异的。不过因为难以完全排除剧情的影响,所以我也还不敢下定论。...注:本文是作者《用Python分析红楼梦》文章的编辑版,文中图片均来自作者,仅代表作者观点,不代表DT财经立场。

69300

Python分析《红楼梦》:见证了贾府的兴衰,你是否还能“笑道”世事无常

没读过《红楼梦》也能知道前后四十回是不是一个作者写的?很久以前,数据侠黎晨,用机器学习的算法分析了《红楼梦》,认为后四十回和前八十回内容上有明显差距。...(DT君注:数据侠黎晨原文《从没看过红楼梦,如何用机器学习判定后40回并非曹雪芹所写》)作者的结论是后四十回的用词和前八十回有明显的差距。...在很多用PCA分析《红楼梦》的博文里,大家都是用出现频率最高的词来分析的。然而问题是,万一频率最高的词是和情节变化相关的呢?...所以,我有点把握认为《红楼梦》前八十回和后四十回的用词是有一些差异的。不过因为难以完全排除剧情的影响,所以我也还不敢下定论。...注:本文是作者《用Python分析红楼梦》文章的编辑版,文中图片均来自作者 本文数据侠楼宇,一位热爱技术的理工男。曾经的 OIer,现已退坑。同时也对机器学习、网页制作和摄影感兴趣。现在美国读本科。

88370

干货 ▏用机器学习的方法鉴别红楼梦作者

作者:ituzhi(微信公众号:timeisnull) 在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。...本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。...基于支持向量机技术的《 红楼梦》 作者研究. 红楼梦学刊, (5), 35-52. 李贤平. (1978).《红楼梦》成书新说. 复旦学报(社会科学版). 特征选取 ?...这里的版本是网上下的电子版,版本不明,建议使用人民文学出版社 1982 年出版的《红楼梦》作为研究对象。 1~80 回有一些被分成了 2 类,可能是后 40 回作者在续写过程中对部章节进行了修改。

41830

python入门教程NO.3 用python破解谍报密码

本文涉及的python基础语法为:列表及其方法 列表 我们发现了一段存在[]中的谍报密码,为了破解他,我们必须先来学习一下,这个存放着谍报密码的[] 列表是python内置的一种序列,其他的序列我们后面会一一介绍...,我们可以通过列表的索引来获取它的元素,示例如下: list1 = ['西游记', '三国演义', '水浒传', '红楼梦'] #字符串格式一定要记得加上引号 print(list1[0])...'的索引 #输出:红楼梦 列表的切片 列表的切片格式是list[start:end:step] start:起始索引,从0开始,-1表示结束 end:结束索引 step:步长,步长为正时,从左向右取值。...步长为负时,反向取值 注意切片的结果不包含结束索引,即不包含最后的一位,通常我们称为左闭右开, -1代表列表的最后一个位置索引 list1 = ['西游记', '三国演义', '水浒传', '红楼梦']...问题的中涉及的python列表方法都已经在上面的表格里面

81120
领券