Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小说中的词云。
这篇文章小编用两个个网页的代码带大家学习第一个HTML网页和HTML的标签1.第一个网页<html><head><title>my first html page</title></head><body>这是我的第一个HTML页面!</body></html>2.html标签<html><head><meta charset="utf-8" /><tit
进行这十三个人物在整本书的出场率统计还是比较简单的,我们只需要在分词结束和统计相关人物出现的频率。值得注意的是,有两个因素可以影响最后的统计准确性:
專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。兴趣不定,从机器学习、文本挖掘到文字识别以及各种杂七杂八的知识都有一点点涉猎。同时也对物理学有相当大的兴趣。 知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦》(1) 6 词频统
作为中国古典文学的瑰宝,《红楼梦》具有极高的文学价值和丰富的主题内涵(点击文末“阅读原文”获取完整代码数据)。
我们发现了一段存在[]中的谍报密码,为了破解他,我们必须先来学习一下,这个存放着谍报密码的[]
今天,一起用 Python 来理一理红楼梦里的那些关系 不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,红楼才是无可争议的中国古典小说只巅峰,且不接受反驳!而红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。 好了,不酸了,开干。
红楼梦是我国四大名著之一,被众多学者冠以四大名著之首的美誉,也是我们从学生时代开始就被老师灌输需要阅读的经典书籍(虽然我们学生时代未必阅读或读完过)。古人曾说“开谈不说《红楼梦》,读尽诗书也枉然。”,你学的知识再多,看的诗书再多,如果没看过《红楼梦》,那也就不算真正的懂知识、不算真正的饱览群书。毛主席曾说:“不读五遍红楼梦,没必要发表评论”,也说“《红楼梦》不仅要当做小说看,而且要当做历史看”,而我才读两遍也有点感想,想无病呻吟发点文字(请原谅我的浅薄)。鲁迅也曾说“对于《红楼梦》,经学家看见《易》,道学家看见淫,才子看见缠绵,革命家看见排满,流言家看见宫闱秘事……”,再次说明一百个读者有一百个哈姆雷特,而对于红楼梦,我觉得应该是每个读者的每次阅读感受下来都是不同的哈姆雷特。我不是红学研究者,也不是文字高手,这里只是把我看到的东西,体会到的东西,写出来与各位分享,将来我还会阅读第三遍、第四遍以及第N遍。我坚信,在我人生的不同阶段去阅读我们国家的经典一定会有不同的感受,也会令我收获一些东西。
原文链接:https://www.fkomm.cn/article/2018/8/2/27.html
导读:《红楼梦》、《亨利八世》都是经典的文学名著,许多历史和研究都暗示这些名著有不止一位作者,但文学界对此众说纷纭无法给出定论。而最近,基于人工智能和数据科学的研究发现,则是从数据分析的维度上,去区分一部作品的具体作者。
JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。Pycharm
没读过《红楼梦》也能知道前后四十回是不是一个作者写的?很久以前,数据侠黎晨,用机器学习的算法分析了《红楼梦》,认为后四十回和前八十回内容上有明显差距。不过,数据侠楼宇却不这么认为,他觉得原先的判定方法不够严谨,于是他使用了无字典分词的方式,剔除了情节对分析的影响,再次用机器学习的算法分析了这部文学名著。
專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。兴趣不定,从机器学习、文本挖掘到文字识别以及各种杂七杂八的知识都有一点点涉猎。同时也对物理学有相当大的兴趣。 知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦》(1) 用 Pyth
本文通过分析《红楼梦》的章回和词汇,使用聚类算法来发现贾府的兴衰变化。通过对比前后文,发现“笑道”这个词在全文中的权重变化,从贾府的鼎盛时期到衰败时期,体现出人物和贾府的命运变化。同时,通过分析“笑道”这个词在全文中的出现频率,可以发现贾府的兴衰与人物命运的变化具有密切的联系。
用R进行文本分析初探——以《红楼梦》为例 一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析。 文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息
一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么,在我和她解释了一会儿后,她嘱咐我好好写这篇博文,嗯为了娟儿同学,细细说一会儿文本分析。 文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词
在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。
这段代码设置了百度AI的APP_ID、API_KEY和SECRET_KEY,并使用这些参数创建了一个AipOcr对象。
在Python中,需要对字符串进行大量的操作,有时需要从一个字符串中提取到特定的信息,用切片肯定是不行的,所有这一节记录两个强大的文本处理模块,一个是正则表达式re模块,另一个是中文处理模块jieba,Here wo go!
在上一篇文章,我们借用jieba分词工具,提取了《红楼梦》120回中的出现次数较高的词,然后用词云工具将结果画了出来。
大数据、自然语言理解、人工智能在现今科技创新的时代已成为各行各业的热门词汇,教育领域当然也不例外。2018年1月,教育部将人工智能、物联网、大数据处理正式划入全国高中新课标。正在热议的两会,多位全国政协委员热议人工智能与教育:加快培养人工智能化人才,人工智能助力个性化学习,人工智能辅助教师工作(决策、教育、教学)等。
之前我们学到了模型的概念,提到了关联关系以及一些字段,现在我们来对这些知识进行扩充并且应用,那么就需要与数据库进行交互才能实现了。
在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。 项目存放在 reality-of-Dream-of-Red-Mansions 。 主要原理 每个作者写作都有自己的用词习惯和风格,即使是故意模仿也会留下很多痕迹。 在文言文中,文言虚词分布均匀,书中每个回目都会出现很多文言虚词,差别在于出现频率不同,我们把文言虚词的出现频率作为特征。 不只文
今天分享的是 b 站弹幕数据集,使用 b 站弹幕爬虫,抓取 b 站著名百大 up 主「木鱼水心」关于三国演义、水浒传、红楼梦这些四大名著最火的几个视频的弹幕列表。
以前在知乎,看到不少人说“少不读红楼”,于是针对看完《红楼梦》后产生悲观、抑郁、消极、虚无情绪这点来写写。
作者:纪宏、袁卫 纪宏:现任首都经济贸易大学统计学系主任、教授、统计学和数量经济学博士生导师。袁卫:中国人民大学调查与数据中心主任,统计学院教授,博士生导师(摘自百度百科) 开篇不谈《红楼梦》,读尽诗书也枉然,曹公若懂概率论,不让马尔可夫链。 ——国际红学大会未入选论文 俄国著名数学家马尔可夫(1865-1922),在对俄语字母序列的研究中,提出了马尔可夫随机过程,后来扩展成统计学的一个分支,对现代统计学的发展产生了深刻影响。语言结构中所蕴藏着的统计规律,成了马尔可夫创造性思想的源泉。作为人类语言和文学发
上篇文章我们对MongoDB中的查询操作做了简单介绍,本文我们继续来看更丰富的查询操作。 本文是MongoDB系列的第六篇文章,了解前面的文章有助于更好的理解本文: ---- null null的查询稍微有点不同,假如我想查询z为null的数据,如下: db.sang_collect.find({z:null}) 这样不仅会查出z为null的文档,也会查出所有没有z字段的文档,如果只想查询z为null的字段,那就再多加一个条件,判断一下z这个字段存在不,如下: db.sang_collect.find({z
前几天在Python白银交流群有个叫【大侠】的粉丝问了一个Python列表处理的问题,这里拿出来给大家分享下,一起学习下。
实际工作中,最常使用的当属回归类模型,其次便是客户画像。即便是评分模型也会涉及到客户画像,由于首富客户的违约特征与普通百姓不同,故需进行区分,信用分池即为客户画像。
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分 Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。 CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。而且这些选择器构造于‘lxml’之上,这就意味着Scrapy框架下的数据筛选有着很高的效率。
中华文明浩浩五千年,在这光辉灿烂的历史长河中,各时代的先哲圣人们留下了大量的文学典籍,这些文学作品极大地丰富了我们的精神世界。而《三国演义》、《水浒传》、《西游记》、《红楼梦》这四部作品更如皇冠上的明珠,俨然已经成了中国古代文学的象征。这四部文学作品历久不衰,是汉语文学史中不可多得的经典作品,其中的故事、场景、人物已经深深地影响了中国人的思想观念、价值取向,是中国文学史上的四座伟大丰碑。
蒋勋语速不快,但90分钟的演讲始终让人着迷。“今天跟大家分享‘天地有大美’,这一直是我最喜欢的一句话,它是庄子的句词……‘天地有大美’不止在讲艺术,而是说我们在成长的过程里,怎么样发现世界上唯一的一件最珍贵的作品?其实就是在座的各位,你是比《蒙娜丽莎》那个画更珍贵的,你是比贝多芬的《命运交响曲》更珍贵的,艺术不可能比人的生命本身更珍贵。”美学家蒋勋在大陆办的第一场讲座,不仅座无虚席,在蜻蜓FM、优酷、爱奇艺等平台上也有上万人围观看直播。6月9日他在上海的讲座,据说活动报名页面一发布,不到两天就被抢光。蒋勋说,非常不敢当让这么多朋友辛劳跑到这里来,还有很多是从远地来的。对于这些资深“薰衣草”(蒋勋粉丝代称),主办方蜻蜓FM安排他们坐在前四排,而后才是VIP、媒体、报名观众。
-多年互联网运维工作经验,曾负责过大规模集群架构自动化运维管理工作。 -擅长Web集群架构与自动化运维,曾负责国内某大型金融公司运维工作。 -devops项目经理兼DBA。 -开发过一套自动化运维平台(功能如下): 1)整合了各个公有云API,自主创建云主机。 2)ELK自动化收集日志功能。 3)Saltstack自动化运维统一配置管理工具。 4)Git、Jenkins自动化代码上线及自动化测试平台。 5)堡垒机,连接Linux、Windows平台及日志审计。 6)SQL执行及审批流程。 7)慢查询日志分析web界面。
如果让爆火的人工智能聊天机器人ChatGPT续写《红楼梦》后四十回,会得到什么样的结局呢?
这次写一篇对于HTML以及CSS的简介,平常我们大家都知道的编程语言有很多种,比如Java、C++、Python等等,每种编程语言都有其独具的特色,不论是语法格式还是表达形式,都能让每个程序员沉淀在知识的海洋里难以自拔。即每种编程语言都有无限的延展性。但如果我们考虑问题的时候能够追溯其根源,其实也不难发现每种编程语言都具有共同的初心,最直白的话就是人与计算机进行沟通的语言,在现实生活中,见什么人说什么话我们都很清楚,那在与计算机沟通的世界中,做什么事用什么编程语言沟通也是同样的道理,前提就是我们要了解这些编程语言,在你需要选择的时候做出正确的判断,这也正是我写此篇文章的意义。在学习一门编程语言之前,了解它的特性,带着对特性的好奇和疑问去学习是最快最好的学习方法,就像你知道有个地方有很多宝藏,有藏宝图和没藏宝图意义是不一样的,带着藏宝图去寻找宝藏,你一定会大有收获的。
專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。兴趣不定,从机器学习、文本挖掘到文字识别以及各种杂七杂八的知识都有一点点涉猎。同时也对物理学有相当大的兴趣。 知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 1 前言 两个月以来,我通过互联网自学了一些文本处理的
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/167736.html原文链接:https://javaforall.cn
今日元宇宙概述:《红楼梦全本图》动态数字藏品上线阿里资产;淘宝元宇宙商标申请被驳回;日本首相:区块链、NFT 和元宇宙是日本未来战略增长的一部分;扎克伯格:将从本周开始在 Instagram 上测试数字收藏品;韩国SK电讯旗下元宇宙ifland将新增加密货币经济系统,拟下半年进军80个国家;数据存储巨头希捷科技已提交元宇宙及NFT相关商标申请;NFT 项目 Freeverse 完成 1050 万美元融资,Earlybird Venture Capital 等参投。
玩过Hadoop的小伙伴对MapReduce应该不陌生,MapReduce的强大且灵活,它可以将一个大问题拆分为多个小问题,将各个小问题发送到不同的机器上去处理,所有的机器都完成计算后,再将计算结果合并为一个完整的解决方案,这就是所谓的分布式计算。本文我们就来看看MongoDB中MapReduce的使用。 ---- mapReduce MongoDB中的MapReduce可以用来实现更复杂的聚合命令,使用MapReduce主要实现两个函数:map函数和reduce函数,map函数用来生成键值对序列,map函
前言:出于种种原因,总是不自觉把爱好和工作相互结合起来,每每感叹于曹雪芹构思的巧妙,语言的精炼,情节的感人……于是蹦出想法,看机器能否读懂“宝黛”之间的爱情。
回顾2017,始终紧跟历史进程的DT君,带大家用数据视角探索世界:从人工智能到共享经济,从影视热点到古典文学,我们探索过新零售的“门店秘密”,也挖掘过城市空间的“可视化创新”;我们讨论过科技圈最前沿的算法,也揭示过潜藏在人际关系数据中的社会价值……今天DT君精选出年度十篇数据侠好文回馈各位新老粉丝,祝你们携满干货跨入2018年。
作者介绍:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据
“ 拜读过徐麟兄(公众号“数据森麟”)发布的《“水泊梁山“互联网有限公司一百单八将内部社交网络》,真的是引人深思,辗转反侧啊(我已经不知道用什么词来形容了
(会用到连接运算,固定写法,连接运算在下面不用着急看) 先假设两张表: Table NSA1:
大家先自己写一下,船长写这个花了半个小时,因为我和大家一样,也是新手: 写一个页面如下,点击书名以后跳转到书的详情页 书的信息如下: books = [ { 'id': 1,
本文是作者2023年8月底新开的专栏——《文本挖掘和知识发现》,主要结合Python、大数据分析和人工智能分享文本挖掘、知识图谱、知识发现、图书情报等内容。此外,这些内容也是作者《文本挖掘和知识发现(Python版)》书籍的部分介绍,本书预计2024年上市,采用通俗易懂和图文并茂的形式描述,会更加系统地介绍文本挖掘和知识发现,共计20章节内容,涵盖上百个案例。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望我们都能在人生路上共同成长。
机器能跟人类交流吗?能像人类一样理解文本吗?这是大家对人工智能最初的想象。如今,NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活,我们随时可以享受到 NLP 技术带来的便利,语音识别、机器翻译、问答系统等等。
第三章 数据存储 第一节 json文件处理: 什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。更多解释请见:https://baike.baidu.com/item/JSON/246
一、内存分配 1、数值型内存分配 1 <script> 2 var num1; //这个时候不进行内存分配 3 var num3=9;//分配内存 4 var num4=num3;//会不会分配 5 6 // 这里到底分配还是不分配内存?? 7 // 答案 --分配内存 彼此拥有独立的内存空间,互不影响 8 console.log(num3); 9 console.log(num4); 10 11 num3=3333
table-striped配合 “:nth-child”选择器使用,来改变默认的颜色效果,也称之为隔行变色或斑马线,起到两种不同颜色变化的效果,条纹状态的表格
领取专属 10元无门槛券
手把手带您无忧上云