专栏首页一行数据【没落的985/211】Python爬取知乎8万字回答进行高校分析

【没落的985/211】Python爬取知乎8万字回答进行高校分析

最近知乎一个“有哪些较原来没落的985/211院校?”的问题引起了很多人的关注,回答者各种分析,但是究竟哪些学校是公认最没落的却没有定论

所以行哥尝试爬取了一共8万字的回答,通过统计的方式来找出公认最没落的学校,顺便从这些没落的学校里找出新的解读给大家分享一波,快看看有没有你的学校在里面[手动狗头]

  • 爬取文字
  • 分词
  • 分析排名
  • 机会

爬取文字

关于爬取知乎回答的代码,之前行哥有介绍过,总体就是获取知乎的问题号,利用api和正则表达式提取内容,具体可以看以下两篇推文(里面包含了源代码获取方式)

【安排】23行代码爬取知乎全部回答(内附源码和应用程序)

一分钟爬取知乎5646个知乎回答(内附代码)

分词

使用了一款高颜值的词云包来进行统计分析。stylecloud 是一位数据科学家Max Woolf基于wordcloud优化改良而成。并添加了一些有用的功能,从而创建出独特的词云。

关键是它只需要两行代码就可以直接生成词云,不要太简单。

# 公众号:一行数据
from stylecloud import gen_stylecloud
gen_stylecloud(file_path='知乎回答.txt')

生成效果如下:

词云图中分布了各种大学的名字,快看看能不能找到你的学校

分析排名

当然词云统计并没有进行量化,不能看到大家公认的没落学校,所以行哥将8万字中提到了学校做了一个统计,该统计通过大学校名的全称和简称分别进行统计,同时未考虑某些别称(如世一大,窝工等)

统计出的结果如下图所示

大学全称统计

大学简称统计

无论是校名全称排名还是简称排名,我们都可以看到南京大学是公认的没落院校第一名,虽然现在也很厉害,但是曾经却属于亚洲第一的中央国立大学,被拆分成3所985和4所211学校,可见相对于过去的落末程度

其次兰大,东大,南开等这些老牌学校,它们的没落各有各的原因,但总体都有一个很大共同点,它们的强势专业基本集中在环化材生领域,据说“21世纪是生物的世纪”[再次手动狗头],估计还需要再等等把

机会

机会1:学校的没落意味着相对生源质量降低,竞争程度减少。对于想读研考不上热门学校热门专业的同学来说,这个排名也可以作为选学校的小小依据

机会2:后几名的某些学校,要么是名字太长在回答时写的别的简称(例如南七技校)没有统计出来,要么就是真正的没落了,没落到没人提了。但是这些学校也挂着211/985的牌子,可以作为考研的一个考虑哦

统计为0的学校

机会3:以点看面,无论是学校还是个人都无法逃脱时代大势的影响,已经上了环化材生大船的同学可得早点规划下自己未来,不然没落的不仅是学校了,还有.....

本文分享自微信公众号 - 一行数据(rowdata),作者:行哥

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 3秒爬取百度图片网站,批量下载各种图片

    行哥写了30行Python代码来帮你解决这个问题,现在你只要对代码进行复制、粘贴、运行三连就可以爬取你想要的图片。

    行哥玩Python
  • TOP50 Python可视化经典案例下(附源码,建议收藏)

    昨天行哥给大家统计了数据可视化前30张图表代码和案例给大家,今天把分享Python可视化案例TOP 50下,如果想转行做数据分析,这两篇推文强烈建议收藏,对于学...

    行哥玩Python
  • 为什么我们这么穷【Python分析】

    ‍有一个问题不知道有没有缠绕你很久,就是“为什么我们这么穷?”。原因是我们不够努力,还是我们的爹不够努力,是运气不好,还是时代的问题。行哥今天就用Python来...

    行哥玩Python
  • 次世代SIEM?IBM眼中的SOAPA

    安全信息和事件管理(SIEM)产品及服务负责从大量企业安全控件、主机操作系统、企业应用和企业使用的其他软件中收集安全日志数据,并进行分析和报告。 有些SIEM还...

    FB客服
  • R语言入门之变量重编码与重命名

    在很多时候,我们需要对数据进行分类,比如根据血糖值将患者分成糖尿病组与非糖尿病组,亦或者按照年龄将样本分为老年人,中年人和青年人等等,这些就需要我们对数据进行重...

    生信与临床
  • 做TO B产品, 积木式产品思维还是链条式服务思维?

    导语 | 其实我一直不懂互联网圈很多人心中的那个“产品梦”,有时候我甚至觉得自己对于腾讯最提倡的的“产品思维”这四个字也是懵逼的。 然而当我不断比较我与同事所服...

    腾讯大讲堂
  • auth模块(登录验证)

    #这个可以拿到这个django自带的User的表,这个是django自己的用户认证的表(创建超级用户和普通用户的表)

    py3study
  • 『实战渗透』Zabbix-弱口令再到命令执行Getshell

    通过DOCUMENT_ROOT函数得知网站的绝对路径是/opt/httpd-2.4.29/htdocs:

    用户6343818
  • 腾讯云双12服务器秒杀 2M带宽2核4G 993元/1年 5M带宽8核16G 6907元/3年 1M带宽1核1G 168元/1年

    腾讯云双12服务器秒杀进行到25日了,上午看点是2M带宽2核4G,993元/1年;5M带宽8核16G,6907元/3年;1M带宽1核1G,168元/1年。

    魏艾斯博客www.vpsss.net
  • 『实战渗透』Zabbix-弱口令再到命令执行Getshell

    通过DOCUMENT_ROOT函数得知网站的绝对路径是/opt/httpd-2.4.29/htdocs:

    7089bAt@PowerLi

扫码关注云+社区

领取腾讯云代金券