西电睿思年度非官方关键字榜单

西电睿思

西电睿思,建立于2009年9月,是一个面向西安电子科技大学师生的以资源共享为主,包括论坛在内诸多功能的综合集娱乐、学习、资源交流的平台。名字取自“睿智善思”和“resource”的谐音,网站的宗旨是“永远不去谋求任何商业利益,只为西电人有一个高速下载的地方,有一个开心聊天交朋友的地方而努力”。

初衷

首先要说的是真的特别喜欢睿思,也特别喜欢它的宗旨!“永远不去谋求任何商业利益,只为西电人有一个高速下载的地方,有一个开心聊天交朋友的地方而努力”。睿思背后的技术团队一定是伟大,灿烂的!技术也是有温度的!

之前写了一个简单的爬虫登录睿思领金币(其实我也没怎么领,因为金币够用。[偷笑][偷笑])。就有一个想法,希望年底能对睿思做一个报告分析,特别好奇西电er在学习磕盐之余关心什么。

本来的计划是爬取睿思全站的信息,后来因为种种事情忙的不可开交,只对西电睿思灌水专区、相聚睿思板块的发帖人、帖子标题。帖子内容进行了采集。当然,采集的时长和网速都有控制,不会对睿思服务器造成影响的~(采集过程中出了好多幺蛾子!xue微的用了人工“断点采集”……)

采集内容统计

板块:西电睿思灌水专区  
时间段: 2017-12-18~2016-10-7  
有效帖子数:24940  
字数:4102465
板块:相聚睿思  
时间段: 2017-12-19~2010-11-24   
有效帖子数:2618  
字数:439649
帖子总计:27558  
字数总计:4130023

灌水专区关键字榜单

对采集的信息首先进行了结巴分词,然后做了词频统计。使用了停用表过滤(就是过滤嗯、啊、的这些没意思的词语),发现还是有很多BBS的用语,就自己又建立了一个过滤表,体现我个人倾向以及非官方的时候到了[哈哈]。得到以下排行:

“可以”

“可以”?什么可以?可以什么? Are you ok ? 可以可以,很可以。我电孩纸们难道很佛系? 当然,也希望大家可以一直可以下去,2018年里一直可以!一直ok下去!

“他” “她”

“他”的次数出现了3280次。“她”的次数出现了1739次。

本来以为“食堂”(580)、“餐厅”(249)、“空调”(359)会上榜。看到这个榜单,其实还是比较符合睿思上的情况的。“工作”、“毕业”、“手机”、“研究生”、“流量”、“宿舍”等等,就是我们日常的日常啊。

缘聚睿思关键字榜单

“老乡”

缘聚睿思的板块,采集的数据比较久远。“老乡”一共出现了734次。看来大家还是喜欢找一个老乡或者喜欢给老乡找一个。“可以”又出现了,到底什么可以呢???希望一切都可以吧。

“妹子”

“妹子”出现排行第三,不知道怎么解释了。[尴尬]

“身高”

我觉得这个可能是最有意义的了,到底睿思的标准是不是173??刚刚写了个正则,发现还是不能很好的匹配出好的结果。(然而我要去忙了,后面再做分析吧)

(updating) ~~~

问题集合

遇到的问题:捕获异常、重复处理、网络异常502,504,数据库数据类型错误

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

Google I/O大会,炫酷产品汇总

北京时间5月19日凌晨,一年一度的谷歌 I/O大会正式拉开帷幕,带领观众及开发者共同瞻望即将到来的工具及技术。 Daydream VR ? 基于Daydrea...

235100
来自专栏PPV课数据科学社区

Data Exploration in Python USING

点击上方 “蓝色字” 可关注我们! ? ~~~~~~ PPV课其他精彩文章: ---- 1、回复“干货”查看干货 数据分析师完整知识结构 2、回复“答案”查...

32960
来自专栏java一日一条

优秀的前端开发工程师简历是怎么样的?

在阿里常年招聘,筛过各式各样的简历,每到招聘季,筛简历、面试过程非常耗精力,当然,原因之一是我想招非常优秀的人,宁可多花些时间,另一方面,除了那些不合格的简历之...

8710
来自专栏祝威廉

天天在做大数据,你的时间都花在哪了

那么延生出来,我们有没有想过大数据本身? 大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?

14130
来自专栏CDA数据分析师

电商数据分析基础方法:分拆,跟着用户走

在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我...

23060
来自专栏ThoughtWorks

浅谈软件项目规模估计——怎么估?

做事所花费的时间总是比你预期的要长,即使你的预期中考虑了侯世达定律。 —— 侯世达,哥德尔、埃舍尔、巴赫 ? 周三的下午,我像平常一样,写着代码听着歌,突然从...

40940
来自专栏华章科技

电商数据分析方法:分拆,跟着用户走

在理解了要选择怎样的指标来衡量各项业务之后,我们可以对业务有一个客观和全面的把握,可是数字本身无法告诉我们发生了什么事情,怎样可以改进。为了得到更深入的信息,我...

19470
来自专栏麦时说

如何在大脑超载时代深入思考

年初在弄房子装修的很多事情,可谓心力憔悴。那段时间上班时候就很难专注的思考,哪怕是持续短短的10分钟也显得力不从心。

21010
来自专栏程序员的知识天地

三年前端程序员应对阿里电话面试,过程心惊胆战!

看到这条消息,说真的,心里真的很高兴,老鸡冻的,但潜意识告诉我,我现在能力肯定过不了,于是自己就怂了,回了我不行之类的话,然而,HR叫我试试,于是我想到心理上一...

18310
来自专栏CDA数据分析师

原来,你是这样的R语言

? 今天给大家介绍一款在开源世界里集万千宠爱于一身的软件——R语言。 有多受宠呢?简单说,你能想到的地方都有它的身影。 做学术?看看R在各大语言排名系统的表...

266100

扫码关注云+社区

领取腾讯云代金券