专栏首页钱塘大数据【数说】从知乎320万用户爬取的信息分析与数据可视化

【数说】从知乎320万用户爬取的信息分析与数据可视化

art 1: 动机

作为一个知乎的重度用户,我深深的被知乎社区的高素质群体所吸引,这也是我在微信朋友圈、新浪微博、baidutieba等社区见不到的东西。那么为什么知乎这个社区的群体素质偏高呢,这些用户究竟都是干什么的,来自哪里,从事什么职业,爱好什么话题呢,有多少名校的学生?等等,这些有趣的问题都是我所关心的。

Part 2: 数据

我用scrapy

http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html

http://python.jobbole.com/85125/

爬取了知乎328w用户的基本信息。这些信息包括:

aggree_count: 得到的点赞数 answer_count: 得到的支持数 carrer : 职业 city :所在城市 company :所在公司 education :哪所大学毕业 most_good_topic :最擅长的话题 topic_list: 关注哪些话题 job :工作

这些信息被我放在了user1.json-user48.json这48个json文件中。共计差不多1.7G,如果想要数据的话,可以私信我,或者直接发邮件给我。邮箱和联系方式我都会在下面给出。

Part 3: 读取并清理数据

import os import ujson as json #使用ujson解析更快一些 import pandas as pd data_list = [ ] base_dir = 'E:\python\数据堂数据\data1\zhihu_bigdata'data_list = [ ] for i in range(1,49): file_name = 'user%d.json' %i df = json.load(open(os.path.join(base_dir,file_name))) data_list.extend(df) df = pd.DataFrame(data_list)

上面的10多行代码的作用是:一次解析user1.json到user48.json文件,最后转化成pandas.Dataframe中。

df.info() #总体了解一下信息 out: <class 'pandas.core.frame.DataFrame'> Int64Index: 3288208 entries, 0 to 3288207 Data columns (total 15 columns): aggree_count object answer_count object article_count object article_list object carrer object city object company object education object job object most_good_topic object name object question_count object thanks_count object topic_list object url object dtypes: object(15) memory usage: 401.4+ MB

我们的df数据帧中包含了328w条数据,共计有15个字段,只有部分字段是我们感兴趣的,我们提取感兴趣的字段。并随机抽样1个用户查看结果:

df = df[["aggree_count","answer_count","carrer","company","job","education","city","most_good_topic","topic_list"]] #选取我们感兴趣的话题 df.sample(1) #抽样选取1个,查看情况

aggree_count

answer_count

carrer

company

job

city

most_good_topic

topic_list

[32]

[11]

[]

[]

[]

北京

[iOS]

[应用, 设计, RSS, iPhoto, iPhone 应用, 健康, Dribb...]

从显示结果上来看,每个数据段的格式都是list,这些并不是我们想要的,对于有的数据段,我们需要的是int格式,有的数据段,我们需要的是字符串格式。

def list2str(obj): if (isinstance(obj,list)): return ''.join(obj) else: return obj def list2int(obj): if(isinstance(obj,list)): if obj: return obj[0] else: return obj

上面两个函数分别把list转化成int和string

df.aggree_count  = df.aggree_count.map(list2int)
df.answer_count = df.answer_count.map(list2int)

df.carrer = df.carrer.map(list2str)
df.company = df.company.map(list2str)
df.job = df.job.map(list2str)
df.city = df.city.map(list2str)
df.education = df.education.map(list2str)
df.most_good_topic = df.most_good_topic.map(list2str)
df.sample(10)  #随机抽取10个样本查看

样本

我们蛋疼的发现,在carrer和job上,有的人只填了一个,或者两个都填了,或者两个都没填,为了了解知乎用户的具体职业,我们为数据框新添了一个字段:occupation

#我们再来了解一下,在知乎上活跃的人,都是做什么工作的:job和career #因为有的用户,只有job信息,或者career信息,或者都有,或者都没有 #对于这两项信息全部没有的用户,我们直接忽略 #如果都有,那么我们选择career #只有一个话,我们选择有的那一个 def job_career2occupation(obj): if obj['carrer'] and not obj['job']: return obj['carrer'] elif (not obj['carrer'] and obj['job']): return obj['job'] elif (not obj['carrer'] and not obj['job']): return '' else: return obj['carrer'] df['occupation'] = df.apply(job_career2occupation,axis=1) df.replace(to_replace = '',value = np.nan,inplace=True) #对于数据段出现空的字符段,我们用np.nan来代替。

Part 4: 数据可视化

4.1:出获得点赞数最多的人,最擅长哪些领域

假如我们是一个知乎新用户,我们希望得到更多人的关注和认可,那么我们首先应该知道那些话题更容易得到别人点赞 我们尝试着找出获得点赞数最多的人,最擅长哪些领域 most_good_topic = df.sort(columns=['aggree_count','answer_count'],ascending = [False,False]).most_good_topic most_good_topic.dropna(inplace=True) most_good_topic.drop_duplicates(inplace = True) most_good_topic.values[:20] out: array(['人物 ', '德语 ', '心理学专业 ', '阅读 ', 'DotA ', '游戏 ', '社会现象 ', '健康 ', '汽车 ', '调查类问题 ', '纽约 ', '电子商务 ', '足球 ', '编程 ', '积累中 ', '工作体验 ', '摄影入门 ', '经济学 ', '飞机 ', '视频剪辑 '], dtype=object)

我们对在知乎上特别活跃的用户进行了统计,发现获得点赞数比较多的人,擅长哪些问题。

我们还想知道,知乎上的这些超级活跃的用户,都是干什么工作的 most_occupation = df.sort(columns=['aggree_count','answer_count'],ascending = [False,False]).occupation most_occupation.dropna(inplace=True) most_occupation.drop_duplicates(inplace = True) most_occupation.dropna(inplace=True) out: array(['信息传媒', '教育', '民用航空业', '高等教育', '地产建筑', '计算机硬件', '首席点赞师', '汽车', '计算机软件', '法律', '电子商务', '建筑设备', '互联网', '金融', '飞行员', '政府', '创意艺术', '高新科技', '广播电视', '进出口贸易'], dtype=object)

从上面的结果上,可以看出,知乎上用户高素质也是有原因的,活跃的用户大多数从事信息,互联网,高等教育等前沿职业。

我们想知道知乎上的用户,在哪里工作。 换句话说,我们想知道那些地区的知乎用户比较集中 我们提取用户拥有量前20位的才城市 import matplotlib.pyplot as plt import seaborn as sns top_20city = df.city.value_counts()[:20] sns.set_style("darkgrid") bar_plot = sns.barplot(x=top_20city.index,y=top_20city.values, palette="muted", x_order=top_20city.index.tolist()) for label in bar_plot.get_xticklabels(): label.set_fontproperties(font) plt.xticks(rotation=90) plt.show()

用户拥有量前20个城市

从结果上看,北上深广占据前四名,同时也说明了这四个大城市对人才的吸引力,另外杭州表现的也很突出,我觉得可能的原因是杭州也非常好的创业文化和基因,难道是阿里带动的,这个需要进一步去发现。

我们想知道哪些高校的学生用知乎,换句话说, 我们希望找出拥有用户数量最多的二十个高校。 import matplotlib.pyplot as plt import seaborn as sns top_20education = df.education.value_counts()[:20] sns.set_style("darkgrid") bar_plot = sns.barplot(x=top_20education.index,y=top_20education.values, palette="muted", x_order=top_20education.index.tolist()) for label in bar_plot.get_xticklabels(): label.set_fontproperties(font) plt.xticks(rotation=90) plt.show()

高校拥有用户数量排行版

非常出乎我的意料,竟然浙江大学的知乎用户最多,难道浙江大学招生已经那么多啦,还是我的样本数太少了(328w不算少啦),但是令我欣慰的是大武大排名第二,华中柯基大学竟然也排名第四,呵呵。

我们想知道各个地区的用户的就业情况,准确来说,我们想知道各个城市的高素质人群最喜欢从事什么职业,这在城市之间有差别吗,我们取每个城市,用户从业最多的五个职业 上面的表述转化成程序语言就是:对数据框按城市分组,再找出每个城市的人从业最多的五个职业,为了简单,我们只选择那二十个大城市 df_big_city = df[df.city.isin(top_20city.index)] #我们的研究对象只是知乎用户数量的前二十名城市 df_big_city_with_occupation = df_big_city[df_big_city.occupation.notnull()] #过滤掉职业为空的用户 def get_top5_city_occupation(grouped): grouped = grouped.occupation.value_counts()[:5] return grouped group = df_big_city_with_occupation.groupby('city') group.apply(get_top5) out: city

上海    互联网      28149
      计算机软件     8749
      金融        4343
      高新科技      3947
      电子商务      3045北京    互联网      80233
      计算机软件    11418
      高新科技      6138
      金融        5250
      电子商务      4802南京    互联网       4579
      计算机软件     2805
      高等教育      1021
      高新科技       949
      通信         720厦门    互联网       2638
      计算机软件      692
      电子商务       489
      电子游戏       375
      高新科技       368大连    计算机软件      869
      互联网        653
      高等教育       225
      金融         195
      高新科技       189天津    互联网       1442
      计算机软件      687
      高等教育       542
      金融         340
      地产建筑       325
               ...

由于篇幅有限,我没有列出所有的城市,我们可以看到在前二十个城市中,排名前五的职业,都有互联网和计算机软件,另外科研这个职业在所有的城市中,只出现一次,还是在美国,我们可以大致猜测一下,去美国工作的人应该有相当一部分拥有博士背景甚至更高的学历,看来真的是美国的科研环境好一些,中国都是忙着赚钱呢。

排名前二十城市的职业情况

Part 5 总结

其实我还远远没有挖掘掉这320w用户的信息,我们还可以得到更多的信息,数据是会说话的,如果我的工作对你有一点启发或者帮助的话,那么我将很高兴。

本文分享自微信公众号 - 钱塘大数据(qtbigdata)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 刚拿诺贝尔奖,第二天就把1亿1500万奖金都花了!这才是日本的可怕之处!

    拥有1.26亿人口的岛国在18年间,拿下了18个诺贝尔奖;更让人恐怖的是,包括已经加入了美国国籍的两位日本人在内,日本人已经有将近30人将诺贝尔奖囊入怀中。

    钱塘数据
  • 那盆被骂了30天的植物终于死了:语言到底有多恐怖的能量?

    最近阿联酋的宜家进行了一个实验,这个实验先开始并不起眼,但实验的结果,却震惊了全世界...

    钱塘数据
  • 涵盖AI、大数据…揭秘新工科到底“新”在哪儿

    近日,教育部办公厅印发《关于公布首批“新工科”研究与实践项目的通知》,认定612个项目为首批“新工科”研究与实践项目。教育部新工科项目的正式认定,意味着备受高教...

    钱塘数据
  • 知乎320万用户的信息分析与数据可视化

    art 1: 动机 作为一个知乎的重度用户,我深深的被知乎社区的高素质群体所吸引,这也是我在微信朋友圈、新浪微博、baidutieba等社区见不到的东西。那么为...

    机器学习AI算法工程
  • 工具 | 知乎320万用户的信息分析与数据可视化

    art 1: 动机 作为一个知乎的重度用户,我深深的被知乎社区的高素质群体所吸引,这也是我在微信朋友圈、新浪微博、baidutieba等社区见不到的东西。那么为...

    小莹莹
  • Python中字段抽取、字段拆分、记录抽取

    1、字段抽取 字段抽取是根据已知列数据的开始和结束位置,抽取出新的列 字段截取函数:slice(start,stop) 注意:和数据结构的访问方式一样,开始位置...

    Erin
  • Pandas进阶修炼120题,给你深度和广度的船新体验

    本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。

    数据派THU
  • pandas模块(很详细归类),pd.concat(后续补充)

    https://pandas.pydata.org/pandas-docs/stable/?v=20190307135750

    小小咸鱼YwY
  • Pandas 常见用法总结

    TalkPython
  • 基于机器学习算法的时间序列价格异常检测(附代码)

    异常检测也称为异常值检测,是一种数据挖掘过程,用于确定数据集中发现的异常类型并确定其出现的详细信息。 在当今世界,由于大量数据无法手动标记异常值,自动异常检测显...

    量化投资与机器学习微信公众号

扫码关注云+社区

领取腾讯云代金券