专栏首页数据分析1480【实战】手把手教你数据分析实操--以在线教育为例!

【实战】手把手教你数据分析实操--以在线教育为例!

一. 熟悉数据集

数据来源于kaggle上关于2012-2016年Harvard and MIT两校在edX开设在线课程情况的研究。该数据集中共有290个在线课程的数据,字段信息23个,可大致分为4类:

1.课程相关字段

Institution课程机构
Course Number课程编号
Launch Date上线日期
Course Title课程名称
Instructors讲师
Course Subject课程主题
Year 课程持续时长(年)
Honor Code Certificates是否提供认证

2.数量相关字段:

Participants (Course Content Accessed) 学生数
Audited (> 50% Course Content Accessed) 完成 50%课程人数
Certified获得认证人数
Total Course Hours (Thousands)总计课程时长(千)
Median Hours for Certification获得认证的小时数的中位数

3.百分比相关字段:

% Audited 完成 50%课程人数占比
%Certified 认证人数占比
% Certified of > 50
% Course Content Accessed 认证人数在完成50%课程人数中占比
% Play Video 播放视频人数占比
% Posted in Forum 粘贴到论坛占比
% Grade Higher Than Zero分数高于0的百分比

4.学生信息相关字段:

Median age用户年龄中位数
% Male男性占比% Female女性占比
% Bachelor's degree or higher学生学士学历或以上占比

根据在线教育行业业务指标可提取相关字段,制成脑图,如下所示。

二. 提出问题

对这些数据做描述性统计分析也可以获取一些有价值的信息,首先提出问题:

1. 两院校课程分布如何?

2. 两院校学生分布如何?

3. 两院校学生课程完成情况如何?

三. 数据清洗

1. 选择子集

由于数据所含字段较多,根据分析所需对其他无关数据进行隐藏,选择相关数据另存到新的工作表中,方便进行下一步操作。

2. 列名重命名

此数据中列名为英文,将其改为中文。

3. 删除重复值

对课程名称进行操作删除重复值,发现同一课程名称但上线日期不同,应为有效数据,予以保留。

4. 处理缺失值

对数据区域进行空值的定位查找,发现无缺失值,每一列计数项均一致。

5. 一致性处理、排序、处理异常值

本数据较为规范,无需进行额外操作,可直接进行下一步分析。

四. 构建模型

1. 两院校课程主要包括为哪几类,各比例如何?

2. 两院校哪些课程较受欢迎,学生数较多?

3. 两院校课程学生男女比例如何?

4. 两院校课程学生完成情况如何?

5. 课程持续时长不同是否会影响学生完成情况?

五. 数据分析可视化

1.利用数据透视表,对两校课程进行分析,如图1所示,两校课程分为四类:

  • Computer Science(计算机科学
  • Government, Health, and Social Science(政府、卫生和社会科学)
  • Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
  • Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)

其中人文、设计、宗教和教育类和科学、技术、工程和数学类课程较多。

图1 各主题课程数量分布条形图

进一步对Harvard和MIT的课程进行分析,结果如图2、图3所示,Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大。

图2 HarvardX各类主题课程分布饼图

图3 MITx各类主题课程分布饼图

2. 以学生数为依据,将对两校课程分布进行降序排序并取排名前十,如表1所示, Harvard的在线课程《Introduction to Computer Science》和MIT的在线课程《Introduction to Computer Science and Programming》学生数较多,均为计算机科学类课程,并且连续4年开课均较受欢迎。

3.计算出每一课程男性、女性的学生数,以课程主题为依据制作数据透视表并制成饼图,如图4、图5所示,发现男性对计算机科学类和科学、技术、工程和数学类课程较感兴趣,女性对政府、卫生和社会科学类和人文、设计、宗教和教育类课程更感兴趣,即男性偏好理工类课程,女性偏好人文类课程。

图4 各类课程男性学生分布饼图

图5各类课程女性学生分布饼图

4.通过建立数据透视表,发现总计共有将近450万学生参与在线课程,24多万学生获得认证,进一步筛选剔除不提供课程认证的课程数据,如表3所示,发现Harvard完成 50%课程人数占该校学生数的17.43%,完成学习获得认证人数仅占5.14%。MIT完成 50%课程人数占该校学生数的15.89%,完成学习获得认证人数仅占5.82%。在缺乏同类平台数据情况对比,进行该数据来看,在线课程学习人数较多,但最后完成课程并获得认证的比例较少。

5.筛选出提供认证的课程,对课程持续时间这列数据进行文本属性转换,建立数据透视表并制条形图,如图6所示,发现课程持续时间为2年和3年是在获得认证人数中占比较高。

图6不同课程持续时长中获得认证人数占比条形图

六、结论

通过以上分析,可以得出一些比较有意思的结论:

1.Harvard和MIT两校的在线课程均有四类:

  • Computer Science(计算机科学)
  • Government, Health, and Social Science(政府、卫生和社会科学)
  • Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
  • Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)

其中Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大,两校风格有差异,即Harvard的在线课程偏人文类,而MIT在线课程偏理工类。

对于学生来说,可以根据课程类型在相应学校中进行选择。

2.根据两校在线课程中学生人数发现,有关计算机科学的课程较受欢迎。这也与目前计算机科学在社会发展中重要性有关,响应当下发展趋势,计算机科学人才需求量大。且在网络学习中,计算机科学课程较容易开展授课。

3.根据男女学生的课程偏好来看,男性偏好理工类课程,女性偏好人文类课程。学校可以结合自身特色,开展相应类型课程以扩大学生群体。

4.从完成50%课程和获得认证人数分析来看,相较于线下课程,线上课程的进行在学习结果上较不可控,课程持续时间为2年和3年是在获得认证人数中占比较高,这可能与学习者自身的自律性、课程本身的趣味性和学习监督相关,课程持续时间过长也可能影响最终结果。若想提升在线课程的学习成果,可以从以下几个方面着手:

  • 提升课程趣味性以提升学生学习兴趣;
  • 设置阶段性奖励或认证,帮助学习者获得成功体验以便更愿意坚持;
  • 课程持续时长不宜过长,根据具体课程进行设计调整;
  • 课程期间设置开课提醒,加强课程出勤率;
  • 对学习成果设置多种方式检测,更易获得认证。

本文分享自微信公众号 - 数据分析1480(lsxxx2011)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【Python可视化6】Seaborn之heatmap热力图

    Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seaborn其实是在matplotlib的基础上...

    1480
  • 如何用Python解决最优化问题?

    现有5个广告投放渠道,分别是日间电视、夜间电视、网络媒体、平面媒体、户外广告,每个渠道的效果、费用及限制如下表所示:

    1480
  • 你好,这30个Python常见错误都踩过吗!

    在这篇文章中,我将总结新老Python程序员常犯的一些错误,以帮助你们在自己的工作避免犯同样或类似错误。

    1480
  • 优质数据科学课程推荐:总结篇

    原作者   David Venturi 编译 CDA 编译团队 本文为  CDA 数据分析师原创作品,转载需授权 一年以前,我还只是一个没有任何编程经验的技术宅...

    CDA数据分析师
  • 云课堂Excel课程数据可视化分析

    我一直是网易云课堂的重度用户,从大二开始就一直在上面学习各种技能类课程,作为互联网在线教育的知名品牌,云课堂在某种程度上弥补了我们从校园到职场过渡过程中,很多技...

    数据小磨坊
  • GitHub 官方推荐的 20 个免费教程(上)

    GitHub 官方在去年发布过一篇文章,总结了 GitHub 上最受欢迎的 20 个课程仓库。

    GitHubDaily
  • GitHub 官方推荐的 20 个免费教程(下)

    GitHub 官方在去年发布过一篇文章,总结了 GitHub 上最受欢迎的 20 个课程仓库。

    GitHubDaily
  • 斯坦福大学《机器学习》课程-中文版内容(9.3)

    AI传送门
  • 斯坦福CS224n《基于深度学习的NLP》课程更新,C.Manning主讲

    近日,斯坦福大学官网公布了2019年度冬季cs224n课程:基于深度学习的自然语言处理的课程安排。本课程主讲人为斯坦福大学人工智能实验室主任,著名计算机科学家C...

    新智元
  • 斯坦福大学《机器学习》课程-中文版内容(3.6)

    AI传送门

扫码关注云+社区

领取腾讯云代金券