前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【实战】手把手教你数据分析实操--以在线教育为例!

【实战】手把手教你数据分析实操--以在线教育为例!

作者头像
1480
发布2020-03-13 13:42:24
7280
发布2020-03-13 13:42:24
举报

一. 熟悉数据集

数据来源于kaggle上关于2012-2016年Harvard and MIT两校在edX开设在线课程情况的研究。该数据集中共有290个在线课程的数据,字段信息23个,可大致分为4类:

1.课程相关字段

Institution课程机构
Course Number课程编号
Launch Date上线日期
Course Title课程名称
Instructors讲师
Course Subject课程主题
Year 课程持续时长(年)
Honor Code Certificates是否提供认证

2.数量相关字段:

Participants (Course Content Accessed) 学生数
Audited (> 50% Course Content Accessed) 完成 50%课程人数
Certified获得认证人数
Total Course Hours (Thousands)总计课程时长(千)
Median Hours for Certification获得认证的小时数的中位数

3.百分比相关字段:

% Audited 完成 50%课程人数占比
%Certified 认证人数占比
% Certified of > 50
% Course Content Accessed 认证人数在完成50%课程人数中占比
% Play Video 播放视频人数占比
% Posted in Forum 粘贴到论坛占比
% Grade Higher Than Zero分数高于0的百分比

4.学生信息相关字段:

Median age用户年龄中位数
% Male男性占比% Female女性占比
% Bachelor's degree or higher学生学士学历或以上占比

根据在线教育行业业务指标可提取相关字段,制成脑图,如下所示。

二. 提出问题

对这些数据做描述性统计分析也可以获取一些有价值的信息,首先提出问题:

1. 两院校课程分布如何?

2. 两院校学生分布如何?

3. 两院校学生课程完成情况如何?

三. 数据清洗

1. 选择子集

由于数据所含字段较多,根据分析所需对其他无关数据进行隐藏,选择相关数据另存到新的工作表中,方便进行下一步操作。

2. 列名重命名

此数据中列名为英文,将其改为中文。

3. 删除重复值

对课程名称进行操作删除重复值,发现同一课程名称但上线日期不同,应为有效数据,予以保留。

4. 处理缺失值

对数据区域进行空值的定位查找,发现无缺失值,每一列计数项均一致。

5. 一致性处理、排序、处理异常值

本数据较为规范,无需进行额外操作,可直接进行下一步分析。

四. 构建模型

1. 两院校课程主要包括为哪几类,各比例如何?

2. 两院校哪些课程较受欢迎,学生数较多?

3. 两院校课程学生男女比例如何?

4. 两院校课程学生完成情况如何?

5. 课程持续时长不同是否会影响学生完成情况?

五. 数据分析可视化

1.利用数据透视表,对两校课程进行分析,如图1所示,两校课程分为四类:

  • Computer Science(计算机科学
  • Government, Health, and Social Science(政府、卫生和社会科学)
  • Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
  • Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)

其中人文、设计、宗教和教育类和科学、技术、工程和数学类课程较多。

图1 各主题课程数量分布条形图

进一步对Harvard和MIT的课程进行分析,结果如图2、图3所示,Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大。

图2 HarvardX各类主题课程分布饼图

图3 MITx各类主题课程分布饼图

2. 以学生数为依据,将对两校课程分布进行降序排序并取排名前十,如表1所示, Harvard的在线课程《Introduction to Computer Science》和MIT的在线课程《Introduction to Computer Science and Programming》学生数较多,均为计算机科学类课程,并且连续4年开课均较受欢迎。

3.计算出每一课程男性、女性的学生数,以课程主题为依据制作数据透视表并制成饼图,如图4、图5所示,发现男性对计算机科学类和科学、技术、工程和数学类课程较感兴趣,女性对政府、卫生和社会科学类和人文、设计、宗教和教育类课程更感兴趣,即男性偏好理工类课程,女性偏好人文类课程。

图4 各类课程男性学生分布饼图

图5各类课程女性学生分布饼图

4.通过建立数据透视表,发现总计共有将近450万学生参与在线课程,24多万学生获得认证,进一步筛选剔除不提供课程认证的课程数据,如表3所示,发现Harvard完成 50%课程人数占该校学生数的17.43%,完成学习获得认证人数仅占5.14%。MIT完成 50%课程人数占该校学生数的15.89%,完成学习获得认证人数仅占5.82%。在缺乏同类平台数据情况对比,进行该数据来看,在线课程学习人数较多,但最后完成课程并获得认证的比例较少。

5.筛选出提供认证的课程,对课程持续时间这列数据进行文本属性转换,建立数据透视表并制条形图,如图6所示,发现课程持续时间为2年和3年是在获得认证人数中占比较高。

图6不同课程持续时长中获得认证人数占比条形图

六、结论

通过以上分析,可以得出一些比较有意思的结论:

1.Harvard和MIT两校的在线课程均有四类:

  • Computer Science(计算机科学)
  • Government, Health, and Social Science(政府、卫生和社会科学)
  • Humanities, History, Design, Religion, and Education(人文、设计、宗教和教育)
  • Science, Technology, Engineering, and Mathematics(科学、技术、工程和数学)

其中Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大,两校风格有差异,即Harvard的在线课程偏人文类,而MIT在线课程偏理工类。

对于学生来说,可以根据课程类型在相应学校中进行选择。

2.根据两校在线课程中学生人数发现,有关计算机科学的课程较受欢迎。这也与目前计算机科学在社会发展中重要性有关,响应当下发展趋势,计算机科学人才需求量大。且在网络学习中,计算机科学课程较容易开展授课。

3.根据男女学生的课程偏好来看,男性偏好理工类课程,女性偏好人文类课程。学校可以结合自身特色,开展相应类型课程以扩大学生群体。

4.从完成50%课程和获得认证人数分析来看,相较于线下课程,线上课程的进行在学习结果上较不可控,课程持续时间为2年和3年是在获得认证人数中占比较高,这可能与学习者自身的自律性、课程本身的趣味性和学习监督相关,课程持续时间过长也可能影响最终结果。若想提升在线课程的学习成果,可以从以下几个方面着手:

  • 提升课程趣味性以提升学生学习兴趣;
  • 设置阶段性奖励或认证,帮助学习者获得成功体验以便更愿意坚持;
  • 课程持续时长不宜过长,根据具体课程进行设计调整;
  • 课程期间设置开课提醒,加强课程出勤率;
  • 对学习成果设置多种方式检测,更易获得认证。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档