技术|Anaconda分析:统计学知识回顾

人力资本分析的重点归根结底还是在于分析,统计学作为数据分析的基础,是每一个尝试进入人力资本分析领域的小伙伴得不得了解的内容。

图片来自网络,如侵删

统计学是学什么的

统计学习是一套以理解数据为目的的庞大工具集

统计学习的工具可以分为两类:有指导的学习和无指导的学习。

一般而言,有指导的统计学习工具主要有两种用途:一是面向预测的统计模型的建立;二是对一个或多个给定的输入估计某个输出

无指导的统计问题中,往往有输入变量,但是不指定输出变量,旨在学习数据的关系和结构。

我们假设输入变量为X,输出变量为Y,给出这样一个很一般的式子:

Y=f(X)+ε

其中ε表示随机误差项,f表示X提供给Y的系统信息。一般而言,函数f会涉及多个输入变量,统计学的学习就是关于估计f的一系列方法

一般来说,对于f的估计会基于两种目的:预测和推断,我们建模的类型无非三种,预测、推断和两者混合。

预测:输入集X是已知的,但输出Y是不易获得的,分析的目的是找到一个尽可能准确的f使得对Y的估计尽量准确(预测一定会存在误差),至于f是什么形式的我们可以当作黑箱。

推断:很多情况下,我们对X对Y产生了怎样的影响感兴趣,这种情况下,f的形式就变得非常重要的,不能当作黑箱处理。

根据分析目的的不同,估计f的方法可能是不同的。

如何估计f

大多数统计方法可以分为两类:参数方法和非参数方法。

参数方法

参数方法是一种基于模型估计的两阶段方法。

(1)首先假设函数f具有一定的形式或形状

(2)一旦模型被选中后,就需要用训练数据集去拟合或训练模型

参数方法是基于模型的方法,首先对f进行了假设以简化问题,使得参数估计更加容易,但由于选定的模型与真正的f不一定一样,会导致f估计的效果很差。

非参数方法

非参数方法不需要对函数f的形式进行明确的假设,但是由于没有将估计f的方法简化,所以为了获得对f更为精确的估计,往往需要大量的观测点。

参数方法和非参数方法各有所长。

常用模型

统计学分析统计的工具非常多,对于人力资本分析来说,最常用的分析方法包括:回归分析、判别分析、聚类分析、主成分分析四类分析方法。

接下来的教程中,将基于软件的使用,结合具体的业务场景进行介绍,其中会穿插一些基础的统计学知识,计划尽可能地少介绍统计学理论,将目光更集中在业务和软件操作上。

参考文献

《An Introduction To Statistical Learning With Applications In R》Rareth James & Daniela Witten & Trevor Hastie &Robert Tibshirani

本文分享自微信公众号 - HR大数据(gh_7fc377a9568f)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏崔庆才的专栏

应届起薪 28w、不限专业、行业人才缺口 150w 的岗位……

抱歉大家,由于我的时间安排失误,这几天的推广连续集中在一起了,的确有点频繁,请大家谅解。这次推广是介绍来自优达学城的一门数据类课程,优达的课程质量一向是非常高的...

11340
来自专栏芋道源码1024

终于有人把 Elasticsearch 原理讲透了!

搜索是现代软件必备的一项基础功能,而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎。

19330
来自专栏Java3y

通俗易懂理解hive是什么

找到工作到正式上班之间的这段时间总是惬意的,小史决定利用这段时间把一些经典电影重温一下。

30250
来自专栏韩锋频道

漫谈“数据湖”

数据湖这一概念,最早在2011年首次提出由CITO Research网站的CTO和作家Dan Woods提出的。其比喻是:如果我们把数据比作大自然的水,那么各个...

17230
来自专栏飞总聊IT

大数据不再是大数据,大数据依然是大数据--我的一篇严肃总结

由于各种原因,我似乎缺了一篇严肃的文章,来阐述我本人对大数据这个领域的看法,以至于有人看到我这篇文章里的这个观点,就扩展到了我认为的那个领域里的那个观点。我还是...

16230
来自专栏飞总聊IT

宋仲基宋慧乔没能找到对的人,算法能帮我们找到么?

场景描述:寻找能够相伴一生的灵魂伴侣是很多人的美好愿望,但现实往往残酷。为此,基于大数据,机器学习,AI 算法的婚恋网站和应用纷纷出招,它们能够帮助广大单身男女...

15560
来自专栏机器学习算法与Python学习

Python奇淫技巧,5个数据可视化工具

数据可视化的工具和程序库已经极大丰盛,当你习惯其中一种或数种时,你会干得很出色,但是如果你因此而沾沾自喜,就会错失从青铜到王者的新工具和程序库。如果你仍然坚持使...

14020
来自专栏机器学习算法与Python学习

普通码农如何正确学习机器学习的知识?

这背后所利用的技术就是人工智能中很重要的神经网络与机器学习,神经网络模拟电信号在人脑神经元之间的传递过程,对输入数据进行处理。利用分层的神经元,从大量样本数据中...

12420
来自专栏机器学习算法与Python学习

除Kaggle外,还有哪些顶级数据科学竞赛平台

在数据科学圈晃荡的小伙伴,很少有不知道Kaggle的。Kaggle不仅是一个竞赛平台,也提供了非常好学习机会。通过比赛,你可以接触最先进的方法和数据集、可以与志...

11920
来自专栏携程技术中心

干货 | 每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用

蔡岳毅,携程酒店大数据高级研发经理,负责酒店数据智能平台研发,大数据技术创新工作。喜欢探索研究大数据的开源技术框架。

29930

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励