前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >技术|Anaconda分析:统计学知识回顾

技术|Anaconda分析:统计学知识回顾

作者头像
做数据的二号姬
修改2019-07-20 11:10:15
5860
修改2019-07-20 11:10:15
举报
文章被收录于专栏:HR大数据HR大数据

人力资本分析的重点归根结底还是在于分析,统计学作为数据分析的基础,是每一个尝试进入人力资本分析领域的小伙伴得不得了解的内容。

图片来自网络,如侵删
图片来自网络,如侵删

统计学是学什么的

统计学习是一套以理解数据为目的的庞大工具集

统计学习的工具可以分为两类:有指导的学习和无指导的学习。

一般而言,有指导的统计学习工具主要有两种用途:一是面向预测的统计模型的建立;二是对一个或多个给定的输入估计某个输出

无指导的统计问题中,往往有输入变量,但是不指定输出变量,旨在学习数据的关系和结构。

我们假设输入变量为X,输出变量为Y,给出这样一个很一般的式子:

Y=f(X)+ε

其中ε表示随机误差项,f表示X提供给Y的系统信息。一般而言,函数f会涉及多个输入变量,统计学的学习就是关于估计f的一系列方法

一般来说,对于f的估计会基于两种目的:预测和推断,我们建模的类型无非三种,预测、推断和两者混合。

预测:输入集X是已知的,但输出Y是不易获得的,分析的目的是找到一个尽可能准确的f使得对Y的估计尽量准确(预测一定会存在误差),至于f是什么形式的我们可以当作黑箱。

推断:很多情况下,我们对X对Y产生了怎样的影响感兴趣,这种情况下,f的形式就变得非常重要的,不能当作黑箱处理。

根据分析目的的不同,估计f的方法可能是不同的。

如何估计f

大多数统计方法可以分为两类:参数方法和非参数方法。

参数方法

参数方法是一种基于模型估计的两阶段方法。

(1)首先假设函数f具有一定的形式或形状

(2)一旦模型被选中后,就需要用训练数据集去拟合或训练模型

参数方法是基于模型的方法,首先对f进行了假设以简化问题,使得参数估计更加容易,但由于选定的模型与真正的f不一定一样,会导致f估计的效果很差。

非参数方法

非参数方法不需要对函数f的形式进行明确的假设,但是由于没有将估计f的方法简化,所以为了获得对f更为精确的估计,往往需要大量的观测点。

参数方法和非参数方法各有所长。

常用模型

统计学分析统计的工具非常多,对于人力资本分析来说,最常用的分析方法包括:回归分析、判别分析、聚类分析、主成分分析四类分析方法。

接下来的教程中,将基于软件的使用,结合具体的业务场景进行介绍,其中会穿插一些基础的统计学知识,计划尽可能地少介绍统计学理论,将目光更集中在业务和软件操作上。

参考文献

《An Introduction To Statistical Learning With Applications In R》Rareth James & Daniela Witten & Trevor Hastie &Robert Tibshirani

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 做数据的二号姬 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 统计学是学什么的
  • 如何估计f
  • 常用模型
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档