专栏首页智能计算时代统计学基础知识

统计学基础知识

1.统计学基本概念

统计学:收集、处理、分析、解释数据并从中得出结论的科学。

数据分析的方法可分为描述统计和推断统计。

注意:分类变量如“行业”,其变量值可以为“零售业”、“旅游业”、“汽车制造业”;顺序变量如“产品等级”,其变量值可以位“一等品”、“二等品”、“次品”。分类变量与顺序变量均可称为定性变量、属性变量。

2.数据的收集

注意: 在抽查中可根据具体项目采取概率抽样和非概率抽样相结合的方式,收集数据也可以采用自填、电访、面访相结合的方式以节省成本。 在间接来源中,注意对二手数据评估,可以考虑:数据是谁收集的?为什么目的收集的?数据怎么收集的?什么时候收集的?避免对二手数据的错用、误用、滥用。

3.数据的描述

3.1数据的概括性度量

注意:在excel 数据---“数据分析---描述统计 中能得到所有指标值。

3.2数据的图表展示

说明:不同的箱线图对应的分布如下

注意事项:图表应简洁、合理的表达统计目的,不应在图形的修饰上花费太多时间。在绘制图形时,应避免一切不必要的装饰,注重图形所要表达的信息,图形产生的视觉效果应与数据所体现的事物特征一致,不得歪曲数据。

统计表是用于展示数据的另一个基本工具,一般由表头、行标题、列标题和数字资料组成,必要时在统计表的下方添加数据来源、变量注释和说明等。统计表的横竖比例要适当,避免出现过高或过宽的情况;表头标题应满足3W原则(when、where、what),统计表中应注明单位,表的上下两条线一般用粗线,中间的其它线用细线;通常情况下,统计表左右两边不封口,列标题之间在必要时可用竖线分开,而行标题通常不必用横线分开;表中数据一般是右对齐,有小数点时小数点对齐,小数点位数统一,对于没有数字的单元,一般用“—”表示,表中不应出现空白单元格。

4.回归与分类

4.1回归:数值型变量(因)——数值型变量(自)

拟合优度指标

检验方法

是否需要假设分布背景

准确度排名

线性回归

判定系数 R2

F统计量、t统计量

4

决策树

判定系数 R2

交叉验证

5

boosting

判定系数 R2

交叉验证

2

随机森林

判定系数 R2

交叉验证

1

支持向量机

判定系数 R2

交叉验证

3

线性回归属于经典统计学,模型能够写成公式,而其它几种方式属于现代方法,模型体现在算法之中,这些方法广泛应用于机器学习或数据挖掘之中。算法模型适用范围比经典的统计模型根据广泛。在处理巨大的数据集上,在无法假定任何分布背景的情况下,在面对众多竞争模型,算法模型较经典模型有着不可比拟的优越性。

4.2分类:分类变量(因)——数值型变量(自)

拟合优度指标

检验方法

是否需要假设分布背景

准确度排名

Logistic回归

因变量只能为2个变量

线性判别分析(Fisher判别法)

错分比例

交叉验证

4

决策树

错分比例

交叉验证

5

boosting

错分比例

交叉验证

3

随机森林

错分比例

交叉验证

1

支持向量机

错分比例

交叉验证

2

说明:Logistic回归、线性判别分析(Fisher判别法)均属于经典统计的内容。支持向量机是基于数学模型但充分结合了计算机的算法。

4.3分类:分类变量(因)——分类变量(自)

拟合优度指标

检验方法

是否需要假设分布背景

准确度排名

决策树

错分比例

交叉验证

2

boosting

错分比例

交叉验证

1

随机森林

错分比例

交叉验证

1

附:

列联分析:分类变量是否相关

列联表是若干分类变量的各种可能取值组合的出现频数分布表,主要目的是看这些变量是否想关。如:

方差分析:分类变量对数值型变量是否有显著影响

方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量(分类型)对因变量(数值型)是否有显著影响。可分为单因素方差分析,双因素方差分析。如:

5.多元分析

5.1寻找多个变量的代表:主成分分析和因子分析

5.2把对象分类:聚类分析

详见《多元统计分析》、《实用多元统计分析》

本文分享自微信公众号 - 智能计算时代(intelligentinterconn),作者:小冯知识库

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何销售IoT-6个最佳实践

    权力下放问题 在企业环境中,信息技术(IT)解决方案和服务的买家已经很成熟,已知。但是当谈到物联网解决方案时,实际上购买的是谁,而且如何出售IoT也不甚清楚。 ...

    首席架构师智库
  • 三个无人讨论的大数据的发展趋势

    您在一年前讨论大数据将与今天的对话截然不同。 我们最近看到数据科学从外围功能显着转变为核心功能,更大的团队解决日益复杂的分析问题。我们已经看到数据科学平台的快速...

    首席架构师智库
  • 75个每个人都应该知道的大数据术语

    在第一篇文章中介绍了以下术语:算法,分析,描述性分析,规定分析,预测分析,批处理,Cassandra,云计算,集群计算,黑暗数据,数据湖,数据挖掘,数据科学家,...

    首席架构师智库
  • 断篇-金融大数据最佳实践总结篇

    版权声明:版权所有,作者:张子良,转载请注明出处。 https://blog.csdn.ne...

    数据饕餮
  • 一文看懂BDTC 2018:探秘大数据新应用(附PPT下载)

    12 月 8 日,北京新云南皇冠假日酒店,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的 2018 中国大数据...

    AI科技大本营
  • 大数据处理技术,特点及作用

    要理解大数据这一概念,首先要从”大”入手,”大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别...

    机器学习AI算法工程
  • 传统生意与产品,终将被大数据摧毁?

    文 / 吴晓波,本文来源于吴晓波频道 预测未来最好的方法,就是去创造未来。 ——亚伯拉罕·林肯 有一部影片叫《预见未来》,影片中尼古拉斯·凯奇饰演的男主角能够预...

    CDA数据分析师
  • “魔方大数据——新零售+数据智能论坛”在上海圆满落幕

    7月17日,由沪苏浙皖四地大数据联盟共同主办的“2018长三角数据智能合作(上海)峰会”在国家会展中心上海洲际酒店成功举办。大会汇集了超过100名数字经济工作相...

    数据猿
  • 断篇-大数据金融行业企业应用几点思考

      任何数据分析或者挖掘的项目都不会直接产生经济价值和意义,分析出的数据结果既不能给企业直接带来一个客户,也不能帮助企业卖出一件产品。数据分析的价值体现在于业务...

    数据饕餮
  • GEO数据库挖掘(2)--快速锁定目标数据

    在上一期的推文 GEO数据库挖掘(1)--SCI文章速成 ,我们讲解了关于GEO数据库的背景知识,想必大家也了解了GEO是一个非常实用和权威的基因表达谱数据库。...

    用户6317549

扫码关注云+社区

领取腾讯云代金券