统计学入门需掌握的四点思想

虽然很多人经常接触统计,甚至读本科/硕士/博士时都学习过,但是当他们亲自处理数据时往往极易陷入懵逼状态,不知用哪种方法比较合适,不知如何选择更佳解决方案。这便使得不少人认为统计很难。

事实真是如此吗?实际上,在日常学习工作中统计可以说是数据分析的基石,而统计学则是数据挖掘和大数据的基础学科。

因此作为一门研究数据收集、整理与分析的学科,统计学无疑能够帮助我们实现数据运用的终极目标(终极目标:洞悉本质、确定规律、预测未来),而在掌握统计思想的前提下,选择恰当的统计分析方法将让我们更为科学地理解和掌握数据的本质。

统计核心思想虽然只有四点,但很精辟地总结了在统计过程中需要注意的重要环节:抽样思想、假设检验思想、小概率思想和误差控制思想。

(一)抽样思想

在对数据进行统计分析时,一般情况下所遇到的总体都是无限的,此时抽样是一个非常不错的选择。

(二)假设检验思想

统计学中说的检验主要分为四大类:t检验、方差分析、非参数检验和卡方检验,同时它们从属于假设检验思想。

当然,假设检验思想还包含了t/F检验、非参数检验、卡方检验等具体理论内容,该思想的核心就是假设:无效假设(H0)和备择假设(H1)。

利用假设可以将检验结果分出两种可能,而这两种可能的正确性论证将会交给小概率思想。

(三)小概率思想

有了假设后,就轮到小概率思想了。小概率思想是指小概率事件(P≤0.05)在一次试验中或抽样中基本不可能发生的。利用这个思想,我们是可以判断上一步所做出的假设是否正确,以便及时作出调整。

而我们获得科学研究的结果时,也需要给出事件的P值,这个P值将决定了科学研究成果的准确性和可靠性。

(四)误差控制思想

经历了上述三步之后,但是依然会出现错误的,这不仅是统计学自身的原因,还会有小概率思想的影响。也就是说尽管只有5%的概率,但还是有可能发生。

此时就需要误差控制了,而误差控制主要表现在三个方面:实验设计、实验过程和统计分析,在每一个阶段均利用各种方法进行合理调控以减少误差。

在统计学整个数理统计的过程中无时无刻都包含着这四个思想,只有熟练掌握这四个思想才能更好地达成统计的目的。

大家应该都知道,体现一个人的统计学功底主要在于实战应用上,那么,统计分析方法又该如何选择呢?判断的标准究竟是怎样的呢?

简单来说,统计分析方法的选择有三个核心要素:研究目的、统计设计和变量类型,其中判断的关键就是变量。而变量也分为三种类型:数值变量、等级变量和分类变量。

(一)数值变量

数值变量又称为计量资料或定距资料,从名字可以得知该变量是定量检测出来的,比如身高、体重,因此数值变量是能够进行加减运算的,在对两个或多个变量进行差异性分析的时候,我们可以选择 t 检验分析方法。

(二)等级变量

等级变量又称为有序变量,同样可以从名字得知该变量是存在着层次关系,比如初、中、高级的职称,因此等级变量只支持>或<,同时对该变量进行差异性分析时,我们是可以选择非参数检验分析方法的。

(三)分类变量

分类变量又称为计数资料或名义变量,主要有二分类和多分类两种,比如性别、民族,因此我们可以选择卡方检验分析法进行差异性分析。

说到这里,变量已经是介绍完毕了。不过大家应该可以看出,根据变量选择的只是差异性分析方法,而实际上统计分析方法并非只有一种。

如果用等级划分来表示的话,统计分析方法可以分为:描述性分析(初级)、差异性分析(中级)、关系性分析(高级)。

其中,描述性分析分为图表法和指标法,主要是适用于统计图表和计量、计数资料;差异性分析正如上述所说一样,针对的是数值型、分类型和等级型资料的检验;而关系性分析作为最高级别的方法,主要是寻找资料之间的关系建立数学模型。

原文发布于微信公众号 - 目标检测和深度学习(The_leader_of_DL_CV)

原文发表时间:2018-04-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

连载 | 概率论与数理统计(2) – 随机变量概述

作者:Belter。专注于生物方向的数据分析,一位编程爱好者。关注Python, R和大数据。

9310
来自专栏新智元

一文看懂系列之深入理解 RNN——神经图灵机(附代码)

【新智元导读】RNN无疑是深度学习的主要内容之一,增强型RNN大致可以分为四种,本文介绍第一种:神经图灵机。 背景介绍 在写《深度学习与神经科学相遇》的过程中开...

43870
来自专栏CreateAMind

深入理解 RNN-神经图灵机(代码)

在写《深度学习与神经科学相遇》的过程中开始谈到了RNNs(Recurrent Neural Networks),我想很有必要暂停下来先对RNNs进行一些更深入的...

19030
来自专栏机器之心

前沿 | 首次大规模神经机器翻译架构分析结果出炉,LSTM 优于GRU

选自arxiv 作者:Denny Britz等 机器之心编译 参与:微胖、蒋思源、吴攀 这样的实验只有谷歌级别的公司才能处理的了。这篇文章对大型 NMT 模型训...

464100
来自专栏专知

谷歌上线机器学习速成课程:中文配音+中文字幕+完全免费!

【导读】3月1日,Google上线了AI学习网站——Learn with Google AI,并重磅推出了机器学习速成课程MLCC,该课程基于TensorFlo...

54290
来自专栏数说工作室

异常值检测

之前发过一篇讨论文章——异常值怎么整。 在原文评论区里(戳此→异常值怎么整?| 讨论)得到了各位大大的指教,数说君也受益匪浅,现在整理一下供大家参考: 聚类 ...

36450
来自专栏AI科技大本营的专栏

探索 | 神经网络到底是如何思考的?MIT精英们做了这么一个实验室来搞清楚

作者 | Larry Hardesty等 编译 | ziqi Zhang 没错!人工智能是很火,神经网络也很火,但你真的懂它吗?神经网络到底是怎么工作的?没有...

34290
来自专栏新智元

【干货】怎样用深度学习做语音识别

【新智元导读】吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。归功于深度学习,这4%的准确率的提升使得语音识别...

1.3K80
来自专栏牛客网

牛客网平均水平的算法工程师面经分享

记录下渣硕的秋招经历,粗略估算大约海投了59家,真正面了9家左右吧,笔试大概也做了几十家吧,目前的情况是拿到了苏宁(准备拒)、好未来(已拒)、百度、腾讯的off...

941110
来自专栏人工智能快报

美国MIT研究人员揭示神经网络运行机制

美国麻省理工学院(MIT)官网报道该校在通用神经网络方面的研究进展可用于揭示神经网络的运行机制。理解神经网络的运行机制可以帮助研究人员增强其性能,并将从中获得的...

36250

扫码关注云+社区

领取腾讯云代金券