想成为数据科学家?这5个基本统计学概念不能不知道!

译者:TalkingData 赵磊

原文作者:George Seif

如果说数据科学是一门艺术,那统计学可谓是这门艺术的敲门砖,从高层次的角度来看,统计是利用数学对数据进行技术分析。一个很基本的数据可视化如条形图,就能解读出一些高级的信息。

而通过统计学,就能以一种更加以信息驱动和更有针对性的方式来操作数据,所用到的数据的方法,可以帮助我们对数据形成具体的结论,而不是靠拍脑袋的猜测。

通过使用统计学,我们可以更深入细致地去了解数据的构造,基于该结构,还可以用其他数据科学来获取更多的信息,将结果最大化。本文将和大家分享数据科学家们需要了解的5个基本统计概念,以及如何更有效地运用它们,希望对小伙伴们有所帮助。

//

统计特征

//

统计特征大概是数据科学家种最常用的统计概念了,它通常是数据科学家们在研究数据集时应用的第一种统计技术,包括偏差、方差、平均值、中位数、百分位数等等。比较容易让人理解以及在代码中去实现,如下图:

一个简单的箱型图

中线是数据的中位数,由于中位数对离群值的鲁棒性更强,因此中位数比平均值用得更多。第一个四分位数本质上是第25百分位数,表示数据中25%的点低于这个值。第三个四分位数是第75百分位数,表示数据中75%的点都低于这个值。最小值和最大值表示数据范围的上、下端。

这个箱型图完美地阐述了我们能用基本统计特征做什么:

当框图很短时,它意味着许多数据点是相似的,因为在小范围内有许多值;

当框图很长时,它意味着许多数据点是完全不同的,因为这些值分布在一个较广的范围内;

如果中值更接近底部,就可以知道大多数数据的值更低;

如果中值更接近顶部,就可以知道大多数数据都有更高的值;

基本上,如果中值线不在方框中间,那么它就表示数据有偏斜;

是否有长尾?这意味着你的数据有很高的标准差和方差,说明这些值是分散的,高度不同。如果在盒子的一边有长尾而在另一边没有,那么数据可能只在一个方向上有很大的变化;

以上这些信息都来自一些简单的、容易计算的统计特征,当需要对数据进行快速而有效的查看时,可以尝试这些方法。

//

概率分布

//

我们可以将概率定义为某个事件发生的概率百分比。在数据科学中,通常在0到1之间进行量化,0表示确信不会发生,1表示确信它会发生。概率分布是一个函数,表示实验中所有可能值的概率。

详情请看下面的图表:

均匀分布是本文三个分布中最基本的分布,它只有一个只出现在某个范围内的值,而超出这个范围的任何值都是0。通常,它是一种“开关”分布。我们也可以把它看作是一个有两个类别的分类变量:0或其他值。分类变量可能有多个非0的值,但我们仍然可以把它想象成多个均匀分布的分段函数。

正态分布通常被称为高斯分布,由均值和标准差定义。均值在空间上平移分布,标准差控制分散程度。与其他分布的重要的区别(比如泊松分布)是,其所有方向上的标准差都是一样的。

泊松分布与正态分布相似,但增加了偏斜因子。在偏态值较低的情况下,泊松分布会像正态分布一样向各个方向均匀发散。但当偏度值较大时,我们的数据在不同方向的发散会有所不同;在一个方向,它将非常分散,而在另一个方向,它将高度集中。

虽然有很多的分布可以深入研究,但上述三个分布已经可以为我们带来很多探索的价值,比如:可以用均匀分布快速地查看和解释分类变量。如果看到一个高斯分布,就能知道可以用很多算法去处理它。有了泊松分布,就必须小心谨慎地选择一种对空间发散的变化具有鲁棒性的算法。

//

降维

//

降维这个术语很容易理解:我们有一个数据集,希望减少它的维数。在数据科学中,它是特征变量的数量。

请看下面的图表:

降维

立方体代表数据集,它有三个维度,总共有1000个点。虽然1000个点的计算在今天很容易处理,但是,更大范围的点我们仍然会遇到很多问题。若是仅从二维的角度来看数据,例如从立方体的一边可以看到,划分所有的颜色很容易,通过降维,我们可以将三维数据投射到二维平面上。这有效地将我们需要计算的点数减少了100,大大节省了计算量。

特征剪枝是另外一种降维的方法。通过特征剪枝,可以删除对分析不重要的任何特征。例如,在研究数据集之后可能会发现在10个特性中,7个特性与输出强相关,而其他3个特性的相关性很低。那么,这3个低相关特性可能不值得计算,可以根据分析在不影响输出的情况下将它们删除。

当前用于降维的最常见技术是PCA,它本质上是创建了特征的向量表示,显示它们对输出的重要性,比如相关性。PCA可以用于上面讨论的两种降维方式。

//

过采样与欠采样

//

过采样和欠采样是用于分类问题的技术。有时分类数据集可能会严重倾斜到一边。例如,类1有2000个样本,但类2只有200个。这将对很多常用于建模并预测的机器学习技术带来影响,但过采样和欠采样可以改变这一点。

示例请看下面的图表:

欠采样与过采样

上图中蓝色类比橙色类拥有更多的样本,在这种情况下,有两个预处理选项可以帮助于机器学习模型的训练。

欠采样意味着将只从多数类中,只使用与少数类样本数相同的数量,并且这个方案应当保证采样后类别的概率分布与之前相同。操作并不复杂,其实只是通过取更少的样本来平衡数据集。

过采样意味着将创建少数类的副本,以便拥有与多数类相同的样本。创建副本时应当保证少数类的分布不变。这个方案只是把我们的数据集变得更均衡,而不是得到更多的数据。

//

贝叶斯统计

//

如果要充分理解为什么要使用贝叶斯统计,那么首先需要了解频率统计不足之处。频率统计是大多数人听到“概率”这个词时会想到的统计方法。它应用数学来分析某些事件发生的概率,具体来说,我们使用的数据都是先验的。

举例说明:一个骰子掷出6的概率是多少,大多数人会说是1 / 6。确实,如果我们做频率分析,会通过一些数据比如某人掷骰子10000次,然后计算每个数字出现的频率;大概是1 / 6

但如果骰子是经过改造的,落地后总会是6的那面朝上呢?频率分析只考虑了先验的数据,并没有考虑骰子被改造过这个因素。

贝叶斯统计确实考虑到了这个问题,可以用贝叶定理来说明这一点:

方程中的概率P(H)是频率分析;表示根据之前的先验数据,事件发生的概率是多少。方程中的P(E|H)被称为似然,本质上是根据频率分析得到的信息的条件下,我们得到的结论是正确的概率。例如,滚动骰子10000次,而前1000次全部得到6,就可以认定骰子是被改造过的,P(E)是实际结论成立的概率。

如果频率分析得很好,那么就可以得出:对于骰子6的一面朝上的猜测是正确的,即考虑了骰子是被改造的。

从方程的布局可以看出,贝叶斯统计考虑了所有的因素。当觉得之前的数据不能很好地代表未来的数据和结果时,就可以去使用贝叶斯统计。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181122B1ZETX00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券