摘要: 本文给出了数据科学应用中的十项统计学习知识点,相信会对数据科学家有一定的帮助。
无论你是不是一名数据科学家,都不能忽视数据的重要性。数据科学家的职责就是分析、组织并利用这些数据。随着机器学习技术的广泛应用,深度学习吸引着大量的研究人员和工程师,数据科学家也将继续站在技术革命的浪潮之巅。
虽然编程能力对于数据科学家而言非常重要,但是数据科学家不完全是软件工程师,他应该是编程、统计和批判性思维三者的结合体。而许多软件工程师通过机器学习框架转型为数据科学家时,没有深刻地思考并理解这些框架背后的统计理论,所以统计学习理论成为了机器学习的理论框架。
为什么学习统计学习?理解不同技术背后的想法是非常重要的,只有真正理解了这些才能知道何时何地使用这些技术。首先必须理解简单的方法,以便掌握更复杂的方法。精确评估一个方法的性能,并且知道它工作情况的好坏显得非常重要。此外,这是一个令人兴奋的研究领域,在科学、工业和金融等方面具有重要的应用。最后,统计学习是培养现代数据科学家的一个基本素材。统计学习问题的例子包括以下几个部分:
此外,作者对数据挖掘进行了一定的研究,推荐 Intro to Statistical Learning (Hastie, Tibshirani, Witten, James)、Doing Bayesian Data Analysis (Kruschke)和 Time Series Analysis and Applications (Shumway, Stoffer)三本书,这里面有许多有价值的内容。在进入正题之前,想区分一下机器学习和统计学习,主要有以下几点区别:
下面分享10项统计技术,任何数据科学家都应该学习,使得能够更高效地处理大数据集。
1.线性回归
在统计学中,线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。线性回归主要分为简单线性回归和多元线性回归。简单线性回归使用一个自变量,通过拟合一个最佳线性关系来预测因变量;而多元线性回归使用一个以上的自变量来预测因变量。
2.分类
分类是一种数据挖掘技术,被用来将一个整体数据集分成几个类别,以为了更准确的预测和分析。分类技术中典型的代表是逻辑回归分析和判别分析。逻辑回归是一种预测分析,在用于描述数据时,解释一个二进制因变量与一个或多个序数、区间等变量之间的关系。逻辑回归可以检验的问题类型有:
在判别分析中,在每个响应类中分别对预测因子X的分布进行建模,然后利用贝叶斯定理将这些变量翻转到给定X值的响应类别的概率估计中。这样的模型可以是线性的也可以是二次型的。
3.重采样方法
重采样是从原始数据样本中反复抽样的方法,是一种非参数统计推断方法。重采样在实际数据的基础上生成唯一的抽样分布,下面介绍两种最常用的重采样方法拔靴法(bootstrap)和交叉验证(cross-validation):
4.子集选择
这种方法确定了我们认为与反应有关的P预测因子的一个子集,然后使用子集特征的最小二乘拟合模型。
5.特征缩减技术
通过对损失函数加入正则项,使得训练求解参数过程中将影响较小的特征的系数衰减到0,只保留重要的特征。最常用的两种方法分别是岭回归(ridge regression)和lasso:
6.降维
降维是将估计P+1个系数减少为M+1个系数,其中M<P。这是通过计算M个不同的线性组合或变量的投影来实现的,然后利用M个投影作为预测因子,使用最小二乘法拟合线性回归模型。常用的两种降维方法是主成分回归和偏最小二乘法:
7.非线性模型
在统计学中,非线性回归是回归分析的一种形式,在这种分析中,观测数据是通过模型参数和因变量的非线性组合函数建模,数据用逐次逼近法进行拟合。下面是几个处理非线性模型的重要技术:
8.树形方法
树形方法可以用于回归和分类问题,这些涉及将预测空间分层或分段为一些简单的区域。由于分割预测空间的分裂规则可以用树形总结,所以这类方法也被称为决策树方法。以下方法是将多个树合并,然后得到一个单一的一致性预测:
9.支持向量机
支持向量机(SVM)是一种分类技术,简单地说,就是寻找一个超平面能最好地将两类点与最大边界区分开。本质上来说,它是一个有约束的优化问题,其中边界最大化受到数据点分布的约束。图中的数据点“支持”着超平面,超平面的两端上的训练样本就是支持向量。如果两类数据线性不可分时,可以将其投影到高维特征空间,使其线性可分。
10.无监督学习
上述内容只讨论了有监督学习技术,而这类技术运用的前提是需要有类别信息。而无监督学习就是在无类别信息情况下,寻找到好的特征。
常用的无监督学习算法有:
洞察背后的理论知识,能够便于今后的实际操作,希望这份基础数据科学统计指南能帮助到你。
原文:
https://www.linkedin.com/pulse/10-statistical-techniques-data-scientists-need-master-james-le/?spm=5176.100239.blogcont231699.11.iZZzDc&lipi=urn%3Ali%3Apage%3Ad_flagship3_profile_view_base%3BNoM6XDfWS1awiZ0M6Spb0g%3D%3D