原文:Data Science Simplified Part 2: Key Concepts of Statistical Learning
翻译:Kaiser
在系列的第一篇,我们已经接触到了一些数据科学的关键概念和过程,本文将会更加深入。首先要定义什么是“统计学习”,然后详细探讨统计学习的几个核心概念。不要被这些术语所吓到,相信我,其实很 simple.
(堡垒听了都说好)
统计学习是机器学习的理论框架,来自于统计学和泛函分析。而机器学习则是统计学习在软件层面的实现和应用。如果用人话来说呢?统计学习就是那些让我们更好地理解数据的工具与技术。再退一步来看,什么又是“理解数据”?
(Sombra 可以说是 OW 里最理解数据的人)
统计学习的范畴里,数据分为两类:
可以被直接控制的数据,即独立变量。 不能被直接控制的,即依赖变量。
“依赖变量”是需要预测和估计的。
更好地理解数据就是挖掘更多独立变量与依赖变量的统计关系,举个例子来讲:
比方说我在电视、广播、平媒上投放了广告,然后想知道一下效果。我可以控制的变量是广告的预算,但我控制不了的是,实际上对销量的推动情况。于是我就想把不可控的数据(销量),表达为可控变量(预算)的函数,从而揭示其中的隐含关系。
(某经典广告案例)
参数与模型
运营管理中最有名的商业模型之一就是 ITO 模型,即 Input-Transformation-Output.其实过程很简单,就是输入 (input) 经过某些变换 (transformation) 生成输出 (output)。 统计学习应用的也是类似的概念,有输入数据,输入数据经过变换,得到要被预测/估计的输出数据。这些“变换”就叫“模型”,是估计输出的函数,变换里的数学组分就是“参数”。
(某种不清真食物的 ITO 模型)
再来看个例子:一个人的收入是由什么决定的?我们先假设与教育程度和工作经验有关,那么相应的模型就是:
income = β0 edu + β1 exp + c
其中 β0 和 β1 就是参数,将收入表达为教育和经验的函数。教育和经验都是可以确知的独立变量,也叫做“特征”。收入是我们无法控制、只能估计的依赖变量,也叫“目标”。
训练与测试
快考试的时候我们做什么?复习,预习,烧香,拜佛,做模拟题。
机器学习也是这么学习的,数据总归有限,所以必须谨慎使用。建立的模型也需要经过验证:
先将数据分为两部分。
用一部分做训练,使模型从中学习。这部分数据集是“训练集”。 另一部分数据用作测试,让模型应用在此前未见过的数据上。这部分数据时“测试集”。
一般来讲,训练得越充分,测试成绩也越喜人,不管是现实中的考试还是机器学习往往都是如此,但也不全尽然。
(比如这样做练习就恐怕不太行)
方差与偏差
英国著名统计学家 George Box 曾经说过:
All models are wrong; some are useful.
没有一个模型是100%准确的,必然存在误差。误差的来源有两部分:
偏差(bias) 方差(variance)
还是用个比较形象的例子来解释一番。Raj,一个7岁小孩儿,刚刚学了“乘法”这个概念。对于1和2,Raj 他已经很精通了,现在的下一个挑战是3往上的,这是他算的:
3x1=4(+1)
3x2=7(+1)
3x3=10(+1)
3x4=13(+1)
3x5=16(+1)
Raj 的同学 Bob 也在学同样内容,他算出来的是:
3x1=5(+2)
3x2=9(+3)
3x3=18(+9)
3x4=24(+12)
3x5=30(+15)
两个孩子其实就是建立了“乘法”的模型,我们从机器学习的角度来校验一下这两个模型。
Raj 的模型输出结果都比正确结果多了1,这就是一类偏差,而且偏差只有1,所以我们说 Raj 的模型偏差低。
Raj 的结果集中在“正确结果+1”,所他的模型方差也很低。
Bob 的模型输出分布很散乱,大出多少的都有,而且偏离正确答案很多,因此他的模型是高偏差、高方差的。
(很难讲 Raj 和 Bob 哪个更棒棒)
方差-偏差权衡 (Variance-Bias Trade-Off)
有个同学十分努力地学数学,努力到能把作业题目全都背过。但是考试题目和他背的肯定不一样,所以他就挂了。机器学习问题也是同样的路数,如果一个模型在特定的数据集里学了太多,那么当模型再应用到此前未见的数据里,就会有很大的误差,这就是“过拟合”(高方差)。
过拟合的本质是模型没有把所学的规律有效地“泛化”到新数据上。另一个极端就是模型学到的太少,这叫“欠拟合”(高偏差),没有摸索出规律。
爱因斯坦曾简明扼要地概括过相似概念,他说:
“Everything should be made as simple as possible, but no simpler.”
至于怎样才既 simple,又不 too simple,这就是是方差-偏差权衡问题。
(爱因斯坦:“这个我真说过”)
结语
统计学习是复杂机器学习应用的基石,本文介绍了统计学习的一些基础概念,其中的 Top5 是:
统计学习揭示独立变量和依赖变量之间的关系 模型是变换引擎,参数是产生变换的数学组分 模型通过训练数据进行学习,使用测试数据衡量表现 All models are wrong; some are useful. 方差-偏差权衡