前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简明数据科学(2):简单点,概念的解释简单点

简明数据科学(2):简单点,概念的解释简单点

作者头像
陆勤_数据人网
发布2018-02-28 14:54:52
1K0
发布2018-02-28 14:54:52
举报
文章被收录于专栏:数据科学与人工智能

原文:Data Science Simplified Part 2: Key Concepts of Statistical Learning

翻译:Kaiser

在系列的第一篇,我们已经接触到了一些数据科学的关键概念和过程,本文将会更加深入。首先要定义什么是“统计学习”,然后详细探讨统计学习的几个核心概念。不要被这些术语所吓到,相信我,其实很 simple.

(堡垒听了都说好)

统计学习是机器学习的理论框架,来自于统计学和泛函分析。而机器学习则是统计学习在软件层面的实现和应用。如果用人话来说呢?统计学习就是那些让我们更好地理解数据的工具与技术。再退一步来看,什么又是“理解数据”?

(Sombra 可以说是 OW 里最理解数据的人)

统计学习的范畴里,数据分为两类:

可以被直接控制的数据,即独立变量。 不能被直接控制的,即依赖变量。

“依赖变量”是需要预测和估计的。

更好地理解数据就是挖掘更多独立变量与依赖变量的统计关系,举个例子来讲:

比方说我在电视、广播、平媒上投放了广告,然后想知道一下效果。我可以控制的变量是广告的预算,但我控制不了的是,实际上对销量的推动情况。于是我就想把不可控的数据(销量),表达为可控变量(预算)的函数,从而揭示其中的隐含关系。

(某经典广告案例)

参数与模型

运营管理中最有名的商业模型之一就是 ITO 模型,即 Input-Transformation-Output.其实过程很简单,就是输入 (input) 经过某些变换 (transformation) 生成输出 (output)。 统计学习应用的也是类似的概念,有输入数据,输入数据经过变换,得到要被预测/估计的输出数据。这些“变换”就叫“模型”,是估计输出的函数,变换里的数学组分就是“参数”。

(某种不清真食物的 ITO 模型)

再来看个例子:一个人的收入是由什么决定的?我们先假设与教育程度和工作经验有关,那么相应的模型就是:

income = β0 edu + β1 exp + c

其中 β0 和 β1 就是参数,将收入表达为教育和经验的函数。教育和经验都是可以确知的独立变量,也叫做“特征”。收入是我们无法控制、只能估计的依赖变量,也叫“目标”。

训练与测试

快考试的时候我们做什么?复习,预习,烧香,拜佛,做模拟题。

机器学习也是这么学习的,数据总归有限,所以必须谨慎使用。建立的模型也需要经过验证:

先将数据分为两部分。

用一部分做训练,使模型从中学习。这部分数据集是“训练集”。 另一部分数据用作测试,让模型应用在此前未见过的数据上。这部分数据时“测试集”。

一般来讲,训练得越充分,测试成绩也越喜人,不管是现实中的考试还是机器学习往往都是如此,但也不全尽然。

(比如这样做练习就恐怕不太行)

方差与偏差

英国著名统计学家 George Box 曾经说过:

All models are wrong; some are useful.

没有一个模型是100%准确的,必然存在误差。误差的来源有两部分:

偏差(bias) 方差(variance)

还是用个比较形象的例子来解释一番。Raj,一个7岁小孩儿,刚刚学了“乘法”这个概念。对于1和2,Raj 他已经很精通了,现在的下一个挑战是3往上的,这是他算的:

3x1=4(+1)

3x2=7(+1)

3x3=10(+1)

3x4=13(+1)

3x5=16(+1)

Raj 的同学 Bob 也在学同样内容,他算出来的是:

3x1=5(+2)

3x2=9(+3)

3x3=18(+9)

3x4=24(+12)

3x5=30(+15)

两个孩子其实就是建立了“乘法”的模型,我们从机器学习的角度来校验一下这两个模型。

Raj 的模型输出结果都比正确结果多了1,这就是一类偏差,而且偏差只有1,所以我们说 Raj 的模型偏差低。

Raj 的结果集中在“正确结果+1”,所他的模型方差也很低。

Bob 的模型输出分布很散乱,大出多少的都有,而且偏离正确答案很多,因此他的模型是高偏差、高方差的。

(很难讲 Raj 和 Bob 哪个更棒棒)

方差-偏差权衡 (Variance-Bias Trade-Off)

有个同学十分努力地学数学,努力到能把作业题目全都背过。但是考试题目和他背的肯定不一样,所以他就挂了。机器学习问题也是同样的路数,如果一个模型在特定的数据集里学了太多,那么当模型再应用到此前未见的数据里,就会有很大的误差,这就是“过拟合”(高方差)。

过拟合的本质是模型没有把所学的规律有效地“泛化”到新数据上。另一个极端就是模型学到的太少,这叫“欠拟合”(高偏差),没有摸索出规律。

爱因斯坦曾简明扼要地概括过相似概念,他说:

“Everything should be made as simple as possible, but no simpler.”

至于怎样才既 simple,又不 too simple,这就是是方差-偏差权衡问题。

(爱因斯坦:“这个我真说过”)

结语

统计学习是复杂机器学习应用的基石,本文介绍了统计学习的一些基础概念,其中的 Top5 是:

统计学习揭示独立变量和依赖变量之间的关系 模型是变换引擎,参数是产生变换的数学组分 模型通过训练数据进行学习,使用测试数据衡量表现 All models are wrong; some are useful. 方差-偏差权衡

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档