统计建模:两种文化

哇,大家好久不见~最近出去玩了,就一直没有学习嘿嘿~果然还是学习让人踏实啊,不过俗话说得好,玩得好才能学得好嘛~

嗯下面进入正题。

随着学习机器学习的知识越来越多,我发现我越来越难将已有的统计学知识和机器学习知识融合,很多时候,我能理解统计学但是并不能理解机器学习(尤其是深度学习)为什么这么做。

我想,一方面是因为我本身知识不够富足,另一方面是因为机器学习本身是不能够和源远流长的统计学的知识体系相比较的(才疏学浅,如有偏颇欢迎心平气和的指正)。

为了更好理解如何看待传统统计学和机器学习/数据挖掘,我打算开始翻译Leo Breiman于2001年发表的《Statistical Modelling: The Two Cultures》,就当做是平时的休闲娱乐啦~

至于版权和在哪里写的问题,我还没想好怎么办比较合理,先谢绝任何不通知本人的转载,尤其是抄袭。

下为文章目录,红字为本次推送译文内容:

Abstract

1. Introduction

2. ROAD MAP

3. Projects in consulting

4. Return to the university

5. The use of data models

6. The limitations of data models

7. Algorithmic modeling

8. Rashomon and the multiplicity of good models

9. Occam and simplicity vs. accuracy

10. Bellman and the curse of dimensionality

11. Information from a black box

12. Final remarks

Statistical Modeling: The Two Cultures

统计建模:两种文化

Leo Breiman

Professor, Department of Statistics, University of California, Berkeley, California

Abstract

There are two cultures in the use of statistical modeling toreach conclusions from data. One assumes that the data are generatedby a given stochastic data model. The other uses algorithmic models andtreats the data mechanism as unknown. The statistical community hasbeen committed to the almost exclusive use of data models. This commitmenthas led to irrelevantheory, questionable conclusions, and has keptstatisticians from working on a large range of interesting current problems.Algorithmic modeling, both in theory and practice, has developedrapidly in fields outside statistics. It can be used both on large complexdata sets and as a more accurate and informative alternative to datamodeling on smaller data sets. If our goal as a field is to use data tosolve problems, then we need to move away from exclusive dependenceon data models and adopt a more diverse set of tools.

摘要

在通过数据产生结论的过程中,我们有两种使用统计建模的文化。一种假设数据是由给定的随机数据模型产生的,另一种则认为数据机制是未知的,我们应使用算法模型来处理。长久以来,统计领域几乎忠于使用数据模型来解决问题(笔记:即第一种文化)。这种情况导致了无关的理论、值得质疑的结论的产生,并且使得统计学家无法在更为宽阔的领域工作。而第二种文化,算法模型,已经在统计学之外取得了飞速发展。它可以被使用在大型复杂的数据集中,也可以用于小型数据集。在小型数据集的处理上,算法模型甚至比数据模型更为准确,能产生更丰富的信息。如果我们使用数据的目标是解决问题,那么我们就需要改革创新,逐渐脱离对数据模型的强烈依赖,去接纳更多可能的工具。

1. INTRODUCTION

Statistics starts with data. Think of the data asbeing generated by a black box in which a vector ofinput variables x (independent variables) go in oneside, and on the other side the response variables ycome out. Inside the black box, nature functions toassociate the predictor variables with the responsevariables, so the picture is like this:

1. 介绍

统计学起源于数据。我们认为,数据是由一组输入量x(独立变量)从黑箱的一端输入,由黑箱的另一端输出的响应变量y产生的。在这个黑相中,数据本质将独立变量和响应变量相结合,如下图所示:

There are two goals in analyzing the data:

Prediction. To be able to predict what the responsesare going to be to future input variables;Information. To extract some information abouthow nature is associating the response variablesto the input variables.

数据分析有两个目标:

预测,即通过现有数据,拥有使用输入变量预测响应变量的能力;

信息,即通过探索响应变量和输入变量的本质关系抓取信息的能力。

There are two different approaches toward these goals:

The Data Modeling Culture

The analysis in this culture starts with assuminga stochastic data model for the inside of the blackbox. For example, a common data model is that dataare generated by independent draws fromresponse variables = f(predictor variables,random noise, parameters)

The values of the parameters are estimated fromthe data and the model then used for informationand/or prediction. Thus the black box is filled in likethis:

Model validation. Yes-no using goodness-of-fittests and residual examination.Estimated culture population. 98% of all statisticians.

为了实现这个两个目标(预测和信息),我们有两种不同的方法:

数据建模文化

在这种文化下,我们以在一个黑箱条件下,有一个随机数据模型为开端(笔记:即我们知道黑箱内是什么)。例如,一个常用的数据模型为:

其中,数据从该模型中是独立抽取的。参数的值通过数据和模型来估计,然后用于信息或/和预测。因此,黑箱有如下表示:

模型验证:通过goodness-of-fit测试和残差检验来判断模型yes-no.

估计该文化人群占比:98%统计学家。

Cox 回归模型

proportional hazards regression

COX回归模型,又称“比例风险回归模型(proportional hazards model,简称Cox模型)”,是由英国统计学家D.R.Cox(1972)年提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。由于上述优良性质,该模型自问世以来,在医学随访研究中得到广泛的应用,是迄今生存分析中应用最多的多因素分析方法

——摘自百度百科《COX回归模型》【1】

The Algorithmic Modeling Culture

The analysis in this culture considers the inside ofthe box complex and unknown. Their approach is tofind a function f(x)-an algorithm that operates onx to predict the responses y. Their black box lookslike this:

Model validation. Measured by predictive accuracy.Estimated culture population. 2% of statisticians,many in other fields.In this paper I will argue that the focus in thestatistical community on data models has:* Led to irrelevant theory and questionable scientificconclusions;

* Kept statisticians from using more suitablealgorithmic models;* Prevented statisticians from working on excitingnew problems;I will also review some of the interesting newdevelopments in algorithmic modeling in machinelearning and look at applications to three data sets.

算法建模文化

该文化下的分析认为黑箱中的内容是复杂且未知的。达成预测或获取信息的手段是通过寻找一个函数f(x)——一种能通过x对y进行运算的算法(笔记:个人觉得这个地方的理解很重要。我们并不是在寻求y和x之间的因果关系/相关关系,而只是单纯寻找能通过x来处理y的手段,因此,机器学习得到的结果可能解释性就没有统计学那么好)。那么,黑箱就如下图所示:

模型验证:通过预测准确率来衡量(笔记:确实,在机器学习里,预测能力就是王道)。

估计该文化人群占比:2%的统计学家,但是在其他领域有很多。(笔记:注意这是2001年的论文,现在已经非常不同了,但是也不要厚此薄彼,一定保有批判思维)

在这篇论文中,我将会讨论在统计学领域数据建模的几大热点,即数据建模会:

产生无关理论和受到质疑的科研结论;

妨碍统计学家使用更合适的算法模型;

阻碍统计学家从事更加有趣的新问题;

同时,我也会对机器学习中算法模型的一些新的有趣发展进行讨论,并且使用三个数据集来应用。

参考资料:

【1】https://baike.baidu.com/item/COX%E5%9B%9E%E5%BD%92%E6%A8%A1%E5%9E%8B/8894307?fr=aladdin

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180630G1JMSC00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券