【连载干货】中国人民大学统计数据挖掘中心专题报告资料之回归分析与Lasso

谢谢大家支持,可以让有兴趣的人关注这个公众号。让知识传播的更加富有活力,谢谢各位读者。 很多人问我为什么每次的头像是奥黛丽赫本,我只能说她是我女神,每天看看女神也是不错的嘛!

从今天起,每天为大家分享一篇中国人民大学数据挖掘中心(DMC)的统计专题报告,内容很丰富,专业性和学习行都很强,希望大家有所收获。所有版权均属中国人民大学数据挖掘中心,请勿用作商业用途!!!

什么是Lasso

Lasso是最小二乘的一个改进

核心是加入了惩罚项

效果是变量选择

开创了一个近二十年的领域

喂饱了不少统计学家

变量选择

什么是变量选择?

在回归模型中,选择最能够解释Y的解释变量的过程,称为变量选择。

不做变量选择的后果:

一、严重的多重共线性

二、计算量大

三、数据成本昂贵

常见的变量选择方法:

前进法、后退法、逐步回归法 Lasso

一张图理解LASSO!

相关知识补充

关于模型选择的标准:

一,模型的准确性(prediction accuracy)

二,模型的可解释性(parsimony)

例子:

1,变量选择模型,比如向前法、向后法、逐步回归,可解释性较好,但是预测的准确性较差。

2,岭回归的准确性较好,但是可解释性较差。

3,Lasso很好的平衡了模型的准确性和模型的可解释性,但是运算量比较大。

对于岭回归的再理解

由于文章很长,同时包含很多例子。我已经把整理好把连接放在阅读原文里,大家可以下载自学。好好学哦!

原文发布于微信公众号 - 量化投资与机器学习(ZXL_LHTZ_JQXX)

原文发表时间:2015-12-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

Kaggle 数据挖掘比赛经验分享

Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kagg...

6239
来自专栏AI研习社

基于 Jetson 在 Aerial 系统内进行深度学习

无人驾驶空中系统(UAS)在过去十年中被广泛应用,尽管 UAS 最早被应用在军事上,事实证明,它们在很多其它领域都是有用的,包括农业、地理制图、航空摄影、搜索和...

1461
来自专栏人工智能

十种深度学习算法要点及代码解析

谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。 也许我们生活...

2688
来自专栏人工智能的秘密

无人驾驶的基本算法及简单介绍

本文以日本无人驾驶开源软件Autoware为参考,汇总分析了无人驾驶所涉及的基本算法,最后给出了在一些典型数据集上测试的效果。

1.3K10
来自专栏数据派THU

【独家】手把手教线性回归分析(附R语言实例)

本文长度为8619字,建议阅读15分钟 本文为你介绍线性回归分析。 通常在现实应用中,我们需要去理解一个变量是如何被一些其他变量所决定的。 回答这样的问题,需要...

2.5K10
来自专栏语言、知识与人工智能

【干货】Kaggle 数据挖掘比赛经验分享

如果你也跃跃欲试,不妨选一个合适的任务,开启数据挖掘之旅吧。

53411
来自专栏大数据挖掘DT机器学习

用R语言做时间序列分析(附数据集和源码)

时间序列(time series)是一系列有序的数据。通常是等时间间隔的采样数据。如果不是等间隔,则一般会标注每个数据点的时间刻度。 下面以time serie...

6966
来自专栏机器之心

解读实践中最广泛应用的分类模型:朴素贝叶斯算法

机器之心专栏 作者:伏宸实验室研究员Windson Yang 贝叶斯模型在机器学习以及人工智能中都有出现,cherry 分类器(https://github.c...

3354
来自专栏CreateAMind

关于深度学习的机理,优化和网络结构的一些个人观点

博士一把年纪,理论物理已经没心读下去了,不知廉耻来知乎卖萌,还是深度学习卖萌,才转行半年多就敢出来卖,好羞耻呀~喵~

1592
来自专栏AI2ML人工智能to机器学习

一个奇异值的江湖 -- 经典统计观

有江湖的地方就有奇异值, 有时候奇值(outlier)和异值(anomaly)会咬文嚼字的区分一下: outlier是合理的(explainable)小概率事件...

891

扫码关注云+社区

领取腾讯云代金券