专栏首页机器学习算法工程师机器学习从零开始系列连载(2)——线性回归

机器学习从零开始系列连载(2)——线性回归

作者:张磊

编辑:赵一帆

本周剩余内容:

2. 建模方法回顾

2.0 偏差与方差

2.1 线性回归-Linear Regression

2.1.1 模型原理

2.1.2 损失函数

2.2 支持向量机-Support Vector Machine

2.2.1 模型原理

2.2.2 损失函数

2.2.3 核方法

2.3 逻辑回归-Logistic Regression

2.3.1 模型原理

2.3.2 损失函数

2.4 Bagging and Boosting框架

2.4.1 Bagging框架

2.4.2 Boosting框架

2.5 Additive Tree 模型

2.5.1 Random Forests

2.5.2 AdaBoost with trees

2.5.3 Gradient Boosting Decision Tree

2.5.4 简单的例子

2.6 人工神经网络-Neural Network

2.6.1 神经元

2.6.2 神经网络的常用结构

2.6.3 一个简单的神经网络例子

以通用的监督学习为例,基本包含4个部分:

01

偏差与方差

● 在机器学习算法中,偏差是由先验假设的不合理带来的模型误差,高偏差会导致欠拟合: 所谓欠拟合是指对特征和标注之间的因果关系学习不到位,导致模型本身没有较好的学到历史经验的现象;

● 方差表征的是模型误差对样本发生一定变化时的敏感度,高方差会导致过拟合:模型对训练样本中的随机噪声也做了拟合学习,导致在未知样本上应用时出现效果较差的现象;

● 机器学习模型的核心之一在于其推广能力,即在未知样本上的表现。

对方差和偏差的一种直观解释

一个例子,假如我们有预测模型:

我们希望用f^e(x)估计f(x),如果使用基于square loss 的线性回归,则误差分析如下:

所以大家可以清楚的看到模型学习过程其实就是对偏差和方差的折中过程。

02

模型原理

标准线性回归通过对自变量的线性组合来预测因变量,组合自变量的权重通过最小化训练集中所有样本的预测平方误差和来得到,原理如下。

● 预测函数

● 参数学习-采用最小二乘法

所有机器学习模型的成立都会有一定的先验假设,线性回归也不例外,它对数据做了以下强假设:

● 自变量相互独立,无多重共线性

● 因变量是自变量的线性加权组合:

● 所有样本独立同分布(iid),且误差项服从以下分布:

最小二乘法与以上假设的关系推导如下:

使用MLE(极大似然法)估计参数如下:

线性回归有两个重要变体:

● Lasso Regression:采用L1正则并使用MAP做参数估计

● Ridge Regression:采用L2正则并使用MAP做参数估计

关于正则化及最优化后续会做介绍。

03

损失函数

进一步阅读可参考:Least Squares

https://en.wikipedia.org/wiki/Least_squares

本文分享自微信公众号 - 机器学习算法全栈工程师(Jeemy110)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器翻译不可不知的Seq2Seq模型

    Seq2Seq,全称Sequence to Sequence。它是一种通用的编码器——解码器框架,可用于机器翻译、文本摘要、会话建模、图...

    机器学习算法工程师
  • 【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程(下篇)

    本文是《SIFT Meets CNN: A Decade Survey of Instance Retrieval》的下篇。在上 篇中概述了图像检索任务极其发...

    机器学习算法工程师
  • 基于深度学习的图像语义分割算法综述

    本文翻译自An overview of semantic image segmentation,原作者保留版权。

    机器学习算法工程师
  • 24. 偏差和方差之间的权衡

    YingJoy_
  • IntelliJ 如何找到项目中 Deprecated 的方法

    在一个项目中,如果我们标记了某些元素为 Deprecated 的话,如何让我们能够快速找到?

    HoneyMoose
  • 一次ORA-00130: invalid listener address错误

    SQL*Plus: Release 11.2.0.1.0 Production on Mon Jan 5 18:49:31 2015 Copyright (c)...

    bisal
  • Filebeat自定义pipeline,完美处理自定义日志字段

    filebeat是本地文件日志数据采集器,通常用作ELK中的日志采集,将采集的日志数据传输到elasticsearch,当需要进行数据处理时,先传入logsta...

    李俊鹏
  • python第十一课

    一、Cluster概念 1、系统扩展方式: Scale UP:向上扩展,增强 Scale Out:向外扩展,增加设备,调度分配问题,Cluster 2、Clus...

    py3study
  • 程序员眼中的统计学4

    程序员眼中的统计学系列是作者学习笔记整理而得。随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要。正如吴军先生在《数学之美》一书中阐述的,基...

    伏草惟存
  • Webpack中hash与chunkhash的区别,以及js与css的hash指纹解耦方案

    文件的hash指纹通常作为前端静态资源实现增量更新的方案之一,Webpack是目前最流行的开源编译工具之一,其强大的功能也带来很多坑(当然,大部分麻烦其实都可以...

    寒月十八

扫码关注云+社区

领取腾讯云代金券