前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Data Whale 吃瓜日记 西瓜书第三章

Data Whale 吃瓜日记 西瓜书第三章

原创
作者头像
TomoriNao
发布2023-12-18 22:17:58
1070
发布2023-12-18 22:17:58
举报
文章被收录于专栏:每月技术成长每月技术成长

基本概念

  • 线性模型
线性模型 定义
线性模型 定义
  • 线性回归 通过学习获得线性模型,以预测输入对应的输出
  • 最小二乘法 基于均方误差最小化来进行模型求解的方法
  • 对数线性回归 对数线性回归形式上满足线性回归,但实质上是非线性映射
    对数线性回归 公式
    对数线性回归 公式
对数线性回归 示意图
对数线性回归 示意图
  • 广义线性模型
广义线性模型 公式定义
广义线性模型 公式定义
  • 对数几率回归 根据广义线性模型,将对数几率函数代入公式,经变化可得与对数回归形式相似的公式,其左边为对数几率 对数几率回归名字为“回归”,但实际解决的是分类学习问题
对数几率函数 公式
对数几率函数 公式
对数几率回归 公式
对数几率回归 公式
  • 线性判别分析(LDA)
LDA 定义
LDA 定义
LDA 示意图
LDA 示意图
  • OvO 与 OvR OvO 与 OvR 的区别在于对于反例的定义
    OvO OvR 示意图
    OvO OvR 示意图
  • 纠错输出码(ECOC) ECOC分为编码和解码两个步骤,编码实现对数据集的M次划分,得到M个分类器,解码则通过M个分类器获得预测的输出,M个分类器的输出组成编码,预测编码与各个类别的编码比较,通过距离判断输入的类别
  • 类别不平衡(class-imblance) 指分类任务中不同类别的训练样例差别较大的情况
  • 欠采样(undersampling) 去除某些样本使得训练时中正反例数目接近
  • 过采样(oversampling) 增加某些样本使得训练时中正反例数目接近
  • 阈值移动(threshold-moving) 直接使用原始数据集进行训练,但在预测时进行再缩放(rescaling)重要结论
  • 许多非线性模型可在线性模型的基础上引入层级结构或高维映射获得
  • 均方误差是回归任务中最常用的性能度量
  • 对数几率回归有许多优点
对数几率回归 优点
对数几率回归 优点
  • 当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类
  • 多分类LDA实际上进行了降维,是一种经典监督降维技术
  • 多分类学习是通过将多分类任务拆解为若干个二分类任务进行求解
  • 欠采样法的时间开销远小于过采样法,因为丢弃了部分样本使得实际训练集小于原始训练集,且可能丢失部分关键信息,而过采样法不能直接对同一个样本重复采集多次否则会导致严重的过拟合
  • 欠采样法的代表性算法EasyEbsemble;过采样法的代表性算法SMOTE

总结

线性模型实际上就是多元一次函数,输入和输出的简单映射,而其他非线性模型可以通过各种方法变换为与线性模型相似的形式,例如:对数线性回归、对数几率回归。对数几率回归可以通过多种方式求最优解,如梯度下降法、牛顿法

LDA通过降维的方式,将数据投影到直线上,通过判断投影点之间的距离,实现分类问题的求解

多分类学习可以分解为多次二分类问题,自顶向下进行求解,而分解的策略有OvO、OvR、MvM

ECOC的编码和解码是一个十分重要的概念,编码矩阵也可分为二元码和三元码,区别在于是否有停用类

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基本概念
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档