机器学习介绍

机器学习定义

设计和分析一些让计算机可以自动“学习“的算法。机器学习算法是一类从庞大的数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

以下学习资料来自于: https://developers.google.com/machine-learning/crash-course/prereqs-and-prework?hl=zh-cn

机器学习分类

  • 监督学习 从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。
  • 无监督学习 与监督学习相比,训练集没有人为标注的结果
  • 增强学习 通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断

机器学习相关术语

  • 标签: 标签是我们要预测的事物/具体的值,即在简单线性回归中的 y 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。
  • 特征: 特征是输入变量,即简单线性回归中的 x 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征。
  • 样本: 样本是指数据的特定实例:x。(我们采用粗体 x 表示它是一个矢量。)我们将样本分为以下两类:
    • 有标签样本
    • 无标签样本 有标签样本同时包含特征和标签。
  • 回归: 回归模型可预测连续值。比如通过房子的许多特征预测房屋价格。
  • 训练: 训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化
  • 模型: 模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。 模型生命周期的两个阶段:
    • 训练表示创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
    • 推断表示将训练后的模型应用于无标签样本。
  • 收敛: 收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象
  • 分类: 分类模型可预测离散值。通过分类模型,以及输入特征集合来判断它该如何分类
  • 损失: 损失是对糟糕预测的惩罚。也就是说,损失是一个数值,表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确,则损失为零,否则损失会较大。训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差

机器学习流程

训练模型的迭代试错过程

整个机器学习的过程如下(监督学习):

  1. 准备好三个数据集合:训练集,验证集,测试集
    • 训练集:需要有所有的特征类型,以及特征值,以及真实的值。用于训练模型
    • 验证集:需要有所有的特征类型,以及特征值,以及真实的值。用于对训练好的模型进行验证,用来比较模型预测出的值与真实值的误差(Loss)是否符合预期或者准确率。
    • 测试集:需要有所有的特征类型,以及特征值。用来使用训练&验证完成的模型对测试集合进行预测,看是否符合预期
  2. 最初的线性回归模型 根据特征以及值构造线性回归方程。其中: b(bias):偏差值 xi:代表某个特性 wi(weight):代表某个特征的权重 y:模型函数,或者说根据特征计算出来的最终的值

线性回归模型

  1. 开始训练 使用最初的模型,参数均可为0,将训练集中的数据(特征以及特征值)代入模型,开始训练。训练过程:
    • 将训练集数据代入模型,计算出预测值
    • 使用误差函数(如平方损失函数)计算预测值与真实值的误差(Loss)
    • 计算完损失后,更新模型内特征的参数,通过梯度下降法计算更新后的特征参数,即权重(Weight)
    • 继续将训练集的数据代入更新后的模型,计算损失
    • 直到损失值达到最低点,则认为该模型达到收敛状态
  2. 验证 使用验证集合的数据代入已收敛的回归模型,比较预测值与验证集中真实的值,误差率是否达到预期,如果未达到预期,则调整参数重新训练模型
  3. 使用 验证过后的模型即可使用测试集数据来进行预测

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

入门 | 机器学习新手必看10大算法

356110
来自专栏计算机视觉战队

每日一学——最优化笔记(上)

简介 在上一节中,我们介绍了图像分类任务中的两个关键部分: 基于参数的评分函数。该函数将原始图像像素映射为分类评分值(例如:一个线性函数)。 损失函数。该函数能...

33270
来自专栏目标检测和深度学习

深度学习最新方法:Snapshot Ensembling以及OUT!随机加权平均才是未来!!!

49920
来自专栏计算机视觉与深度学习基础

目标检测算法:RCNN、YOLO vs DPM

以下内容节选自我的研究报告。 1. 背景 目标检测(object detection)简单说就是框选出目标,并预测出类别的一个任务。它是一种基于目标几何和统计...

51660
来自专栏SIGAI学习与实践平台

机器学习与深度学习核心知识点总结--写在校园招聘即将开始时

一年一度的校园招聘就要开始了,为了帮助同学们更好的准备面试,SIGAI 在今天的公众号文章中对机器学习、深度学习的核心知识点进行了总结。希望我们的文章能够帮助你...

12210
来自专栏机器学习算法与Python学习

Machine Learning -- Boosting

本来想写随机森林的但是由于其中用到了太多提升的思想,所以就先整理整理提升的相关概念。 Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造...

34760
来自专栏人工智能

机器学习新手必看10大算法

选自TowardsDataScience 作者:James Le 机器之心编译 参与:程耀彤、路雪 本文介绍了机器学习新手需要了解的 10 大算法,包括线性回归...

21690
来自专栏企鹅号快讯

形象理解卷积神经网络(二)——卷积神经网络在图像识别中的应用

卷积神经网络之父YannLeCuu在1988年提出卷积神经网络时,将这种网络命名为LeNet。现在的卷积神经网络都是基于类似LeNet的网络构架。下图是一个简单...

316100
来自专栏数据科学与人工智能

【知识】新手必看的十种机器学习算法

机器学习领域有一条“没有免费的午餐”定理。简单解释下的话,它是说没有任何一种算法能够适用于所有问题,特别是在监督学习中。 例如,你不能说神经网络就一定比决策树好...

21860
来自专栏机器之心

何恺明等研究者:真的需要减少ImageNet预训练吗?

ImageNet 图像预训练在各种视觉任务中一直都极为常见,我们会假定预训练模型的前面层级能抽取到足够的一般图像信息。因此保留预训练模型前面层级的权重就相当于迁...

8020

扫码关注云+社区

领取腾讯云代金券