前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习篇(1)——基础定义流程

机器学习篇(1)——基础定义流程

作者头像
DC童生
发布2018-04-27 17:39:48
1.2K0
发布2018-04-27 17:39:48
举报
文章被收录于专栏:机器学习原理机器学习原理

前言: 以下是在自己理解的基础上做的总结,介绍了机器学习的定义以及评估算法的几个概念

  • 定义
  • 机器学习是一门从数据中研究算法的科学学科。是根据已有的数据,进行算法选择,并基于算法和数据构建模型,最终对未来进行预测。 1.数据中研究算法 可以从人的学习来理解机器学习,比如,人通过西瓜的颜色,响声,根蒂来挑选西瓜,也就是说人通过经验来对新的情况作出预测。而计算机中,“经验”是以“数据”的形式的存在,从数据中产生模型算法也叫学习算法,对新的情况进行预测。如下图:

image.png

2.机器学习分类 把历史数据分为“训练集”和“测试集”用于训练算法

  • 根据预测值进行分类 预测值是离散值,如“好瓜” “坏瓜”。此类学习任务是“分类” 预测值是连续值,是“回归” 若没有预测值或者,训练样本不存在标记信息,对西瓜做“聚类”
  • 根据训练集是否有标记信息 分位“监督学习”和“无监督学习”
  • 泛化能力 适用于新样本的能力

3.关于模型 也就是机器学习算法,从数据中获得一个假设的函数g,使其非常接近目标函数f的效果。 算法(T):根据业务需要和数据特征选择的相关算法, 也就是一个数学公式 模型(E):基于数据和算法构建出来的模型

image.png

4.机器学习的过程

image.png

5.如何评估你得到的算法的好坏?

  • 鲁棒性:也就是健壮性、稳健性、强健性,是系统的健壮性;当存在异常数据的 时候,算法也会拟合数据
  • 过拟合:算法太符合样本数据的特征,对于实际生产中的数据特征无法拟合 由于数据中会存在一些比较特殊的,假如你的算法非常符合样本数据,就会对预测的数据产生不准确的预测。 例如,knn算法中当k=1时,就是严重的过拟合,算法部分会在后面介绍。 还如:线性回归中用多项式拟合,级数较大时也会出现过拟合,解决的办法是正则化表达
  • 欠拟合:算法不太符合样本的数据特征
  • 流程

image.png

  • 数据收集 很关键,传统行业转向机器学习的第一步
  • 数据清理 大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的 数值表示 数据过滤 处理数据缺失 处理可能的异常、错误或者异常值 合并多个数据源数据 数据汇总
  • 模型测试 模型选择:对特定任务最优建模方法的选择 模型的测试一般以下几个方面来进行比较,分别是准确率/召回率/精准率/F值 1 准确率(Accuracy)=提取出的正确样本数/总样本数 2 召回率(Recall)=正确的正例样本数/样本中的正例样本数——覆盖率 3 精准率(Precision)=正确的正例样本数/预测为正例的样本数 4 F值=PrecisionRecall2 / (Precision+Recall) (即F值为正确率和召回率的调和平均值) 5 ROC曲线

image.png 6 AUC 表示ROC的面积 AUC的值越大表达模型越好

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.02.28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档