前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习基础

机器学习基础

作者头像
用户6021899
发布2019-08-14 16:38:27
4200
发布2019-08-14 16:38:27
举报

注:本篇和后续各篇关于机器学习(不含深度学习)的内容,都有参考《Machine Learning in Action》(中文翻译版《机器学习实战》)这本书。

1. 什么是机器学习(Machine Learning)?

简单来说,机器学习是指 无需通过显式编程,让计算机能够从大量无序数据获取有效信息的过程。它横跨计算机科学、数学(尤其是统计学)、工程技术、社会科学等多个学科。

2. 关键术语

书中使用了一个简单的“鸟类分类系统”作为切入点,介绍了机器学习算法中常用到的基本术语。

这个系统用到的鸟物种分类表如下:

表中使用了四种不同的属性值(体重、翼展、脚蹼、后背颜色四个维度)来区分不同鸟类。现实中,你可能会想测量更多的值。通常的做法是测量所有可测属性,而后再挑选出重要部分。我们称使用的这四种属性为特征。数据表的最后一列(种属)称为目标变量(对于分类问题,也叫分类标签。特征和目标变量的数据类型可以是离散型(脚蹼、后背颜色和种属),也可以是连续型(体重、翼展)。

表中的每一行都是一个具有相关特征的实例或称样本。目标标量已知的样本集称为训练样本集(训练数据)。“鸟类分类系统”是一个基于训练样本集的分类算法,对于任何一只全部特征已知的鸟,它都可以预测一个分类结果(当然可能错判)。

为了评估机器学习算法的准确度,我们还需要给机器输入测试数据---并不给机器提供各个样本的目标变量(人知机器不知),只提供全部特征---由机器预测目标变量。比较各测试样本的预测目标变量 f(x) 和真实值 Y 的差别, 我们就可以评估机器学习算法的准确度,从而改进我们的算法。损失函数(Loss Function)专门用来估量预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示。

3. 机器学习的主要任务

如果需要预测目标变量的值,则属于监督学习。监督学习的训练数据需要给出各样本的目标变量值。如果目标变量是离散型,则可以选择分类算法;如果目标变量是连续型,则可以选择回归算法(曲线拟合就是一种常见的回归算法)。

与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定其它目标值。在无监督学习中,将数据集合分成由相似的样本组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称之为密度估计。此外无监督学习还可以给数据降维(如PCA, SVD算法),用来降低计算开销,去除噪音,使数据简单直观,便于理解。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-05-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python可视化编程机器学习OpenCV 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档