漫谈机器学习之小知识点总结

0x00 前言

总结一些之前学习机器学习的小知识点。

0x01 标签和特征

什么是标签,什么是特征?我们可以先这样大概理解:标签是一个归纳性描述;特征则是一个细节性描述。

比如说:我们可能会根据西瓜的颜色、瓜蒂的形状、敲击的声音来判断一个瓜是否是好瓜。其中这些判断条件就是特征,这个瓜是好瓜还是坏瓜就是标签。

更抽象一点,特征是做出某个判断的证据,标签是结论。

0x02 二分类和多分类

二分类和多分类中的这个“二”和“多”是针对标签来讲的。

  • 二分类就是指一个物体最后被打的标签可能有两种,比如说,一句话会被打上两种标签:积极的和消极的。
  • 多分类是标签可选值有很多。比如我们可能会给一句话打上多种标签:十分积极的,积极的,中等的,消极的,十分消极的。这就是多分类。

0x03 归一化

不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两种常用的归一化方法:

1. min-max标准化(Min-Max Normalization)

也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数:

1

x* = (x-min)/(max-min)

其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

2. Z-score标准化方法

这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:

1

x* = (x-u) / d

其中u为所有样本数据的均值,d为所有样本数据的标准差。

参考:http://www.cnblogs.com/chaosimple/p/3227271.html

0x04 one-hot

没有大小关系的数据在输入到算法中时最好要做离散化。就是我们的one-hot。

那么什么是one-hot呢?

在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”。在机器学习任务中,对于这样的特征,通常我们需要对其进行特征数字化,如下面的例子:

有如下三个特征属性:

  • 性别:["male","female"]
  • 地区:["Europe","US","Asia"]
  • 浏览器:["Firefox","Chrome","Safari","Internet Explorer"]

对于某一个样本,如["male","US","Internet Explorer"],我们需要将这个分类值的特征数字化,最直接的方法,我们可以采用序列化的方式:[0,1,3]。但是这样的特征处理并不能直接放入机器学习算法中。

One-Hot Encoding的处理方法

对于上述的问题,性别的属性是二维的,同理,地区是三维的,浏览器则是思维的,这样,我们可以采用One-Hot编码的方式对上述的样本“["male","US","Internet Explorer"]”编码,“male”则对应着[1,0],同理“US”对应着[0,1,0],“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为:[1,0,0,1,0,0,0,0,1]。这样导致的一个结果就是数据会变得非常的稀疏。

参考:http://blog.csdn.net/google19890102/article/details/44039761

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏marsggbo

Andrew Ng机器学习课程笔记--week2(多元线性回归&正规公式)

1. 内容概要 Multivariate Linear Regression(多元线性回归) 多元特征 多元变量的梯度下降 特征缩放 Computing Pa...

2338
来自专栏AI研习社

浏览器中的姿态检测:PoseNet 模型(附代码)

这里附上 Youtube 上这段视频的源代码,作者是 Siraj Raval:https://youtu.be/9KqNk5keyCc

3053
来自专栏码洞

人工不智能之sklearn聚类

线性回归是一种有监督算法,提供了输入数据x和参考目标值y,参考目标提供了一种纠错机制,是对预测结果y_的监督,如果y和y_相差过大,说明拟合的模型可能存在问题。...

621
来自专栏编程

关于反向传播在Python中应用的入门教程

我来这里的目的是为了测试我对于Karpathy的博客《骇客的神经网络指导》以及Python的理解,也是为了掌握最近精读的Derek Banas的文章《令人惊奇的...

2057
来自专栏自学笔记

基于SVM的思想做CIFAR-10图像分类

回顾一下之前的SVM,找到一个间隔最大的函数,使得正负样本离该函数是最远的,是否最远不是看哪个点离函数最远,而是找到一个离函数最近的点看他是不是和该分割函数离的...

3143
来自专栏数据派THU

教你在Python中用Scikit生成测试数据集(附代码、学习资料)

原文标题:How to Generate Test Datasets in Python with Scikit-learn 作者:Jason Brownlee...

5027
来自专栏鸿的学习笔记

写给开发者的机器学习指南(四)

查全率是定义由给定查询和数据语料库的算法检索的相关性的大小。因此,给定一组文档和应该返回这些文档的子集的查询,查全率的值表示实际返回了多少相关文档。 此值计算如...

641
来自专栏目标检测和深度学习

教程 | 先理解Mask R-CNN的工作原理,然后构建颜色填充器应用

选自matterport 作者:Waleed Abdulla 机器之心编译 参与:刘晓坤 上年 11 月,matterport 开源了 Mask R-CNN 实...

2375
来自专栏人工智能头条

Azure Machine Learning 上如何选择合适的机器学习算法

1416

用Python的长短期记忆神经网络进行时间序列预测

长短期记忆递归神经网络具有学习长的观察序列的潜力。

2.8K8

扫码关注云+社区

领取腾讯云代金券