机器学习中的特征空间

声明:这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记,整理出来与大家一起分享,若笔记中有任何错误还请不吝指出,文中可能会使用到原作者的一些图,若侵犯到作者的权益,还请告知,我会删除,谢谢。

一、机器学习的流程

应用机器学习算法的流程大致可以分为:

  • 收集数据
  • 数据处理,提取特征
  • 训练模型
  • 模型部署
  • 模型的应用及反馈

具体的衔接关系如下图所示:

二、机器学习的关键问题

在机器学习中主要有如下的三个关键问题:

  • 特征=对原始数据的数值表示
  • 模型=对特征的数学总结
  • 成功的应用=对于给定的数据和任务选择合适的模型和特征

1、特征

特征是对原始数据的抽象,是原始数据的抽象表示,通过使用数值表示原始数据。

1.1、文本的特征化

对于文本,通常使用的是Bag of Words词袋模型表示特征,即将文本映射成为一个词的向量,向量的长度是词典的大小,每一位表示词典中的一个词,向量中的每一位上的数值表示该词在文本中出现的次数。对于一个文本,其词向量通常是稀疏的。词袋模型如下图所示:

1.2、图像的特征化

对于彩色图像,每一个像素点是由RGB三元组组成的,同样可以可以使用类似词袋模型的Bag of Visual Words,如下图所示:

Bag of Visual Words中的每一个元素可以通过像素点的组合构成,从低维的特征到更高维的数据抽象,这便是深度学习的概念,如下图所示:

1.3、机器学习中的特征空间

从上述的特征提取中发现从原始数据中提取特征是将原始数据映射到一个更高维的空间,特征空间中的特征是对原始数据更高维的抽象。特征工程主要需要解决的问题是对具体的问题构建出适合表示该问题的特征。

Feature engineering = creating features of the appropriate granularity for the task

2、特征空间的可视化

在PPT中引用了如下的一段话:

Crudely speaking, mathematicians fall into two categories:the algebraists, who find it easiest to reduce all problems to sets of numbers and variables, and the geometers, who understand the world through shapes.– Masha Gessen, “Perfect Rigor”

这段话的大概意思是说,数学可以分为两个类别,一是代数,即将问题转换成许多组的数和变量;另一个则是几何,即通过图形的方法理解身边的事物。

例如对于上述的词袋模型,可以将每个词表示成一个维度,如下图的两个维度(cute,puppy):

如果此时的维度升高到三维(cute,puppy,extremely),此时的特征空间可表示为下图:

3、模型

模型是对特征的一种数学的总结,是指对特征进行的一种数学的表达。对于分类模型,以二分类为例,主要是要找到一个分隔超平面将特征空间分成两个类,如下图所示:

对于聚类模型,通过对特征空间中的特征实施某种相似性的度量,将相似的特征聚在一起,便达到了聚类的目的,如下图所示:

对于回归问题,需要找到最合适的方式去拟合样本空间中的样本点,如下图所示:

4、特征工程的可视化

对于如下的文本分类问题,文本分别为:

  • I have a puppy.
  • I have a cat.
  • I have a kitten.
  • I have a dog and I have a pen.

此时利用bag of words的文本特征处理方法,我们可以得到下面的图:

对于上述的文本分类问题而言,增加了”have”这一维的特征,对于问题(区分dog和cat)而言,是一个没有用的特征。我们希望能够选择出对于具体的问题具有重要贡献的词语,赋以更大的权重。可以使用词频-逆文本频率(Term Frequency-Inverse Document Frequency of word, ft-idf),tf-idf用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,词频(tf)表示的是在文章中该词出现的次数,逆文本频率(idf)是一个词语普遍重要性的度量。tf-idf的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

tf-idf=tf\times idf

对于上述的问题,tf-idf表示下的图为:

通过上图,我们看出,这样便能将“dog”和“cat”区分开。

5、其他的一些主题

机器学习中还有一些其他的主题,包括:

  • 特征的归一化
  • 特征变化
  • 模型的正则化
  • ······

参考文献

《Understanding Feature Space in Machine Learning – Data Science Pop-up Seattle》Alice Zheng

若需要PDF版本,请关注我的新浪博客@赵_志_勇,私信你的邮箱地址给我。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Petrichor的专栏

深度学习: AlexNet 网络

AlexNet网络 提出于2012年,Hinton大神带领团队在ImageNet图像分类竞赛上夺魁,成为了深度学习的转入兴盛的拐点,因此2012年被称为“计算机...

27230
来自专栏机器之心

学界 | 谷歌云提出渐进式神经架构搜索:高效搜索高质量CNN结构

417120
来自专栏大数据挖掘DT机器学习

银行风控案例:Logistics模型预测银行贷款违约

在面试中会经常碰到考察对数据挖掘算法的熟悉程度,面试官会出一道题或给出一些数据,让你结合实际谈谈你选择什么模型,该模型的大致原理是什么,使用条件有哪些,模型优缺...

616120
来自专栏机器学习算法工程师

fine-gained image classification

我们在路边看到萌犬可爱至极,然后却不知道这个是哪种狗;看见路边的一个野花却不知道叫什么名字,吃着一种瓜,却不知道是甜瓜还是香瓜傻傻分不清……

11920
来自专栏AI科技大本营的专栏

如何让渣画质图片达到逼真效果,试试GAN吧

翻译 | 梁红丽 编辑 | Just 【AI科技大本营导读】在最终视觉呈现效果上,现有的用于极限学习图片压缩的算法似乎都不尽人意,本文作者则使用了 GAN,允许...

37590
来自专栏专知

【干货】计算机视觉实战系列06——用Python做图像处理

【导读】专知成员Hui上一次为大家介绍主成分分析(PCA)、以及其在图像上的应用,这一次为大家详细讲解SciPy库的使用以及图像高斯模糊实战。 【干货】计算机视...

436140
来自专栏AILearning

【机器学习实战】第7章 集成方法 ensemble method

第7章 集成方法 ensemble method ? 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:...

28190
来自专栏SIGAI学习与实践平台

理解生成模型与判别模型

我们都知道,对于有监督的机器学习中的分类问题,求解问题的算法可以分为生成模型与判别模型两种类型。但是,究竟什么是生成模型,什么是判别模型?不少书籍和技术文章对这...

13220
来自专栏机器学习算法与理论

《白话深度学习与Tensorflow》学习笔记(3)HMM RNN LSTM

RNN:循环神经网络 与CNN最大的不同是记忆暂存功能,可以把过去输入的内容所产生的远期影响量化后与当前时间输入内容一起反应到网络中参与训练。尤其是对时间序列、...

36670
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 4 - 第一个机器学习问题

上一篇 3 机器人类学习的启示借鉴人类学习的模式,描绘了数据驱动的机器学习方法论:通过大量数据来确定模型,从而让模型具有预测价值。本篇提出第一个机器学习问题,...

41870

扫码关注云+社区

领取腾讯云代金券