机器学习中的特征空间

声明:这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记,整理出来与大家一起分享,若笔记中有任何错误还请不吝指出,文中可能会使用到原作者的一些图,若侵犯到作者的权益,还请告知,我会删除,谢谢。

一、机器学习的流程

应用机器学习算法的流程大致可以分为:

  • 收集数据
  • 数据处理,提取特征
  • 训练模型
  • 模型部署
  • 模型的应用及反馈

具体的衔接关系如下图所示:

二、机器学习的关键问题

在机器学习中主要有如下的三个关键问题:

  • 特征=对原始数据的数值表示
  • 模型=对特征的数学总结
  • 成功的应用=对于给定的数据和任务选择合适的模型和特征

1、特征

特征是对原始数据的抽象,是原始数据的抽象表示,通过使用数值表示原始数据。

1.1、文本的特征化

对于文本,通常使用的是Bag of Words词袋模型表示特征,即将文本映射成为一个词的向量,向量的长度是词典的大小,每一位表示词典中的一个词,向量中的每一位上的数值表示该词在文本中出现的次数。对于一个文本,其词向量通常是稀疏的。词袋模型如下图所示:

1.2、图像的特征化

对于彩色图像,每一个像素点是由RGB三元组组成的,同样可以可以使用类似词袋模型的Bag of Visual Words,如下图所示:

Bag of Visual Words中的每一个元素可以通过像素点的组合构成,从低维的特征到更高维的数据抽象,这便是深度学习的概念,如下图所示:

1.3、机器学习中的特征空间

从上述的特征提取中发现从原始数据中提取特征是将原始数据映射到一个更高维的空间,特征空间中的特征是对原始数据更高维的抽象。特征工程主要需要解决的问题是对具体的问题构建出适合表示该问题的特征。

Feature engineering = creating features of the appropriate granularity for the task

2、特征空间的可视化

在PPT中引用了如下的一段话:

Crudely speaking, mathematicians fall into two categories:the algebraists, who find it easiest to reduce all problems to sets of numbers and variables, and the geometers, who understand the world through shapes.– Masha Gessen, “Perfect Rigor”

这段话的大概意思是说,数学可以分为两个类别,一是代数,即将问题转换成许多组的数和变量;另一个则是几何,即通过图形的方法理解身边的事物。

例如对于上述的词袋模型,可以将每个词表示成一个维度,如下图的两个维度(cute,puppy):

如果此时的维度升高到三维(cute,puppy,extremely),此时的特征空间可表示为下图:

3、模型

模型是对特征的一种数学的总结,是指对特征进行的一种数学的表达。对于分类模型,以二分类为例,主要是要找到一个分隔超平面将特征空间分成两个类,如下图所示:

对于聚类模型,通过对特征空间中的特征实施某种相似性的度量,将相似的特征聚在一起,便达到了聚类的目的,如下图所示:

对于回归问题,需要找到最合适的方式去拟合样本空间中的样本点,如下图所示:

4、特征工程的可视化

对于如下的文本分类问题,文本分别为:

  • I have a puppy.
  • I have a cat.
  • I have a kitten.
  • I have a dog and I have a pen.

此时利用bag of words的文本特征处理方法,我们可以得到下面的图:

对于上述的文本分类问题而言,增加了”have”这一维的特征,对于问题(区分dog和cat)而言,是一个没有用的特征。我们希望能够选择出对于具体的问题具有重要贡献的词语,赋以更大的权重。可以使用词频-逆文本频率(Term Frequency-Inverse Document Frequency of word, ft-idf),tf-idf用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,词频(tf)表示的是在文章中该词出现的次数,逆文本频率(idf)是一个词语普遍重要性的度量。tf-idf的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

tf-idf=tf\times idf

对于上述的问题,tf-idf表示下的图为:

通过上图,我们看出,这样便能将“dog”和“cat”区分开。

5、其他的一些主题

机器学习中还有一些其他的主题,包括:

  • 特征的归一化
  • 特征变化
  • 模型的正则化
  • ······

参考文献

《Understanding Feature Space in Machine Learning – Data Science Pop-up Seattle》Alice Zheng

若需要PDF版本,请关注我的新浪博客@赵_志_勇,私信你的邮箱地址给我。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

AAAI 2018 | 南京大学提出用于聚类的最优间隔分布机

3605
来自专栏大数据挖掘DT机器学习

银行风控案例:Logistics模型预测银行贷款违约

在面试中会经常碰到考察对数据挖掘算法的熟悉程度,面试官会出一道题或给出一些数据,让你结合实际谈谈你选择什么模型,该模型的大致原理是什么,使用条件有哪些,模型优缺...

48512
来自专栏ATYUN订阅号

可能提高GAN性能的方法介绍

生成器试图找到最好的图像来欺骗鉴别器。当两个网络互相对抗时,“最佳”图像不断变化。但是,优化可能会变得过于贪心,使其陷入永无止境的猫捉老鼠游戏中。这是模型不收敛...

2114
来自专栏机器学习算法工程师

全面解读Group Normbalization-(吴育昕-何凯明 重磅之作)

一句话概括,GroupNormbalization(GN)是一种新的深度学习归一化方式,可以替代BN。

1634
来自专栏SIGAI学习与实践平台

自然场景文本检测识别技术综述

番外 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺...

1.9K2
来自专栏AILearning

【机器学习实战】第7章 集成方法 ensemble method

第7章 集成方法 ensemble method ? 集成方法: ensemble method(元算法: meta algorithm) 概述 概念:...

2559
来自专栏SIGAI学习与实践平台

理解生成模型与判别模型

我们都知道,对于有监督的机器学习中的分类问题,求解问题的算法可以分为生成模型与判别模型两种类型。但是,究竟什么是生成模型,什么是判别模型?不少书籍和技术文章对这...

1082
来自专栏SIGAI学习与实践平台

自然场景文本检测识别技术综述

白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应...

4402
来自专栏专知

【干货】计算机视觉实战系列06——用Python做图像处理

【导读】专知成员Hui上一次为大家介绍主成分分析(PCA)、以及其在图像上的应用,这一次为大家详细讲解SciPy库的使用以及图像高斯模糊实战。 【干货】计算机视...

38414
来自专栏marsggbo

论文笔记系列-Neural Architecture Search With Reinforcement Learning

神经网络在多个领域都取得了不错的成绩,但是神经网络的合理设计却是比较困难的。在本篇论文中,作者使用 递归网络去省城神经网络的模型描述,并且使用 增强学习训练RN...

3303

扫码关注云+社区