前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习中的特征空间

机器学习中的特征空间

作者头像
felixzhao
发布2018-03-20 13:46:01
2.7K0
发布2018-03-20 13:46:01
举报
文章被收录于专栏:null的专栏null的专栏

声明:这篇博文主要是对参考文献中的那个PPT的学习之后记下的一些笔记,整理出来与大家一起分享,若笔记中有任何错误还请不吝指出,文中可能会使用到原作者的一些图,若侵犯到作者的权益,还请告知,我会删除,谢谢。

一、机器学习的流程

应用机器学习算法的流程大致可以分为:

  • 收集数据
  • 数据处理,提取特征
  • 训练模型
  • 模型部署
  • 模型的应用及反馈

具体的衔接关系如下图所示:

二、机器学习的关键问题

在机器学习中主要有如下的三个关键问题:

  • 特征=对原始数据的数值表示
  • 模型=对特征的数学总结
  • 成功的应用=对于给定的数据和任务选择合适的模型和特征

1、特征

特征是对原始数据的抽象,是原始数据的抽象表示,通过使用数值表示原始数据。

1.1、文本的特征化

对于文本,通常使用的是Bag of Words词袋模型表示特征,即将文本映射成为一个词的向量,向量的长度是词典的大小,每一位表示词典中的一个词,向量中的每一位上的数值表示该词在文本中出现的次数。对于一个文本,其词向量通常是稀疏的。词袋模型如下图所示:

1.2、图像的特征化

对于彩色图像,每一个像素点是由RGB三元组组成的,同样可以可以使用类似词袋模型的Bag of Visual Words,如下图所示:

Bag of Visual Words中的每一个元素可以通过像素点的组合构成,从低维的特征到更高维的数据抽象,这便是深度学习的概念,如下图所示:

1.3、机器学习中的特征空间

从上述的特征提取中发现从原始数据中提取特征是将原始数据映射到一个更高维的空间,特征空间中的特征是对原始数据更高维的抽象。特征工程主要需要解决的问题是对具体的问题构建出适合表示该问题的特征。

Feature engineering = creating features of the appropriate granularity for the task

2、特征空间的可视化

在PPT中引用了如下的一段话:

Crudely speaking, mathematicians fall into two categories:the algebraists, who find it easiest to reduce all problems to sets of numbers and variables, and the geometers, who understand the world through shapes.– Masha Gessen, “Perfect Rigor”

这段话的大概意思是说,数学可以分为两个类别,一是代数,即将问题转换成许多组的数和变量;另一个则是几何,即通过图形的方法理解身边的事物。

例如对于上述的词袋模型,可以将每个词表示成一个维度,如下图的两个维度(cute,puppy):

如果此时的维度升高到三维(cute,puppy,extremely),此时的特征空间可表示为下图:

3、模型

模型是对特征的一种数学的总结,是指对特征进行的一种数学的表达。对于分类模型,以二分类为例,主要是要找到一个分隔超平面将特征空间分成两个类,如下图所示:

对于聚类模型,通过对特征空间中的特征实施某种相似性的度量,将相似的特征聚在一起,便达到了聚类的目的,如下图所示:

对于回归问题,需要找到最合适的方式去拟合样本空间中的样本点,如下图所示:

4、特征工程的可视化

对于如下的文本分类问题,文本分别为:

  • I have a puppy.
  • I have a cat.
  • I have a kitten.
  • I have a dog and I have a pen.

此时利用bag of words的文本特征处理方法,我们可以得到下面的图:

对于上述的文本分类问题而言,增加了”have”这一维的特征,对于问题(区分dog和cat)而言,是一个没有用的特征。我们希望能够选择出对于具体的问题具有重要贡献的词语,赋以更大的权重。可以使用词频-逆文本频率(Term Frequency-Inverse Document Frequency of word, ft-idf),tf-idf用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,词频(tf)表示的是在文章中该词出现的次数,逆文本频率(idf)是一个词语普遍重要性的度量。tf-idf的主要思想是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

tf-idf=tf\times idf

对于上述的问题,tf-idf表示下的图为:

通过上图,我们看出,这样便能将“dog”和“cat”区分开。

5、其他的一些主题

机器学习中还有一些其他的主题,包括:

  • 特征的归一化
  • 特征变化
  • 模型的正则化
  • ······

参考文献

《Understanding Feature Space in Machine Learning – Data Science Pop-up Seattle》Alice Zheng

若需要PDF版本,请关注我的新浪博客@赵_志_勇,私信你的邮箱地址给我。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、机器学习的流程
  • 二、机器学习的关键问题
    • 1、特征
      • 1.1、文本的特征化
      • 1.2、图像的特征化
      • 1.3、机器学习中的特征空间
    • 2、特征空间的可视化
      • 3、模型
        • 4、特征工程的可视化
          • 5、其他的一些主题
          • 参考文献
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档