Google机器学习教程心得(三) 好的feature

什么造就好的Feature

这里举了一个对两种狗狗做分类的问题介绍好的Feature应有的特性

简化问题

  • 好的feature能有力地说明两个类别的不同
  • 单个feature往往不完美,所以需要多个feature
  • 假如由人来做分类器,会需要什么信息?(找好的feature)
  • 对于一个feature,如果不同的label中,这个feature的值分布越均匀,则这个feature的分类作用越弱

在同一种眼睛颜色中,不同狗的数量差不多,说明眼的颜色的分类作用弱,这样的feature会降低分类器的准确性

  • 好的feature应该是相互独立的,能够提供更多有效信息,
  • 每个feature在分类器中都占一定的重要性,而如果feature间不独立,重要性的比重也会与原本的计划有偏差
  • feature应当预处理地尽可能与结果直接相关
  • 有好的feature还不够,还要有好的feature之间的好的组合

总结

好的feature应该是这样的:

  • Informative
  • Independent
  • Simple

代码

Good-Feature:构造数据集与绘制柱状图

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏前端架构

响应式布局----像素密度与viewport

首先举个例子,iphone6s的像素分辨率为1334x750,326ppi,4.7英寸。如图 下面我们一个一个来解释。

571
来自专栏前端布道

CSS3实现多样的边框效果

681
来自专栏大数据文摘

三种可视化方法,手把手教你用R绘制地图网络图!

1174
来自专栏华章科技

入门干货:从《权力的游戏》战斗场景中搞懂数据抽样和过滤

导读: 直观来看,处理大数据的一个方法就是减少要处理的数据量,从而使处理的数据量能够达到当前的处理能力能够处理的程度。可以使用的方法主要包括抽样和过滤。两者的区...

371
来自专栏大数据挖掘DT机器学习

数据挖掘工程师笔试及答案

2013百度校园招聘数据挖掘工程师 一、简答题(30分) 1、简述数据库操作的步骤(10分) 步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命...

3848
来自专栏天天P图攻城狮

Android OpenGL开发实践 - 基于OpenGL ES 2.0的Android相机实时图片涂鸦实现思路

这篇文章将给大家讲解如何在Android系统上基于OpenGL ES 2.0来实现相机实时图片涂鸦效果,所涂内容跟随人脸出现、消失、移动、旋转及缩放,在这里,我...

95413
来自专栏社区的朋友们

概率抽样方法简介

抽样包含概率抽样和非概率抽,本文主要介绍不同的概率抽样方法的核心思想,优缺点以及相关的应用场景。

3480
来自专栏大数据挖掘DT机器学习

【Python】爬虫+ K-means 聚类分析电影海报主色

作者:Amy 译者:Fibears 原文链接:http://blog.nycdatascience.com/students-work/using-py...

3255
来自专栏黄成甲

数据分析之对应分析

还有一种探索性分析方法叫做对应分析。对应分析能够把一个交叉表结果通过图形的方式展现出来,用以表达不同变量之间以及不同类别之间的关系。对应分析实际也是“降维”方法...

543
来自专栏数据小魔方

R语言可视化——REmapH(中心热度图)

今天是REmap系列的最后一篇——REmapH函数。 这个函数的特色是可以做中心辐射的热力图,这种热力图在气象、人口密度、海拔测绘领域有诸多运用,当然也可以上当...

5406

扫码关注云+社区