Google机器学习教程心得(三) 好的feature

什么造就好的Feature

这里举了一个对两种狗狗做分类的问题介绍好的Feature应有的特性

简化问题

  • 好的feature能有力地说明两个类别的不同
  • 单个feature往往不完美,所以需要多个feature
  • 假如由人来做分类器,会需要什么信息?(找好的feature)
  • 对于一个feature,如果不同的label中,这个feature的值分布越均匀,则这个feature的分类作用越弱

在同一种眼睛颜色中,不同狗的数量差不多,说明眼的颜色的分类作用弱,这样的feature会降低分类器的准确性

  • 好的feature应该是相互独立的,能够提供更多有效信息,
  • 每个feature在分类器中都占一定的重要性,而如果feature间不独立,重要性的比重也会与原本的计划有偏差
  • feature应当预处理地尽可能与结果直接相关
  • 有好的feature还不够,还要有好的feature之间的好的组合

总结

好的feature应该是这样的:

  • Informative
  • Independent
  • Simple

代码

Good-Feature:构造数据集与绘制柱状图

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | CMU提出对抗生成网络:可实现对人脸识别模型的神经网络攻击

3077
来自专栏fangyangcoder

Andrew Ng机器学习课程笔记(六)之 机器学习系统的设计

http://www.cnblogs.com/fydeblog/p/7392408.html

832
来自专栏用户3246163的专栏

4.1 市场风险

daily 5% VaR as $1000: 有5%的概率一天的损失大于¥1000

3293
来自专栏AI科技评论

ICLR-17最佳论文作者Nicolas Papernot现场演讲:如何用PATE框架有效保护隐私训练数据?(附视频)

AI科技评论按:ICLR 2017 总共有三篇最佳论文,其中有一篇是关于如何有效保护机器学习训练中的隐私数据,名为「用半监督知识迁移解决深度学习中训练数据隐私问...

3204
来自专栏AI科技评论

学界 | OpenAI最新研究:“对抗样本”能轻易黑掉AI系统,如何抵御?

AI科技评论按:近日,OpenAI发表最新研究,论述了AI安全领域的一大隐忧:“对抗样本”,它可以轻易地让机器学习系统产生误判,这会对AI的应用实践产生影响。在...

3425
来自专栏AI科技评论

京东 AI Fashion-Challenge 挑战赛冠军方案详解(风格识别+时尚单品搜索)

AI 科技评论按:随着消费升级时代的来临,中国时尚消费市场正渐渐变得更加个性化、精致化和多样化,服饰的时尚风格对消费动机的影响愈渐加深,而随着 AI 技术的发展...

592
来自专栏人工智能头条

神经网络太好骗?清华团队如何做到打NIPS攻防赛得3冠军的

今天带来的文章,由同济大学研究生张子豪投稿。介绍了人工智能与信息安全的交叉前沿研究领域:深度学习攻防对抗。

921
来自专栏人工智能

最小二乘回归的Python实现

写在前面 我们构建了非常强大的私募基金数据库,并基于这个数据库,衍生出了FOF Easy数据可视化终端和FOF Power组合基金管理系统,涉及到非常多复杂的...

3036
来自专栏AI研习社

产生和防御对抗样本的新方法 | 分享总结

对抗样本是一类被恶意设计来攻击机器学习模型的样本。它们与真实样本的区别几乎无法用肉眼分辨,但是却会导致模型进行错误的判断。本文就来大家普及一下对抗样本的基础知识...

4078
来自专栏AI2ML人工智能to机器学习

评价参数估算的常用指标

前面“ 回归分析中的问题和修正的探讨(下篇)”,讲到了无偏性和有效性, 这里把评价参数估计的常用指标简述下下。

844

扫码关注云+社区