前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Instance Based Learning

Instance Based Learning

作者头像
杨熹
发布2018-04-02 16:21:55
1.3K0
发布2018-04-02 16:21:55
举报
文章被收录于专栏:杨熹的专栏杨熹的专栏

Udacity Machine Learning Instance Based Learning


Supervised Learning 给你一些数据集,用算法去训练函数,训练出来后,就可以投入新的数据进行预测。

Instance Based Learning

不包含训练函数这个过程,只需要把所有数据放在数据库里,投入新的数据时,只需要去数据库里查找,

优点是: Remember:可信,不需要平滑什么的近似 Fast:不需要 learning Simple: 缺点是: Overfitting:太依赖已有数据了 看起来只能返回已有数据,无法返回新数据

应用举例: 红色很贵,蓝色中等,绿色最便宜,要预测黑色点的颜色。 方法就是看 Nearest Neighbor,如果只看一个neighbor,有些点比较容易看出来,有些点需要看很多 neighbor 才能看准,不能单纯只取一个最近的,所以是 K Nearest Neighbors。


KNN

可以分类,可以回归。 可以用 vote 和 mean, 也可以用 Similarity 去算入 Weight。

复杂度对比:

并不是 LR 就比 NN 慢,因为 learning 只需要一次,但是可以 query 很多次

这个例子计算一下 q 这个点,在不同的 Domain 和 不同的 k 时,结果是怎样的,不过与实际值 18 差了很远。 但是 KNN 表现还是不错的,不过它有一些基本的 Bias,而这个例子只是恰好违背了这些 Bias,所以才如此不准。

Preference Bias

Why we prefer one hypothesis over another,

2. Smooth 与 locality 很像,但是区别是,虚线上的点更 smooth,而四周的辐射状的点也是 locality。

3. All Feature Matters Equally 如上面的例子,x1 和 x2 的重要性是不同的,

其他

  1. Distances 要选择合适的距离,不然会得到不太好的结果。
  2. K 需要选择合适的K,注意一种情况是K=N时,

Curse of Dimensionality

随着 Feature 和 Dimension 的数量增加,训练算法所需要的数据将成指数级增加。 比如训练 KNN,训练一维的点,就想要找到一条线上离它最近的,如果是三维的,就想找到空间上离它最近的一个小立方区域。 这个问题不只是在KNN发生,在ML算法中普遍存在。


总结

你要先明确你要解决的问题,并知道一些 Domain Knowledge,然后去选择最优的算法,DT还是KNN等等。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016.06.27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Instance Based Learning
  • KNN
  • Preference Bias
  • 其他
    • Curse of Dimensionality
      • 总结
      相关产品与服务
      数据库
      云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档