Andrew Ng的机器学习课程概述(三)

第十三章 无监督学习

首先讲的K-mean聚类原理还是挺简单的。就是你要分K个类,你就选择K个点做中心点,然后让所有的点进行计算,离哪个点最近,就选择成为这个点的类,然后更新这K个点的位置,让其成为新类的中心,然后再重复上面那个工作,直到最后这K个点都不动了,算法也就收敛了。

这里的cost function很简单,就是各个点到选取的点的距离:

但是,这K个点应该怎么选取,才会让这些无标签的点真正地分成你需要的类呢,这里有个步骤:

就想这样多次进行K-mean找到一个cost function最优的来即可。

而对于K值的选择,多半是由你下游的需求来定的,比如你要把你的产品分成三个用户群,那你的K就定3。还有一个比较量化的方法就是elbow method:

第十四章 PCA

这个是主成分分析的,以前看过一个挺好的文章,所以就没太看这个 这里是那个文章

第十五章 异常检测

这里首先讲的是正太分布(也叫高斯分布)的检测方法,就是利用各个特征独立且都符合正态分布的特性,通过极大似然法确定分布的均值和方差。然后建立p(x)模型,来判断新来的点是否异常,如果出现概率较小,那说明异常。具体见下图:

之后讲如何评价一个异常检测系统:

  1. 用training set 训练出p(x)
  2. 用cv对y进行验证
  3. 用recall,precision来评价p(x)

至于什么时候使用异常检测,什么时候使用监督学习,视频中给出这样的建议:当正样本很少的时候,并且未来的正样本可能与现在的正样本不同的时候采用异常检测。而监督学习则在正负样本都很多的时候使用:

然后给出了如何选择异常检测算法特征的方法:

  1. 采用log(x),x0.1之类的让p(x)看起来更“高斯”
  2. 从异常样本中找出特征
  3. 通过使用不同特征的组合建立新特征,找出某些异常。(??)

多元高斯分布:

独立分布模型和多元高斯分布模型的对比:

基本思想就是多元高斯分布可以看出来特征之间的关系,而初始模型你还需要一一构建,但是初始模型计算量比较小,更加常用,而多元的必须是样本数大于特征数否则可能会造成Σ不可逆。

第十六章 推荐系统

这张图就是推荐系统的精髓之所在:

参数说明:

其中Θ就是用户对于各类电影的评价分数,x则是某部电影属于哪类电影的向量(比如有0.9的浪漫,0.1的动作等等),y就是用户给电影打的分数。

而具体的算法也和之前的回归啊之类的差不多:

而其向量化表示更加简洁:

最后讲了一下要是来了一个啥也不知道的用户应该咋办:全部取均值。

第十七章 大规模机器学习

对于大规模(上亿)的机器学习,传统的梯度下降法有个很大缺陷是需要把所有数据一次读入,十分耗时。所以要使用一种随机梯度下降法:

随机梯度下降法的意思,首先对于(x1,y1),让所有的参数Θ能更好拟合(x1,y1),然后让所有的参数Θ能更好拟合(x2,y2)。另外外层循环一般执行1-10次。

计算机讲究折中的艺术,因此就出现小批量梯度下降法:

如何判断你的梯度下降是收敛的呢:

  1. 在用(xi,yi)更新Θ前用cost function计算假设对于这个样本的表现,看更新后是否在这个样本上表现得更好了。
  2. 每1000次迭代,求出cost function的平均值,看看是否有下降的趋势。
  3. 关于学习速率α,通常是随着迭代次数增加而下降。 最后介绍了在线学习和分布计算(mapreduce)。
    • 在线学习就是没有固定的数据集,而是对单个数据样本进行学习,学习过后实时更新模型并丢弃这个样本(但是具体怎么实现的没讲)。
    • 分布计算就是把一些求和之类的运算放在多个计算机或者一个计算机的多个核上运行最后合到一起。

第十八章 实例

这章里比较有价值的有两个知识点,一个是滑动窗口一个是上限分析。

  • 滑动窗口:通过一个窗口来检测图像中是否有你需要的对象
  • 上限分析:就是在一整套机器学习算法的运行中,分析到底修改哪个步骤会让你的算法运行的更好。例子如下图:

即当文字检测由人亲自完成时,系统的准确性为89%提高了17%,当文字分割正确率是100%时,系统准确率变为90%,提高了1%;文字识别正确率为100%时,系统提高10%.这样你就会发现,如果把功夫用在文字检测上会比用在文字分割上获得的准确率提升更大。 最后介绍如何获得更多的数据,首先要问的问题就是 How much work would it be to get 10x as much data as we currently have? 所以该如何获得大量数据呢,比如对于文字检测,首先你可以获得文字库的文件,然后用处理软甲使其变形,或者给其背景增加噪点之类的。当然,在获得大量数据前,你要有个低偏差的模型,否则这一切是没有用的。

写在最后

啊,终于写完了,这里是说好的课程链接。希望大家看得愉快~

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

专题 | 特征工程简介 (文末免费送AI币)

15930
来自专栏机器之心

教程 | 一文简述如何使用嵌套交叉验证方法处理时序数据

22830
来自专栏机器之心

CVPR 2018 | 优于Mask R-CNN,腾讯优图提出PANet实例分割框架

选自arXiv 作者:Shu Liu 等 机器之心编译 参与:刘晓坤、路雪 近日,港中文联合腾讯优图提出了新型实例分割框架 PANet,该网络通过加速信息流和整...

82790
来自专栏机器学习算法与Python学习

秘籍 | 数据竞赛大杀器之模型融合(stacking & blending)

叠(也称为元组合)是用于组合来自多个预测模型的信息以生成新模型的模型组合技术。通常,堆叠模型(也称为二级模型)因为它的平滑性和突出每个基本模型在其中执行得最好的...

14630
来自专栏机器学习算法工程师

《机器学习》笔记-特征选择与稀疏学习(11)

如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一...

15240
来自专栏人工智能

人工智能发展史(七)CNN卷积神经网络那些事儿

在大风中紧紧抓住你的帽子,紧紧抓住你的希望,别忘了给你的钟上发条。明天是新的一天。 by怀特 ? 首先祝大家平安夜快乐,明天的圣诞节快乐~ 这周我们用最通俗的解...

306110
来自专栏企鹅号快讯

用于大规模行人重识别的行人对齐网络

AI 科技评论按:本文首发于知乎行人重识别专栏,AI 科技评论获其作者郑哲东授权转载。 1.Motivation 近年来,对行人重识别(person re-ID...

45880
来自专栏人工智能

Tensorflow新手通过PlayGround可视化初识神经网络

北京 上海巡回站 | NVIDIA DLI深度学习培训 2018年1月26/1月12日 ? NVIDIA 深度学习学院 带你快速进入火热的DL领域 正文共179...

24080
来自专栏媒矿工厂

HDR关键技术:色调映射(二)

HDR技术近年来发展迅猛,在未来将会成为图像与视频领域的主流。如何让HDR图像与视频也能够同时兼容地在现有的SDR显示设备上显示,是非常重要的技术挑战。色调映射...

2.5K40
来自专栏AI研习社

我搭的神经网络不 work 该怎么办!看看这 11 条新手最容易犯的错误

每个人在调试神经网络的时候,大概都遇到过这样一个时刻: 什么鬼!我的神经网络就是不 work!到底该怎么办! 机器学习博客 TheOrangeDuck 的作者,...

31540

扫码关注云+社区

领取腾讯云代金券