前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >吴恩达机器学习笔记5-无监督学习Unsupervised Learning

吴恩达机器学习笔记5-无监督学习Unsupervised Learning

作者头像
讲编程的高老师
发布2020-08-14 10:08:44
6380
发布2020-08-14 10:08:44
举报

本次视频讲解无监督学习的基本概念,主要是它和监督学习的区别。

01

视频

02

笔记

主要内容:

1)什么是无监督学习?

2)无监督学习的几个应用实例。

2.1 什么是无监督学习?

要理解无监督学习,还是要从监督学习过渡过来。

下图中的点明显分为两类,而且训练样本也明明白白的告诉我们它们要分成两类。

然后呢,我们的机器学习算法根据上面图中的训练样本得到下面图中的这样一条直线,以后再有新的x1、x2我们就可以对它进行分类了。

那如果训练样本是这样的呢?

上面这个图中的训练样本呢,它没有被打上标签(label),就是说我们只知道自变量(x1、x2),不知道因变量(Y),我们要让我们的机器学习算法自己去找规律。像这样的学习我们就称之为无监督学习。

对上面的例子,我们可以用类似密度聚类的算法将之聚类。

2.2 无监督学习的例子

1)对新闻网页的分类的例子。

以google新闻(或者头条新闻)为例,它们不怎么生产新闻,它们只是新闻的搬运工。那它们的爬取工具将网络上的新闻爬取回来之后呢,需要对爬取到的新闻进行分门别类然后才展现给用户。

每天可能有几十万条新闻需要被分门别类的展现,还要对这些新闻进行个性化推送,那这个事怎么做的呢?

以下面这样一个石油新闻为例,聚类器首先要对新闻文本进行分词,然后根据里面出现的关键词好比新闻来源(CNN)、里面有石油钻井平台的名称、石油泄漏等等的这样一些词,然后根据这些关键词再对这篇新闻稿进行聚类。

2)基因检测。

对于基因,每类人都有特定的基因。如果不告诉你任何其它信息,只是把一堆人的基因检测的数据扔给你,该怎样聚类呢?这就需要无监督学习的方法。

3)其它应用

无监督学习的应用场景还有很多,几乎所有的现代科学研究领域都有无监督学习的身影。

如下图所示的,服务器集群管理、社交网络的分析、客户价值分析等等。

4)一个特殊的问题,“鸡尾酒会”问题。

鸡尾酒会问题是非常著名的一个语音分离问题的场景描述,1953年就被提出来了。说的是,我们人的耳朵在鸡尾酒会上能够相对比较轻易的从嘈杂的环境中把我们感兴趣的谈话对象的语音分离出来。但是,机器能做到这件事情么?

对这个问题进一步进行抽象简化,如下图所示,双通道(两个麦克风)同时对两个说话者的声音进行采集然后再对它们进行分离,这就是语音分离问题;如果是再对这些说话者语音叠加上一些噪音,我们需要对噪音进行剔除,这就是语音增强的问题了。

那无监督学习怎么做这件事的呢?这是一个非常复杂的问题,如果用c++或者Java来写的话,要写好多好多代码,但是我们吴老师的课是用的Octava或者Matlab来实现的,只需要这样一行代码就可以了(老高没有验证了):

这说明,如果我们使用Octava或者matlab来学习机器学习的话会非常快。如果工作后,我们使用Octava或Matlab来快速的验证我们的算法原型,验证通过后我们再用C++或Java来重现以提高代码执行效率,会大大提高我们整个的开发效率。

5)一个练习题

下面的问题中,哪些是无监督学习问题?

  • 给定一组被标记好垃圾邮件(非垃圾邮件)的邮件,学习构建一个垃圾邮件过滤器;
  • 从网上爬取很多新闻报道,然后对这些报道进行聚类;
  • 给定一组客户数据,然后按照客户价值进行分离;
  • 给定一组已知是否患有糖尿病的病人的数据,然后根据一个新的病人数据预测这个人是否患有糖尿病。

答案比较明显,第2、3是无监督学习的例子。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 讲编程的高老师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档