前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >林轩田机器学习基石课程学习笔记1 -- The Learning Problem

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

作者头像
AI算法与图像处理
发布2020-04-15 11:32:00
6150
发布2020-04-15 11:32:00
举报

主要内容

  • What is Machine Learning
  • Applications of Machine Learning
  • Components of Machine Learning
  • Machine Learning and Other Fields

一、What is Machine Learning

什么是“学习”?学习就是人类通过观察、积累经验,掌握某项技能或能力。就好像我们从小学习识别字母、认识汉字,就是学习的过程。而机器学习(Machine Learning),顾名思义,就是让机器(计算机)也能向人类一样,通过观察大量的数据和训练,发现事物规律,获得某种分析问题、解决问题的能力。

机器学习的过程是从资料出发,经过电脑的计算之后,最终得到某一种表现。

比如通过电脑让电脑学会预测股票。利用十年前的数据去学习,告诉我明天该怎么去投资,如果机器真的做到了,那么说明机器真的学到了这些。这是我们希望机器学习能做的事情。

举例:如何识别一棵树

  • 设计一个程序去定义一棵树,是非常困难的
  • 通过学习数据去辨认一棵树(3岁小孩能做)
  • 机器学习系统去识别一棵树比设计一个程序更加容易的多

通过我们的脑力去分析这些东西比较困难,因为希望通过机器自己去学习和分析,发现这些规律。

机器学习在构建一个复杂系统的时候是一个可选的方法:

比如:

  • 当人类没办法做一个复杂的系统,将所有的规律都写清楚,比如机器人探测火星,没办法预测机器人在火星上会遇到什么情况,例如遇到坑,要怎么办,这就需要机器自己去学习怎么处理
  • 没办法定义一个规则的时候——语音/可视化识别
  • 有一些人没想过的应用——股市交易
  • 在大规模的数据下一个用户取向的问题——用户个性化的市场

机器学习要做的事情,是类似于教电脑钓鱼的方法,让它可以一辈子受用。

那么什么场景下,考虑使用机器学习解决呢?

机器学习的三个关键条件:

  • 事情本身存在某些潜在规律可以去学习,并且有明确的目标
  • 事情存在一定的规则,但是我们不知道怎么把它用代码写下来
  • 机器学习需要资料,否则机器不知道如何去学习

当三个关键条件都满足的时候才考虑使用机器学习

测试&答案:

1、预测小孩子接下来的几分钟后会哭?no(没有规则)

2、判断图中是否存在圆?no(规则可以轻松定义)

3、决定是否该给用户分发信用卡?yes,不容易编程实现,有大量的客户历史信息

4、地球什么时候会毁灭?no(没有足够的数据)

二、Applications of Machine Learning

机器学习在我们的衣食住行等各个方面中都有应用。

(1)Food:

数据来源:推特(评价+定位)

功能:了解这家饭店食物的味道如何

(2)Clothing

数据:商品的图片、用户穿搭

功能:告诉我们怎样去搭配衣服才能更加Fashion

(3)Housing

数据:房子的建筑特点、使用的能源

功能:预测房子在节能减排上面的能力

(4)Transportation

数据:交通灯的图片和含义

功能:准确识别交通灯信号

上面只是举一些例子,当然这样子的例子还有很多!

机器学习在教育上的应用

数据:学生在上网课中的一些记录,答题记录和上课记录等

功能:预测学生会哪些内容,不会哪些内容,并推荐一些资料。

那么机器学习要如何去设计呢?

  • 从3000学生中给出900万数据
  • 利用机器学习去自动确定问题的难度等

娱乐方面的应用,推荐系统

数据:有多少用户喜欢什么电影

功能:预测一个用户有多大概率喜欢一个没看过的电影

那么电脑是如何去学习这些特征呢?

利用模型将用户和电影用一串特征来描述,对两串特征求内积,如果相乘的分数高,则会给非常高的推荐分数。但是我们没有办法去定义这些特征,所以机器学习通过以往的数据,去学习这些特征,并预测用户有多喜欢这部电影。

测试&答案

机器在以下哪些领域用不到?

1、金融 (预测股市)

2、医疗 (预测药效)

3、法律 (从公文书自动给出摘要,便于搜寻和阅读)

4、不是上述的任何一个 yes

三、Components of Machine Learning

如何公式化机器学习的问题

基础的术语:

  • 输入:x(用户的行为)
  • 输出:y(根据预测结果好/坏,决定是否要发卡)
  • 目标函数:f,未知的规则--->目标函数
  • 数据,训练样本(过去收集的数据)
  • 假说,选择一个最佳的假说对应的函数称为矩g,g能最好地表示事物的内在规律,也是我们最终想要得到的模型表达式

机器学习流程图:

从未知规律的数据中,通过学习算法去挖掘,让最终的 g 接近 f

注意点:

  • 目标函数,f是未知
  • 假说是希望g尽可能的接近f,但是可能还是不同于f

举例,以信用卡为例

g 到底长什么样

今天决定要不要发给客户信用卡,以下是一些可能的公式

h1:年收入有没有超过800000,超过就给

h2:负债超过100000给信用卡

h3:工作不满两年给他信用卡

将所有的可能h,都放到g的集合中,并从集合中找到最有可能的结果

学习模型=算法+假说

机器学习的定义:从资料出发,机器学习算法要算出一个假说(hypothesis)g,我们希望这个g要很接近我们最渴望的那个f。

测试&答案

歌曲推荐

四、Machine Learning and Other Fields

与机器学习相关的领域有:

  • 数据挖掘(Data Mining) ——>从数据中挖掘一些有用的资料
  • 人工智能(Artificial Intelligence)——>计算一些东西并显示出很聪明的行为(比如AI下棋)
  • 统计(Statistics)——>使用数据做一些推论(比如硬币问题)

机器学习和数据挖掘,非常相像,有些地方还是一样,密不可分

机器学习是实现人工智能的一种方式

统计是实现机器学习的一种方法,统计更加关注使用数学理论来给出结果,很少关心计算的问题。统计学给机器学习提供了很多有用的工具。

测试&答案

五、总结

本节课主要引入了机器学习的概念,机器学习实际上是从资料出发找到一个函数,然后找到的函数和我们最渴望的目标是很接近的。机器学习在很多地方都有应用,其核心 算法,数据(资料),假说(hypothesis)最后得到g。

机器学习和数据挖掘、人工智能、统计这三个领域做个比较,和各个领域的关系,他们各自有各自的取向。

参考资料:

https://www.bilibili.com/video/BV1Cx411i7op?p=1

https://blog.csdn.net/red_stone1/article/details/101303228

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、What is Machine Learning
  • 二、Applications of Machine Learning
  • 三、Components of Machine Learning
  • 四、Machine Learning and Other Fields
  • 五、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档