写给大家看的机器学习书(第二篇)

作者:徐晗曦 来源:https://zhuanlan.zhihu.com/p/25439997

《写给大家看的机器学习书》第一篇,我们了解了机器学习的基本概念,机器学习的三个要素——数据、学习算法和模型(如图1所示)。

图1:

在这个系列的第二篇,我将首先借有好货这个真实的应用场景,让大家看看数据长什么样,了解现实中的机器学习输入数据是怎么来的。

接着,我们需要引出模型的的符号化表示和定义。数学符号的引入一方面有利于后续进入到具体的学习算法的讨论时有更高的效率,另一方面这也是每个学习者准确理解机器学习绕不过去的一环。

然后,在理解了输入数据,熟悉了模型的符号化表示后,我们将对图1所示的相对粗略的机器学习流程做进一步的细化,细化后如图3所示。如果说学完这一篇你只能带走一点知识的话,那就带走图3吧。一图胜千言,以后别人再问你机器学习是什么,大胆说出让机器学习专家也吃惊的精准理解吧:)

在这篇文章中,我们将接触到不少机器学习最常用到的名词、术语。不要小看名字的力量,一个东西一旦你知道了它的名字,就更容易注意到它的存在,并且掌握它。

1. 数据(Data)

1.1 数据长什么样

图2:

我们仍然以有好货产品的“瀑布流”页面(图2中间)为例,来看看机器学习的输入数据长什么样。

有好货瀑布流页是一个完全个性化的页面,不同的用户进入到有好货瀑布流页,看到的商品推荐是不同的。 我们希望在有限的屏幕空间内给每个用户展示他最有可能点击的商品,因此机器学习的目标是要让学得的模型能够预判用户是否会点击某个商品。 要学得这样的模型,输入数据简单来说大约长这样(表1所示):

表1

像这样的学习算法的输入数据,叫“训练数据”(Training Data)。 训练数据的每一行称为一个“训练样本”(Training Sample),通常大家就简称“样本”(Sample)。

我们注意到,每个样本有三个属性——年龄、性别、商品价格,代表了我们认为用户是否会点击某个商品主要由年龄、性别、商品价格三个因素共同决定(当然这里我们做了简化,实际上影响的因素远不止三个)。 这里的年龄、性别、商品价格我们称之为“特征”(Feature)。

在这个场景中,我们希望学得的模型可以用来预判用户是否会点击某个商品,因此光有年龄、性别、商品价格这样的特征信息还不够,还需要知道每个训练样本用户是否会点击。“是否点击”这个信息,称为样本的标注(Lable)。

1.2 训练数据怎么来的

了解了训练数据的长相,一定有人会问:训练数据是怎么来的呢?

其实也很简单,这个大数据时代,绝大多数互联网产品都会把用户的行为数据——包括浏览历史、点击历史记录下来,我们称为日志(Log)。

从日志数据中就能知道每个用户点过什么商品(对应标注为1的样本),看了什么商品却没有点(对应标注为-1的样本),再关联上用户的特征数据(年龄、性别)和商品的特征数据(价格),就得到学习算法所需要的训练数据了。

1.3 机器学习问题的分类

需要指出的是,并不是所有的机器学习问题都需要标注。事实上,根据训练数据是否有标注,机器学习问题大致划分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)两大类。

  • 监督学习:每个输入样本都有标注,这些标注就像老师的标准答案一样”监督“着学习的过程。而监督学习又大致分成两类:分类(Classification)和回归(Regression):
    • 分类问题:标注是离散值,比如用户”点击“和”不点击“。如果标注只有两个值,则称为二分类,如果标注有多个值,则称为多分类。
    • 回归问题:标注是连续值,比如如果问题是预测北京市房屋的价格,价格作为标注就是一个连续值,属于回归问题。
  • 无监督学习:训练样本没有标注,无监督学习解决的典型问题是聚类(clustering)问题。比如对一个网站的用户进行聚类,看看这个网站用户的大致构成,分析下每类用户群的特点是什么。

此外,机器学习还有其他的类别,比如半监督学习、增强学习,我们将慢慢涉及。

2. 模型 (Model)

还记得在第一篇我们说"机器学到的模型是一个映射",这是一个很好理解又非常准确的表述。

可是在后续的学习中,尤其是进入到具体的学习算法的讨论时,文字表达的效率不如符号表示来的高,所以现在我们就要引出模型的符号化表示和定义。这不仅能大大的提升后续讨论学习算法时的效率,也是准确理解机器学习绕不过去的一环。

其实也很简单,映射包括输入和输出,在这里输入就是用户的年龄、性别、商品价格,输出就是用户是否会点击,好,我们开始吧。

2.1 映射的输入

2.2 映射的输出

2.3 映射的表示

3. 机器学习概念图的细化

3.1 数据(Data)部分的细化

3.2 学习算法和模型部分的细化

综上

综上,我们把机器学习流程重新细化成下图所示:

图3:

预告和其它

下一篇将介绍一个具体的学习算法和模型,它足够基础也足够典型,甚至是人工神经网络大门入门的第一步。

另外,有同学在评论中问怎样可以收到后续文章的更新,经测试,如果你希望在Timeline中收到更新,可以考虑关注我。如果你希望在通知中心中收到通知以确保不miss更新,可以考虑关注这个同名专栏

再次感谢您的阅读。希望我有把事情说清楚,有任何疑惑或者问题,欢迎留言。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏鸿的学习笔记

写给开发者的机器学习指南(一)

大多数开发人员已经听说过机器学习,但是当试图找到一种“容易”的方法进入这种技术时,大多数人发现自己被机器学习和术语的抽象概念吓退了,例如回归,无监督学习,概率密...

1063
来自专栏大数据

协同过滤的R语言实现及改进

协同过滤算法(CF)是构建推荐系统时最常用的技术之一。它可以基于收集到的其他用户的偏好信息(协同)来自动地预测当前用户的兴趣点。协同过滤算法主要分为两种:基于记...

4116
来自专栏数据派THU

手把手教你从零到一搭建深度学习项目

在学习了有关深度学习的理论之后,很多人都会有兴趣尝试构建一个属于自己的项目。本文将会从第一步开始,告诉你如何解决项目开发中会遇到的各类问题。

1263
来自专栏腾讯大数据的专栏

腾讯深度学习平台亮相机器学习顶级会议ICML2014

引言:深度学习是近年机器学习领域的重大突破,有着广泛的应用前景。随着Google公开Google Brain计划,业界对深度学习的热情高涨。百度成立深度学习研究...

3009
来自专栏AI科技大本营的专栏

一文讲述如何将预测范式引入到机器学习模型中

本文构建了一个在视觉条件下以感官信息作为输入的预测模型。由于无法准确建立感官信息的运动方程,只能通过机器学习来完成。

47516
来自专栏智能算法

深度学习三人行(第6期)----深度学习之学习率的命运

今天我们一起看下学习率有着一个什么样的命运,我们多多交流,共同进步。本期主要内容如下:

1144
来自专栏数据派THU

手把手教你从零搭建深度学习项目(附链接)

本文共1万+字,建议阅读10+分钟。 本文将会从第一步开始,教你解决项目开发中会遇到的各类问题。

883
来自专栏ATYUN订阅号

谷歌:计算机视觉模型可在无监督情况下跟踪对象并对视频着色

视频的对象跟踪是计算机视觉的一个基本问题,对于诸如活动识别,对象交互或视频风格化等应用至关重要。然而,教会一台机器以直观地跟踪物体充满挑战性,部分原因在于它需要...

962
来自专栏新智元

谷歌大脑 Bengio:全新 Active Memory 模型提升机器翻译水平(附 NIPS 论文下载)

【新智元导读】Samy Bengio,刚刚创业的 Youshua Bengio的弟弟,昨天在 Arxiv 上发布了他与同事、Google Brain 研究人员 ...

38010
来自专栏ATYUN订阅号

机器学习初学者常犯的六大错误总结

在机器学习中,有很多方法来构建产品或解决方案,而且每种方法都有不同的假设。很多时候,如何识别哪些假设是合理的并不是件容易的事情。在最初的操作中,机器学习新手总会...

3067

扫码关注云+社区

领取腾讯云代金券