专栏首页PPV课数据科学社区写给大家看的机器学习书(第二篇)

写给大家看的机器学习书(第二篇)

作者:徐晗曦 来源:https://zhuanlan.zhihu.com/p/25439997

《写给大家看的机器学习书》第一篇,我们了解了机器学习的基本概念,机器学习的三个要素——数据、学习算法和模型(如图1所示)。

图1:

在这个系列的第二篇,我将首先借有好货这个真实的应用场景,让大家看看数据长什么样,了解现实中的机器学习输入数据是怎么来的。

接着,我们需要引出模型的的符号化表示和定义。数学符号的引入一方面有利于后续进入到具体的学习算法的讨论时有更高的效率,另一方面这也是每个学习者准确理解机器学习绕不过去的一环。

然后,在理解了输入数据,熟悉了模型的符号化表示后,我们将对图1所示的相对粗略的机器学习流程做进一步的细化,细化后如图3所示。如果说学完这一篇你只能带走一点知识的话,那就带走图3吧。一图胜千言,以后别人再问你机器学习是什么,大胆说出让机器学习专家也吃惊的精准理解吧:)

在这篇文章中,我们将接触到不少机器学习最常用到的名词、术语。不要小看名字的力量,一个东西一旦你知道了它的名字,就更容易注意到它的存在,并且掌握它。

1. 数据(Data)

1.1 数据长什么样

图2:

我们仍然以有好货产品的“瀑布流”页面(图2中间)为例,来看看机器学习的输入数据长什么样。

有好货瀑布流页是一个完全个性化的页面,不同的用户进入到有好货瀑布流页,看到的商品推荐是不同的。 我们希望在有限的屏幕空间内给每个用户展示他最有可能点击的商品,因此机器学习的目标是要让学得的模型能够预判用户是否会点击某个商品。 要学得这样的模型,输入数据简单来说大约长这样(表1所示):

表1

像这样的学习算法的输入数据,叫“训练数据”(Training Data)。 训练数据的每一行称为一个“训练样本”(Training Sample),通常大家就简称“样本”(Sample)。

我们注意到,每个样本有三个属性——年龄、性别、商品价格,代表了我们认为用户是否会点击某个商品主要由年龄、性别、商品价格三个因素共同决定(当然这里我们做了简化,实际上影响的因素远不止三个)。 这里的年龄、性别、商品价格我们称之为“特征”(Feature)。

在这个场景中,我们希望学得的模型可以用来预判用户是否会点击某个商品,因此光有年龄、性别、商品价格这样的特征信息还不够,还需要知道每个训练样本用户是否会点击。“是否点击”这个信息,称为样本的标注(Lable)。

1.2 训练数据怎么来的

了解了训练数据的长相,一定有人会问:训练数据是怎么来的呢?

其实也很简单,这个大数据时代,绝大多数互联网产品都会把用户的行为数据——包括浏览历史、点击历史记录下来,我们称为日志(Log)。

从日志数据中就能知道每个用户点过什么商品(对应标注为1的样本),看了什么商品却没有点(对应标注为-1的样本),再关联上用户的特征数据(年龄、性别)和商品的特征数据(价格),就得到学习算法所需要的训练数据了。

1.3 机器学习问题的分类

需要指出的是,并不是所有的机器学习问题都需要标注。事实上,根据训练数据是否有标注,机器学习问题大致划分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)两大类。

  • 监督学习:每个输入样本都有标注,这些标注就像老师的标准答案一样”监督“着学习的过程。而监督学习又大致分成两类:分类(Classification)和回归(Regression):
    • 分类问题:标注是离散值,比如用户”点击“和”不点击“。如果标注只有两个值,则称为二分类,如果标注有多个值,则称为多分类。
    • 回归问题:标注是连续值,比如如果问题是预测北京市房屋的价格,价格作为标注就是一个连续值,属于回归问题。
  • 无监督学习:训练样本没有标注,无监督学习解决的典型问题是聚类(clustering)问题。比如对一个网站的用户进行聚类,看看这个网站用户的大致构成,分析下每类用户群的特点是什么。

此外,机器学习还有其他的类别,比如半监督学习、增强学习,我们将慢慢涉及。

2. 模型 (Model)

还记得在第一篇我们说"机器学到的模型是一个映射",这是一个很好理解又非常准确的表述。

可是在后续的学习中,尤其是进入到具体的学习算法的讨论时,文字表达的效率不如符号表示来的高,所以现在我们就要引出模型的符号化表示和定义。这不仅能大大的提升后续讨论学习算法时的效率,也是准确理解机器学习绕不过去的一环。

其实也很简单,映射包括输入和输出,在这里输入就是用户的年龄、性别、商品价格,输出就是用户是否会点击,好,我们开始吧。

2.1 映射的输入

2.2 映射的输出

2.3 映射的表示

3. 机器学习概念图的细化

3.1 数据(Data)部分的细化

3.2 学习算法和模型部分的细化

综上

综上,我们把机器学习流程重新细化成下图所示:

图3:

预告和其它

下一篇将介绍一个具体的学习算法和模型,它足够基础也足够典型,甚至是人工神经网络大门入门的第一步。

另外,有同学在评论中问怎样可以收到后续文章的更新,经测试,如果你希望在Timeline中收到更新,可以考虑关注我。如果你希望在通知中心中收到通知以确保不miss更新,可以考虑关注这个同名专栏

再次感谢您的阅读。希望我有把事情说清楚,有任何疑惑或者问题,欢迎留言。

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-03-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【应用】机器学习商业应用入门及七个实例

    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...

    小莹莹
  • 【机器学习】机器学习系列:(一)机器学习基础

    本章我们简要介绍下机器学习(Machine Learning)的基本概念。主要介绍机器学习算法的应用,监督学习和无监督学习(supervise...

    小莹莹
  • 一名合格的机器学习工程师需要具备的5项基本技能,你都get了吗?

    你是否对机器学习充满兴趣呢?其实到目前为止,每天有越来越多的工程师开始将好奇的目光转向机器学习领域。实际上,你会发现现在没有哪一个领域比机器学习能引起更多的曝...

    小莹莹
  • 【观点】利用机器学习实现工程洞察自动化

    ? 机器学习已经在某些领域取得了卓越的成果,尤其是模式识别领域,并且它还会对更需要洞察力和效率的行业中的企业产生了更深远的影响。谷歌在美国总部以外最大的开发者...

    AiTechYun
  • 独家 | 周志华:深度学习很有用,但过度追捧就有危险了

    采访 | 孟岩 导读 周志华教授是蜚声国内外的机器学习专家,也是本届中国人工智能大会的主席之一。他的《机器学习》2016年1月出版之后,迅速成为这个领域的一本权...

    AI科技大本营
  • 周志华:深度学习很有用,但过度追捧就有危险了

    周志华教授是蜚声国内外的机器学习专家,也是本届中国人工智能大会的主席之一。他的《机器学习》2016年1月出版之后,迅速成为这个领域的一本权威教材,在一年半的时间...

    AI科技大本营
  • 深度学习瓶颈到来时,Yoshua Bengio有什么新打算?(附NeurIPS演讲)

    我们都知道,深度学习的三驾马车获得了 2018 年的图灵奖,这是对深度学习的技术成功以及三人贡献的最佳肯定。最近几年里,Geoffrey Hinton 带来了知...

    AI科技评论
  • 机器学习成才之路:这是一条GitHub高赞的学习路径

    曾有多少次,当你试图接近某一个新主题或领域时,会感到困惑、迷失方向并且无「路」可循。要如何确保你能够深刻理解并且获得运用它的能力呢?当然是借鉴其他人的成熟路径,...

    机器之心
  • 【机器学习博士竞争力对比】美国ML高薪岗位排名及职业发展分析

    【新智元导读】要不要读机器学习博士?根据美国教育职业咨询网站 80000Hours 的分析,答案是肯定的。如果你适合这份职业,攻读机器学习博士可能是你对社会产生...

    新智元
  • [机智的机器在学习]机器学习方法的分类

    今天主要介绍一下机器学习里面的几个基本概念,我刚开始学的时候,比较纠结的几个概念,主要有监督学习,无监督学习,半监督学习, 深度学习, 还有强化学习,强化学习是...

    用户1622570

扫码关注云+社区

领取腾讯云代金券