知乎KOL阿萨姆:机器学习实践经验分享

  • 5 课时
  • 1K 学过
  • 8 分
机器学习人工智能

课程概述

机器学习是人工智能的一个分支,主要是设计和分析一些让计算机可以自动“学习”的算法,这些算法可以从数据中自动分析获得规律,并利用规律对未知数据进行预测。当前,机器学习已广泛应用于计算机视觉、自然语言处理、生物特征识别、战略游戏和机器人等领域。

本课程围绕机器学习的实践展开,首先分享了一些使用机器学习的经验和建议,包含确定最小预测单元、确定最优框架、依赖性分析、从回归到分类、舍弃和切分数据等;然后详细讲解了如何选择并处理数据、如何选择和评估模型、如何进行模型调试和提升,并对每个主题给出了相应的流程或建议;最后对一些常见的问题做了解释,比如如何快速掌握机器学习基础知识、TensorFlow对普通机器学习使用者的意义、神经网络是否可以代替据册数模型等。

【课程目标】

了解机器学习及其学习路径

掌握如何更好的完成数据处理、模型选择、模型评估等环节

【适用对象】

商务、AI开发者、学生

【课程大纲】

知识模块

简介

使用机器学习的经验和建议

确定最小预测单元、确定最优框架、依赖性分析、从回归到分类、舍弃和切分数据

经典流程的选择和建议

如何选择并处理数据、如何选择和评估模型、如何进行模型调试和提升

解释常见问题

如何选择并处理数据、如何选择和评估模型、如何进行模型调试和提升

适用人群

  • 1.对机器学习感兴趣的零基础学习者 2.初入行/跨行的机器学习相关从业者

机构简介

AI慕课

AI 慕课学院是和雷锋网联合创办的人工智能教育平台。旨在通过利用雷锋网自身在学术界、工业界、开发者圈等积累的资源与品牌优势,联合三界合作,为企业、学术圈和开发者提供直接对话学习的机会,带学生系统学习人工智能,培养优秀AI人才。

讲师简介

  • 阿萨姆
    知乎机器学习优秀回答者。普华永道高级数据科学家,负责统计学习模型开发。有丰富的工业及学术经验,擅长将理论知识应用于实践中。曾以第一作者发表过多篇不同领域的学术文章,如人机互动、智能系统等。研究兴趣包括异常检测、集成学习、跨领域机器学习。以笔名“阿萨姆”在知乎上创作了多篇机器学习相关的文章,曾数次被知乎及知乎日报收录。乐于技术分享,近期正在进行机器学习实践书籍创作。

讲义

实际问题抽象化(1)-“ 哲学问题”

  • 不要为了使用模型而创造问题:机器学习的目标是解决问题
  • 确定“最小预测单元”:通过输出推测输入
  • 切忌盲目追求通过一个模型预测多个目标,尽量拆分问题
  • 从简单模型像复杂模型迭代,站在前人经验的基础.上探索:抛开问题空谈模型没有意义,没有免费的午餐(No Free Lunch)线性模型->非线性->复杂模型(如集成学习) ->神经网络(如深学习)
  • 从简单到复杂模型的“进化”,和从半自动模型到自动模型的“升级”都可以理解为迭代过程。升级进化是锦上添花,不是雪中送炭
  • 如果有可用的人为规则,可以结合机器学习模型一起使用

实际问题抽象化(2) -确定最优框架

  • 从成本、数据、解释度考虑,选择合适的问题解决框架:使用监督学习、半监督学习、无监督学习还是强化学习?如果可以用监督学习解决,优先使用监督学习
  • 监督学习的可解释度往往更高监督学习的效果一般更好
  • 标签的成本往往很高。标签代表了“先验知识”并给定了模型能力的“下界”

实际问题抽象化(3) -确定最优框架

如果缺乏标签或标签获取成本很高,可以考虑半(无)监督学习

监督学习vs.无监督:精确度Vs.未知性

  • 无监督学习可以用于发掘新的思路,如花样翻新的保险欺诈
  • 但无监督学习也往往缺乏有效的评估方法,往往需要人为验证
  • 为了平衡“准确”与“探索”,也可以同时使用并融合结果

半监督学习:成本与效果的一种妥协

用有限的标签训练模型监督模型,并用于无标签数据再人为修正

强化学习/结构性预测: The future ;

实际问题抽象化(4) -依赖性分析

考虑时间与空间上的依赖性(dependency):

如果不考虑时空依赖性,问题会得到简化,但可能有严重偏差

如果需要考虑时间与空间。上的依赖性,优先从简单的角度入手

实际问题抽象化(5) -从回归到分类

分类问题(classification)指的是预测值是有限个离散值的情况,最常见的是二分类(binary classification),也就是{0,1}或者{-1,1}。

回归问题(regression)指的是预测值为连续值的情况,这样的取值往往有无数个,常见的有预测价格,可以是19.9, 19.99,或者19.998等。

回归问题总可以被转化为分类问题,分类问题-般比回归问题更简单,因此会有更好的效果,但同时也会损失信息。

实际问题抽象化(6) -从回归到分类

一般来说,以下情况适合进行回归到分类的转化:

  • 对预测结果的精度要求比较低。举例,如果只需要知道股票会涨还是跌,那么不需要知道“涨多少”或“跌多少”,由此转化为二分类问题
  • 数据限制较大(如数据量比较小),做回归的结果很差,无奈之举

实际问题抽象化(7) -舍弃和切分数据

数据质量往往不是连贯的。如果一定要使用整个数据段,那么预测效果往往较差。如果需要,可以选择“抛弃”数据质量较差的部分。

部分价值>>毫无价值

将预测范围缩少后,预测效果往往能有大幅度的提高

将数据分割后单独处理,预测效果往往也有提升

实际问题抽象化-总结

开始一个机器学习项目以前,值得几个“小问题”:

  • 确定要预测的目标,找到项目痛点,不追求同时预测多个目标
  • 确定解决问题的框架,优先使用监督学习,用无监督发掘新思路
  • 结合已有的规则,尝试融合机器学习模型和人为规则
  • 如果可能,优先尝试分类任务,也可以尝试将回归转为分类
  • 从易到难,确定尝试哪些机器学习模型
  • 要解决的问题是否对于“时空”存在依赖性,如果可以回避依赖性,可以先试试简单模型
  • 如果发现使用全部数据效果不好,可以尝试抛弃部分数据或分段处理

课程评价(6)

感谢你参加本课程,请你作出评价:
0/300

以下选自学员评价

用户3***754
2018-09-14
非常感谢,老师真的是讲的太好了,课件可以分享吗?
波***3
2018-05-17
老师讲的很清晰,收获很多,对于初学者来说是很好的一门课
幽***7
2018-05-16
知识点讲的非常清晰,特别适合入门
酒醉***鸵鸟
2018-05-15
应该出实战课程 !
黑***白
2018-05-15
以前自己看过相关资料,但是没有理解的很透彻,经过这几节课程,我对机器学习有了更清晰的了解,感谢。
蹦蹦***鱼人
2018-05-12
老师讲的挺好的,但是老师有一些理论方面的知识和文章中的有点出入,不影响学习。总之,很好的一门课,值得学习。