资源 | 吴恩达《ML Yearning》52章译文,一份很有诚意的GitHub项目

机器之心整理

作者:xiaqunfeng

近日,有开发者在 GitHub 上给出了吴恩达《Machine Learning Yearning》的非官方译文。作者 xiaqunfeng 表示这个项目是在边学边翻的过程中构建的,且目前已经完成了前面 52 章的翻译。这个项目主要在于提供学习交流,中间的表述或翻译也会有一些误差,读者可详细查阅译文并提供修正意见。

在该 GitHub 项目中,读者可直接下载各章节译文的 MarkDown 文档,也可以下载 PDF 版的英文原版。此外为了有更好的阅读体验,作者为这个项目构建了 GitBook,读者可直接在线阅读。

  • 原书官网:http://www.mlyearning.org/
  • 项目地址:https://github.com/xiaqunfeng/machine-learning-yearning
  • 书籍地址:https://xiaqunfeng.gitbooks.io/machine-learning-yearning/content/

这本书的目的是教你如何做组织一个机器学习项目所需的大量的决定。

你将学习:

  • 如何建立你的开发和测试集
  • 基本错误分析
  • 如何使用偏差和方差来决定该做什么
  • 学习曲线
  • 将学习算法与人类水平的表现进行比较
  • 调试推理算法
  • 什么时候应该和不应该使用端到端的深度学习
  • 按步进行错误分析

已翻译章节

第一章:为什么是机器学习策略

第二章:如何使用这本书来帮助你的团队

第三章:预备知识和注释

第四章:规模驱使机器学习前进

配置开发与测试集

第五章:您的开发和测试集

第六章:你的开发集和测试集应该来自相同的分布

第七章:开发集/测试集需要多大?

第八章:为你的团队进行算法优化建立一个单一数字的评估指标

第九章:优化指标和满足指标

第十章:有一个开发集和评估指标来加速迭代

第十一章:何时更改开发/测试集和评估指标

第十二章:小结:建立开发集和测试集

基本误差分析

第十三章:快速构建第一个系统,然后迭代

第十四章:错误分析:查看开发集样本来评估 idea

第十五章:在错误分析过程中并行评估多个想法

第十六章:清理贴错标签的开发和测试集样本

第十七章:如果你有一个大的开发集,将其分成两个子集,只着眼于其中的一个

第十八章:Eyeball 和 Blackbox 开发集应该多大?

第十九章:小贴士:基本错误分析

偏差和方差

第二十章:偏差和方差:错误的两大来源

第二十一章:偏差和方差的例子

第二十二章:比较最优错误率

第二十三章:处理偏差和方差

第二十四章:偏差和方差间的权衡

第二十五章:减少可避免偏差的方法

第二十六章:训练集上的错误分析

第二十七章:减少方差的方法

学习曲线

第二十八章:诊断偏差和方差:学习曲线

第二十九章:绘制训练错误曲线

第三十章:解读学习曲线:高偏差

第三十一章:解释学习曲线:其他情况

第三十二章:绘制学习曲线

对比人类水平性能

第三十三章:为什么我们要比较人类水平的表现

第三十四章:如何定义人类的表现

第三十五章:超越人类表现

在不同分布上训练和测试

第三十六章:何时应该在不同的分布下训练和测试

第三十七章:如何决定是否使用所有数据

第三十八章:如何决定是否包含不一致的数据

第三十九章:加权数据

第四十章:从训练集到开发集的泛化

第四十一章:识别偏差、方差和数据不匹配错误

第四十二章:处理数据不匹配

第四十三章:人工数据合成

调试推理算法

第四十四章:优化验证测试

第四十五章:优化验证测试的一般形式

第四十六章:强化学习案例

端到端深度学习

第四十七章:端到端学习的兴起

第四十八章:更多端到端学习示例

第四十九章:端到端学习的优点和缺点

第五十章:选择流水线组件:数据可用性

第五十一章:选择流水线组件:任务简单

第五十二章:直接学习丰富的输出

更新记录:

  • update 2018.04.25:NG 终于出 15~19 章的手稿啦,等的好辛苦(DONE)

Tips:在原先的 12 章和 13 章之间新增一个章节 13 Build your first system quickly, then iterate,原先的 chapter13 变为 14,chapter14 变为 15

  • update 2018.05.02:手稿 20~22 章已出(DONE)
  • update 2018.05.09:手稿 23~27 章已出(DONE)
  • update 2018.05.16:手稿 28~30 章已出(DONE)
  • update 2018.05.23:手稿 31~32 章已出(DONE)
  • update 2018.05.30:手稿 33~35 章已出(DONE)
  • update 2018.06.06:手稿 36~39 章已出(DONE)
  • update 2018.06.13:手稿 40~43 章已出(DONE)
  • update 2018.06.20:手稿 44~46 章已出(DONE)
  • update 2018.06.27:手稿 47~49 章已出(DONE)
  • update 2018.07.04:手稿 50~52 章已出(DONE)

业余时间翻译,水平有限,如有不妥或错误之处,欢迎不吝赐教。

本文为机器之心整理,转载请联系原作者获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

资源 | 从医疗语音到灾难响应,这八大优质数据集快抱走

1853
来自专栏人工智能头条

AMiner背后的技术细节与挑战

1436
来自专栏PPV课数据科学社区

基础篇:从 0 到 1 掌握 Python 机器学习(附资源)

Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?本教程或许能帮你成功上手,从 0...

5108
来自专栏ATYUN订阅号

IBM提出深度学习模型水印方法,可防止侵权

如果机器学习模型可以在照片,电影,音乐和手稿添加水印以表明所有权,防止知识产权窃取,并防止攻击者损害其完整性,该会如何呢?IBM正在申请新的专利,他们可以做到这...

2212
来自专栏数据科学与人工智能

【机器学习】机器学习工作职位需要的7项技能

机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法...

2479
来自专栏自学笔记

Recommended System

推荐系统的核心问题就在于为用户推荐与其兴趣相似度比较高的商品。比如在微博上,用户至上想打发时间,并不是想准确的查看某条信息,在首页中查看每一条微博,为了帮助他筛...

1282
来自专栏marsggbo

[转载] 机器学习数据集统计系列一

作者:宋天龙 链接:https://www.zhihu.com/question/63383992/answer/222718972 来源:知乎

1602
来自专栏PaddlePaddle

GITCHAT系列2:个性化推荐

大家好,我是来自PaddlePaddle开源社区的李钊(@livc),目前是一名大三学生。我曾经在手机百度实习,参与推荐算法和反作弊的研发工作,目前是IDL的一...

4198
来自专栏机器之心

业界 | 对比了六家计算机视觉API,发现最好的竟然是...

选自free Code Camp 作者:Mariya Yao 机器之心编译 参与:蒋思源、刘晓坤 本文通过吉娃娃与松饼的图像对比了流行的六大计算机视觉API,...

3726
来自专栏机器人网

21个你必懂的数据科学面试问答

KDnuggets编辑为20个辨别真伪数据科学家的问题准备了答案,包括什么是正规化、我们喜爱的数据科学家、模型验证等等。

1061

扫码关注云+社区

领取腾讯云代金券