26. 训练集误差分析

你的算法必须在训练集上表现得很好,才能期望它在开发集和测试集上能够有着良好的表现。除了先前提到的用于处理高偏差的技术外,我通常也会在训练数据上进行误差分析,处理方式类似于在开发集上设置一个 Eyeball 开发集。当你的算法有着高偏差时(例如算法没有很好拟合训练集的时候)这将有所帮助。 举个例子,假设你正在为一个应用程序构建一个语音识别系统,并收集了一组志愿者的音频片段。如果系统在训练集上表现不佳,你可能会考虑以约 100 个算法处理得很差的样本作为一组并人为去听它们,从而知道训练集误差的主要种类。类似于开发集上的误差分析,你可以计算不同类别的错误样本数量:

在本例中,你可能会发现算法在面对具有大量背景噪音的训练样本时遇到了特别困难的情况。因此你可能会关注一些技术,使其能够更好地适应背景噪音的训练样本。 你也可以仔细检查正常人是否能转录这些音频片段,这些音频应该与你的学习算法的输入音频相同。如果背景噪音过于嘈杂,导致任何人都不能理解音频里说了什么,那么期望算法正确地识别这样的话语就不太合理。我们将在后面的章节中讨论将算法的性能与人类水平进行比较的好处。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏决胜机器学习

机器学习(二十二) ——推荐系统基础理论

机器学习(二十二)——推荐系统基础理论 (原创内容,转载请注明来源,谢谢) 一、概述 推荐系统(recommendersystem),作为机器学习的应用之一,...

3493
来自专栏钱塘大数据

【干货】从基础概念到数学公式,学霸的机器学习笔记

导读:近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 520 页的学习教程(英文版),详细、明了地介绍了机器学习中的...

1522
来自专栏AI研习社

教程 | Hinton 机器学习视频中文版:ANN的MNIST学习范例(1.4)

本套课程中,Hinton 重点介绍了人工神经网络在语音识别和物体识别、图像分割、建模语言和人类运动等过程中的应用,及其在机器学习中发挥的作用。与吴恩达的《Mac...

3608
来自专栏AI科技评论

人工智能如何实现可靠的视觉追踪 |IJCAI2016论文详解

导读:2016国际人工智能联合会议(IJCAI2016)于7月9日至7月15日举行,今年会议聚焦于人类意识的人工智能,本文是IJCAI2016接收论文。除了论文...

3337
来自专栏小詹同学

人脸识别(一)——从零说起

这是关于人脸的第①篇原创!(源码在第三篇) 人脸识别的英文名称是 Face Recognition,前段时间查找资料学的时候发现,不少人将人脸识别和人脸检测(...

58810
来自专栏PPV课数据科学社区

【学习】Netflix工程总监眼中的分类算法:深度学习优先级最低

【编者按】针对Quora上的一个老问题:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain近日给出新的解答,他根据奥卡姆剃刀原...

3046
来自专栏企鹅号快讯

误区解读:ML和DL之间的区别和使用情况

【IT168 资讯】深度学习是机器学习的一个子集,都是人工智能的子集。机器学习与深度学习不完全属于一个拳击淘汰赛中,深度学习是机器学习的一个子集,而它们都是人工...

2358
来自专栏ATYUN订阅号

伯克利人工智能研究:基于模型的强化学习与神经网络动力学

让机器人在现实世界中自主行动是很困难的。即使拥有昂贵的机器人和世界级的研究人员,机器人在复杂的、非结构化的环境中仍然难以自主导航和交互。 ? ? 图1:一个学习...

3685
来自专栏目标检测和深度学习

从基础概念到数学公式,这是一份520页的机器学习笔记(图文并茂)

1324
来自专栏应兆康的专栏

26. 训练集误差分析

1695

扫码关注云+社区

领取腾讯云代金券