每个人都应该知道的十个机器学习常识

当别人在高谈阔论机器学习时,你却插不上嘴,这是一种怎样的体验?不懂机器学习没有关系,但你一定要知道下面的十个机器学习基本常识。曾经在Endeca、谷歌和LinkedIn领导机器学习开发的Daniel Tunkelang为我们概括总结了这十个常识。

1. 机器学习就是从数据中挖掘洞见,而人工智能是炒作。

只要使用了正确的训练数据和算法,机器学习可以解决大部分问题。而所谓的人工智能,只不过是一种包装。只要有助于营销,你要把它叫作什么都可以。

2. 数据和算法是机器学习的核心,而数据更为重要。

虽然人们热衷于研究机器学习算法,但数据才是机器学习的关键要素。机器学习可以没有复杂完备的算法,但没有高质量的数据就不行。

3. 如果你没有大量数据,就不要使用太复杂的模型。

机器学习根据输入参数来探索模型空间,参数越多,越有可能出现过拟合,所以应该要尽量遵循简单模型的原则。

4. 机器学习的成果取决于数据的质量。

种瓜得瓜,种豆得豆。机器学习只能发现已经存在于数据中的模式。比如在解决分类问题时,就要求训练数据具有清晰的特征。

5. 只有当训练数据具有代表性时,机器学习才能奏效。

过去不能代表未来。要时刻警惕训练数据和生产数据之间出现倾斜,经常性地训练数据,避免数据模型过时。

6. 机器学习最困难的部分其实是数据转换。

机器学习的大肆炒作可能会给你造成一种印象,就是机器学习主要是如何选择和调整算法。但实际上,机器学习工作的大部分时间花在了数据清理和特征工程上,也就是将数据的原始特征转换成更具表示性的特征。

7. 深度学习是革命性的,但不是银弹。

深度学习对部分传统的特征工程进行了自动化,特别是在图像和视频处理领域。但深度学习不是银弹,我们无法在它擅长的领域之外应用它,况且,我们仍然要花很多精力进行数据清理和转换。

8. 机器学习系统也是高度脆弱的。

机器学习算法不会干掉人类,干掉人类的是人类自己。机器学习系统如果出现故障,通常都不是因为机器学习算法本身,而是人类在训练数据中引入了错误。要时刻警惕,软件工程中出现的错误在机器学习系统中同样会出现。

9. 机器学习可能在无意之中创造出可自我实现的预言。

今天通过机器学习做出的决策,将会影响未来收集到的训练数据。如果你在机器学习系统中嵌入了某种偏见,它会持续不断地生成新的训练数据,这些数据反过来增强了这种偏见,而有些偏见会毁掉人类的生活。所以,不要让机器学习系统有机会创造出可自我实现的预言。

10. 人工智能不会自我感知,也不会崛起到要干掉人类。

很多吃瓜群众从科幻电影中看到人工智能。但要注意,我们可以从科幻电影中获得灵感,但它们毕竟不是现实,我们真正要担心的是人类无意识地在机器学习系统中嵌入偏见。所以,我们根本不需要去担心什么“天网”或“超智能”。

本文来自企鹅号 - CoffeeTalk媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

如何准备机器学习工程师的面试?

我之前面试一些公司的机器学习或者数据挖掘工程师的职位。感觉自己准备的不够充分。想了解下一般会问哪些问题,考察哪些方面的东西?? 周开拓 ~~~~~~~~~~~~...

2797
来自专栏数据的力量

深入浅出谈数据挖掘

1718
来自专栏AI科技评论

学界 | 心理学带来曙光,DeepMind要像理解人一样理解模型

AI 科技评论按:人类对各种深度学习模型最常见的不满之一就是难以解释、无法理解,即便可以查看训练好的网络的每个连接的权重,也说不清网络利用的数据模式是哪些,以及...

3478
来自专栏数据科学与人工智能

【机器学习】理解深度学习 vs 机器学习 vs 模式识别

本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工智能)的联系。 ? 图1 人...

2038
来自专栏大数据文摘

职场 | 如何让你的数据直觉更敏锐

对于有大局意识的人来说,这无疑是一个很好的创业机会和职业选择。要想抓住职业机会,你需要超强的“码力”和深入的专业知识。

780
来自专栏奇点大数据

统计、概率和数据挖掘

统计、概率、数据挖掘,这几个词经常伴随出现,尤其是统计和概率两个概念,几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍。 我们这本...

2454
来自专栏专知

35页自然语言处理深度学习综述,带你纵览NLP知识全貌

【导读】随着深度学习技术的蓬勃发展,自然语言处理领域也是日新月异,本文为大家带来了最新的基于深度学习的自然语言处理综述,希望能够帮助大家了解NLP领域中的最新进...

4402
来自专栏人工智能快报

Hinton取得新进展,以更少数据识别图像

谷歌人工智能先驱Geoffrey Hinton公布了AI技术进展,可提高电脑正确识别图像的速度和较少的数据依赖。 Google公司公布了关于其人工智能先驱Geo...

3136
来自专栏CVer

381页机器学习数学基础PDF下载

【导读】近期,由Marc Peter Deisenroth,A Aldo Faisal和Cheng Soon Ong撰写的《机器学习数学基础》“Mathemat...

1683
来自专栏PPV课数据科学社区

☞【PPT】数据挖掘方法及案例介绍

1、数据挖掘的引入 面对山一样高的,海一样广的数据,我们该怎么办? ? 数据挖掘中的5W问题 ❶为什么要使用数据挖掘? ❷数据挖掘是什么? ❸谁在使用数据挖掘?...

41012

扫码关注云+社区