【Quora精彩问答】机器学习的十条金科玉律

新智元

发布于 2018-03-22 14:13:02

6720

发布于 2018-03-22 14:13:02

文章被收录于专栏：新智元

【新智元导读】曾在 Endeca, Google, LinkedIn 负责机器学习项目的 Daniel Tunkelang 在 Quora 上发表了给非专业人士看的关于机器学习的相关知识。他送给非专业人士十条关于机器学习的金科玉律。

1、机器学习是指从数据中学习。AI 是时下流行语。机器学习确实如它所被炒作的那样神奇：利用对路的训练数据及算法可以解决相当多的问题。要是能让你的东西更好卖，你可以将其冠以 AI 之名，但是要记得这是个流行语，会被赋予大众想要的含义。

2、机器学习是关于数据及算法的学科，主要是关于数据。机器学习算法，特别是深度学习领域，取得了非常多的突破。但是数据才是使得机器学习成为可能的关键。机器学习可以没有很炫酷的算法，但是不能没有优质的数据。

3、除非你不缺数据，否则不要使用很复杂的模型。机器学习根据数据模式训练模型，探索由参数定义的可能模型的空间。如果你的参数空间太大，训练数据就会出现过度拟合，而模型则无法进行一般化推广。详尽的解释需要更多数学演算，但是始终应该保持模型尽可能简单。

4、机器学习的效果与你用来训练数据的质量是保持一致的。“无用输入，无用输出”这个说法在机器学习出现之前就有，但是它恰如其分地概括了机器学习的局限。机器学习只能发现所给的训练数据中的模式。一个受监督的机器学习任务，如分类，需要正确标注的，特征丰富的训练数据。

5、只有训练数据是具有代表性的，机器学习才能产生效果。如同基金认购协议里警告客户：“过去的业绩并非未来收益的保障。”机器学习应该作出类似警告，它只有在与其训练数据同样的数据分布下才能产生效果。你要对训练数据和生产数据之间的偏差保持警醒，同时保持对模型经常性的再训练以使之不过时。

6、机器学习中大部分最难的工作在于数据转换。当读到那些关于机器学习技术天花乱坠的介绍时，你可能会认为机器学习总的来说是关于选择及调整算法。实际情况则平淡无奇得多：你的大部分时间和精力都花在数据清理及特征工程上，也就是将原始特征转换为能够更好地代表你所持有数据的特征。

7、深度学习确实是革命性的进步，但它并不是包治百病的灵丹妙药。因其在机器学习各种应用领域取得的突破，深度学习被炒得很热。此外，深度学习使得许多传统上需要通过特征工程完成的工作实现了自动化，特别是在处理图像和视频数据时。但是深度学习并非无所不能。它并不是开箱即用，在数据清理及数据转换方面你仍需投入大量精力。

8、机器学习极易受到误操作的影响。“置人于死地的不是机器学习算法，是人。”机器学习系统崩溃的原因通常都不是机器学习算法本身的问题。多数情况下，原因是训练数据中的人为失误，偏差或其他系统错误。始终要保持自我怀疑的态度，你在软件工程中遵守的规范同样适用于机器学习。

9、机器学习会无意中创造出自我实现的预言。在机器学习的许多应用中，你今日做出的决定会影响日后采集的训练数据。如果你的机器学习系统在模型中嵌入了偏差，它会不断继续创造加强这种偏差的训练数据。有些偏差甚至会危及人命。要持谨慎负责的态度：不要创造自我实现的预言。

10、AI 不会具有自我意识，揭竿而起并一举毁灭人类。相当一部分人关于 AI 的观点都来自于科幻电影。我们可以从科幻小说中得到启发，但不应将其信以为真。真实并已经存在的风险已经有很多，例如有意图谋不轨的人类和无意携带偏差运行的机器学习模型，所以先不用为“天网“还有”超级智能“之类的东西担心得睡不着觉了。

关于机器学习所需了解的东西远不止以上这些。希望能帮助非专业人士入门。

原文地址：https://www.forbes.com/sites/quora/2017/09/06/ten-things-everyone-should-know-about-machine-learning/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-09-08，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

机器学习

登录后参与评论

0 条评论

热度

【Quora精彩问答】机器学习的十条金科玉律

【Quora精彩问答】机器学习的十条金科玉律

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐