AI和机器学习想取得进展，首先要规范研究报告

新智元

发布于 2018-03-22 11:19:26

8090

文章被收录于专栏：新智元新智元

【新智元导读】从小有“学术天才”之称的 Kamil Tamiola 将计算生物学和机器学习相结合，组建了自己的创业公司。他表示，当年最痛苦的事情就是“科学写作”，他曾经认为那是浪费时间。但今天，他大声疾呼，认为自己当年大错特错，并痛陈如今 AI/ML 论文写作中的一些普遍问题。

我的机器学习之旅从高中开始。我很幸运地翻开了几本关于人工神经网络的老教科书。那是2000 年，电视上正热播《老友记》，痞子阿姆的说唱传遍大街小巷。我则沉迷于对象识别系统不能自拔，那玩意儿当时还是边缘科学。我的第一篇论文写于18岁，题目是《将对象识别看作物理过程——人工神经网络的实践和理论应用》，这是我年少时成为科学家的初次尝试。它为我赢得了奖学金，把我带到了英国（剑桥）和荷兰（格罗宁根）最好的大学，并最终把我带进了蛋白质的计算生物物理学的学术生涯。最后，我很幸运地将科学专业知识和机器学习结合成一个AI 创业公司，Peptone。

但是，我的学术发展道路既不美好也不浪漫。作为一个“学术天才”，我最大的痛苦是科学写作，并为此产生了严重的挫败感。我那时绝对相信我在浪费时间，宁愿把时间花在实验室里。

但是，我大错特错了！

从时间和经验的角度来观察思想的变化轨迹很有意思。特别是，当你到达了你事业的转折点，并在你年少时就崇拜的领域开始有所贡献时。让我直说了吧——

就在前几天，我偶然发现了MIT Review 中的一篇文章，这促使我写下这篇短文。

AI 黔驴技穷了吗？我们正在进步，还是只是在无尽的池化、优化、架构、归一化方法和图像识别方法中打转转？

恐怕，我们没有在进步。

请记住，这是我的个人意见，但它来源于我花在阅读机器学习/AI 论文的无数个小时。我尝试采用这些论文中的发现，用于自动化蛋白质工程。

大量的AI / ML 论文缺乏适当的引文

大量的AI / ML 论文缺乏适当的引文。作者较少或根本不引用AI / ML 领域的开创性工作（例如引入感知器或反向传播概念的论文）。反过来，对于具有足够数学知识的AI 领域的新晋研究者来说，很难将其实际的科学发现放在更广泛的范围内。

缺失或不正确的引文导致对已知和现有科学概念的过度重新标注（excessive relabeling of known and existing scientific concepts），这使机器学习领域变得膨胀，但却不是在推动其发展，且增加了绝对不必要的烦恼。我刚刚看了和AI 有关的生物信息学领域的两篇论文（作为同行评议期刊的匿名评审），其中作者宣称其方法可追溯到2004 年，至少有600 多次引用！你怎么会错过？此外，我已经看到“AI 专著”的作者将完全已知和良好概括的梯度优化方法问题与牛顿N 体问题进行比较，或者设计简单依赖于逆平方律（具有其所有限制）的损失函数，声称它建模自电磁库仑定律。女士们先生们，库伦都要从坟墓里坐起来了。如果你要用库仑定律，请谈静电！把电磁留给法拉第和麦克斯韦尔。

对结果缺乏适当的统计分析

对结果缺乏适当的统计分析。我个人认为这是他们最大的问题。结果呈现方式不符合任何可呈现科学研究的标准。最突出的问题是以任意单位报告准确性，而都不简单讨论一下改进的统计相关性。您的网络将对象识别准确率提高了1％，其相关性如何？它对于您模型使用的参数到底意味着什么？您的模型有多少自由度，与较不复杂的模型相比如何？您如何确保不过拟合或只是创建了退化模型，而这些几乎没有统计学意义。

由于拟合统计分析和评估自由度数量的基本统计测试的稀缺或根本不存在，许多 AI / ML 论文正在面临“无法重现”的问题，这很要命，用户很快就发现使用那些存储在Github 上的“官方”ML模型，“纯粹的凡人”无法使用相同的数据和 ML 网络架构来重现“专家”的伟大发现。

这件事为什么很重要？因为我们所有人都需要将创新与周期性的工作模式分开。二者的混淆不分不仅减慢了机器学习领域的进步，更重要的是引发了公众、新闻界和科技投资者的极度焦虑，并最终导致了这样的头条新闻：

请不要误会我的意思。我完全不打算与马斯克或霍金教授争吵，我对他们深表敬意。然而，事实是，AI和机器学习正被描述成一个想要消灭人类的怪物。

我们可以做些什么，来改善正在进行的AI / ML研究？

我的一位老师，格罗宁根大学的Ben Ferninga 教授（他最终因发现organic nano-machines 在2016年获得诺贝尔奖）告诉我和我的同学：你必须“在你的研究中保持谨慎的乐观”。机器学习和AI 领域的谨慎乐观，以及严格的科学报告将使评估更容易，使实施和规范AI 驱动的自动化更容易。最终社会和新闻界会看到，AI / ML 不会完全取代工作，而是增加工作机会，提高生产力，并延长午休时间。另外，关于机器学习方法的更严格和科学客观的报告应该最终为更有效的立法途径铺平道路。

原文地址：https://hackernoon.com/should-machine-learning-and-ai-advance-proper-scientific-reporting-is-a-must-cc122af5ee74

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-10-05，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能