美国科学促进会：机器学习“引发科学危机”

文章来源：企鹅号 - 网络一家

天文学是许多科学领域中的一个，在这些领域中机器学习被用来进行发现。

成千上万的科学家用来分析数据的机器学习技术正在产生误导性的结果，而且往往是完全错误的。休斯顿莱斯大学的GeneveraAllen博士说，这种系统的使用增加导致了一场“科学危机”。

她警告科学家，如果他们不改进他们的技术，他们将浪费时间和金钱。她的研究报告在华盛顿的美国科学促进会上发表。

越来越多的科学研究涉及使用机器学习软件来分析已经收集的数据。这发生在从生物医学研究到天文学的许多学科领域。这些数据集非常大而且昂贵。

“再现性危机”

但是，根据艾伦博士的说法，他们得出的答案可能是不准确或错误的，因为软件正在识别仅存在于该数据集中而不是真实世界中的模式。

她说：“通常情况下，这些研究是不准确的，除非有另一个真正的大数据集，有人应用这些技术，并说‘哦，天哪，这两个研究的结果不重叠’。”

“目前，人们普遍认识到科学中存在再现性危机。我冒昧地说，其中很大一部分来自于在科学中使用机器学习技术。”

科学中的“再现性危机”是指当另一组科学家尝试相同的实验时，大量的研究结果不会重复出现。这意味着最初的结果是错误的。一项分析表明，在全世界开展的所有生物医学研究中，85%是浪费精力。

这场危机已经持续了20年之久，之所以会发生，是因为实验设计得不够好，无法确保科学家们不会愚弄自己，也看不到他们想在结果中看到什么。

艾伦博士说，有缺陷的机器学习正在产生

有缺陷的图案

艾伦博士说，机器学习系统和大数据集的使用加速了这场危机。这是因为机器学习算法是专门为在数据集中发现有趣的东西而开发的，所以当它们搜索大量数据时，不可避免地会找到一个模式。

“挑战是我们真的能相信这些发现吗？她告诉BBC新闻。

“那些真正代表科学的发现是真的吗？它们是可复制的吗？如果我们有一个额外的数据集，我们会在同一个数据集上看到相同的科学发现或原理吗？不幸的是，答案往往不是。”

艾伦博士正与休斯顿贝勒医学院的一组生物医学研究人员合作，以提高他们研究结果的可靠性。她正在开发下一代机器学习和统计技术，这些技术不仅可以筛选大量数据进行发现，还可以报告其结果的不确定性以及可能的再现性。

“收集这些巨大的数据集非常昂贵。我告诉科学家们，我的工作是，发表论文可能需要更长的时间，但最终你的研究结果将经受住时间的考验。

“这将为科学家节省资金，而且不走所有这些错误的可能方向也有助于推进科学发展。”

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货