【机器学习调查】脏数据最棘手,逻辑回归最常用

【新智元导读】数据科学社区Kaggle的最新调查显示,机器学习和数据科学研究者在被问到工作中面临的最大障碍时,最常见的回答是“脏数据”,其次是缺乏该领域的人才。此外,他们最常用的方法是“逻辑回归”,而神经网络只排在第4位。

想象一下机器学习研究者的生活,你可能会觉得很令人向往。你会给自动驾驶汽车编程,在科技界的巨头公司工作,而你编写的软件甚至可能导致人类的灭亡。太酷了!但是,正如最近一项针对数据科学家和机器学习研究者的调查所显示的,这些期待需要调整,因为这些职业面临的最大的挑战是一些相当平常的事情:清洗脏数据。

这是来自数据科学社区Kaggle(今年早些时候被谷歌收购)的一项调查。该网站130万会员中,约有16700人回答了问卷调查,当被问及工作中面临的最大障碍时,最常见的回答是“脏数据”(dirty data),其次是缺乏该领域的人才。

“工作中遇到的最大障碍是什么?”,接近一半被调查者回答“Dirty data”

但是究竟什么是脏数据,为什么会出现这样的问题呢?

数据是数字经济的新石油,这是不言而喻的,但在机器学习之类的领域尤其如此。现代的人工智能系统一般都是通过示例来学习的,也就是说如果你展示给AI系统一大堆“猫”的图片,随着时间的推移,它会开始识别构成“猫”的特征。这就是为什么像谷歌和亚马逊这样的公司能够建立起如此有效的图像和语音识别平台的原因:它们拥有大量来自用户的数据。

但AI系统仍然只是计算机程序,这意味着如果你在错误的时间按下错误的按钮,它们很容易出现故障。这种不灵活性包括他们要学习的数据。这些程序就像那些挑食的婴儿,除非香蕉搅碎了,否则他们不吃。AI领域的研究员虽然不用处理香蕉,但是要梳理数以万计条目的数据集,追踪丢失的值,删除任何的格式错误。

“有一个笑话是,数据科学中80%的工作是数据清洗,另外20%是抱怨数据清洗。”Kaggle的创始人兼首席执行官 Anthony Goldbloom 在 The Verge 的邮件采访中说道。“在现实中,不同情况数据清洗的工作量有所不同。但是数据清洗在数据科学工作中的比例要高于外界的想象。实际上,训练模型通常只占机器学习研究者或数据科学家工作的一小部分(不到10%)。”

Kaggle 这个网站最著名的是竞赛,任何公司都可以在上面发布一个特定的数据相关的挑战赛,然后付钱给提出最佳解决方案的人。(钱虽然不多,但这是赢得雇主注意的一种很好的方式。)这意味着Kaggle本身也成为了一个有趣的数据集的库,用户可以用它们做研究。数据集的范围很广,从22000份高中论文,到肺癌的CT扫描,再到大量的鱼类图片(美国一家环保NGO发布的,希望能吸引到更好的识别鱼类的AI)。

Kaggle的调查也不仅与数据有关,还包括其他有趣的信息。例如,被调查者中受教育程度最普遍的是硕士学位(其次是学士学位,然后是博士学位)。Python是最常用的编程语言,也是他们向想要进入该领域的人推荐的语言的第一名。同样值得注意的是,尽管人们将注意力集中在像神经网络这样的新数据工具上,但大多数从业者更多依赖那些较老的、不那么吸引人的统计学方法。

例如,在“工作中使用什么数据科学方法”这个问题中,“逻辑回归”的回答最多(63.5%),而神经网络只排在第4位(37.6%)。作为一种数学工具,逻辑回归方法已经存在几个世纪了,它被用来发现任何给定数据集的某个点属于某个特定类别的概率。Goldbloom认为,它之所以受欢迎的原因之一是,它是大学课程的基础知识,并且在各种各样的领域都可使用。

他说:“每一个本科有统计学相关课程的学生都会学到线性回归和逻辑回归,包括机器学习,计量经济学,心理学,生物信息学,等等。”Goldbloom说,作为一种数学工具,它可能“不是非常强大”,但学术和行业的惯性意味着它不会很快消失。正如Kaggle的一位排名高的“grandmaster”在调查回答中说:“30万年后,地球上仍将存在石头、蟑螂和逻辑回归。”

与此同时,最受关注的是神经网络,因为这类方法特别适合于涉及图像、视频和音频数据的任务。(这些正是现在AI变得很酷的方向。)不过,对于文本和数字信息,较老的方法更合适。因此,如果你打算尽快入门机器学习或数据科学,准备好开始清洗数据吧!

原文地址:https://www.theverge.com/2017/11/1/16589246/machine-learning-data-science-dirty-data-kaggle-survey-2017

了解更多:https://www.kaggle.com/surveys/2017?utm=cade

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-11-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

观点 | UC伯克利教授迈克尔·乔丹采访:人类对机器学习期待过高,机器学习的发展还应当更广阔

AI 科技评论按:2017年6月21日至22日,腾讯·云+未来峰会在深圳举行。在主题为“机器学习:创新视角,直面挑战”的演讲 - AI 科技评论后,AI 科技评...

3036
来自专栏AI科技评论

UC 伯克利优化理论教授谈深度学习:为了可解释性,我们可能需要牺牲一些模型表现

AI 科技评论按:在人工智能的浪潮之下,以深度学习为首的机器学习方法迅速席卷了各个领域,给许多问题带来了全新的解决方案(当然同时也带来了新的问题等待解决)。 除...

34715
来自专栏人工智能头条

CCAI 2017 | 漆远:蚂蚁金服 AI 技术大揭秘, 开放“模型服务平台”

1353
来自专栏CDA数据分析师

【扫盲】如何区分人工智能,机器学习和深度学习

我们都熟悉“人工智能”这一概念。毕竟,这个词常常在热门电影中出现,如《终结者》、《黑客帝国》、《机械姬》。 但最近你也可能常常听到其他术语,如“机器学习”和“深...

21110
来自专栏PPV课数据科学社区

【观点】大数据与统计新思维

译著《大数据时代》( 英国 ViktorMayer-Schǒnberger,Kenneth Cukier 著) 和《驾驭大数据》( 美国 Bill Frank...

2897
来自专栏新智元

Distill:对标 arXiv 的机器学习开放平台横空出世,交互式期刊

【新智元导读】Google Brain,DeepMind,YC Research 等联合推出 Distill,一个新型开放性科学期刊平台,更设立初始奖金共125...

3365
来自专栏人工智能快报

通往未来人工智能的三条途径:量子计算、神经形态计算和超级计算

美国“数据科学中心”(Data Science Central)网站的编辑总监William Vorhies撰文表示,量子计算、神经形态计算和超级计算可以带来更...

3569
来自专栏智能算法

“忘掉大数据”之“建模术”:数据挖掘还原用户的生活场景

建模无疑是大数据里面最艺术的部分,也是最令大数据从业者痴迷、得意的领域,一个好的模型就是一篇作品,是一首诗,令人心旷神怡。建模、模型并不是什么新鲜事...

3466
来自专栏AI科技评论

论文 | 百度「一次包会」模型:「一次性」教会Agent认新事物

百度 Research 在近日发表了一篇博文,介绍了通过交互式对话来教 AI 智能体学会语言和一次性实现主动概念学习的方法。

1372
来自专栏PPV课数据科学社区

【应用】机器学习商业应用入门及七个实例

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...

3469

扫码关注云+社区

领取腾讯云代金券