大数据文摘作品
编译:李雷、元元、小鱼
数据科学的功能是在数据中寻找有用的观点并加以应用。然而,数据科学并非凭空而来。在向分析目标迈进的过程中,数据从业者可能面临阻碍其进展的各种挑战。
本文探讨了数据从业者在分析数据时遇到的挑战类型。为了研究这个问题,本文分析了Kaggle 2017年数据科学和机器学习状况调查报告(Kaggle 2017 State of Data Science and Machine Learning)中的数据。这是一项针对16,000多名数据从业者展开的专项调查(数据收集于2017年8月)。
Kaggle的调查数据显示,数据科学家面临的最常见挑战包括脏数据(36%),缺乏数据科学人才(30%)和缺乏管理支持(27%)。
数据来源:
https://www.kaggle.com/kaggle/kaggle-survey-2017
工作中的障碍与挑战
数据从业者过去一年所面临的挑战
在调查中10153名受访者被问到,“在过去的一年中,你工作中遇到了哪些障碍或挑战?(可多选)。”结果如上图所示,排名前十的挑战是:
结果显示,平均每个数据从业者就会遇到上图中的三项挑战(3是中位值)。不同职位所遇到的挑战数量不同。自认为是数据科学家(Data Scientist)或预测建模师(Predictive Modeler)的数据从业者称遇到了其中的四项挑战。自认为是程序员的数据从业者称只遇到了其中的某一项挑战。
挑战分组
我想将这20项挑战进行分组,把通常一起出现的挑战归为一组,因此我对数据进行了主成分分析(0表示未经历此项挑战;1表示经历过此项挑战)。我发现了一个相当清晰的、由5个主要成分构成的分组方案,其中特定挑战往往会与其他相关挑战一起出现。
数据从业者遇到的挑战的主成分分析。
图中表格数据是方差极大正交旋转后的成分矩阵,
得分大于等于0.40的成分以粗体显示。
上图中五个主要成分(挑战分组)是:
结论
数据从业者在数据科学和机器学习工作方面会遇到一些挑战。一年中平均每个数据从业者可能会遇到其中三项挑战。最常见的数据科学和机器学习挑战包括脏数据,缺乏数据科学人才,缺乏管理支持以及缺乏数据分析明确的方向或目的。
原文链接:
http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work