业界 | Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

大数据文摘作品

编译:李雷、元元、小鱼

数据科学的功能是在数据中寻找有用的观点并加以应用。然而,数据科学并非凭空而来。在向分析目标迈进的过程中,数据从业者可能面临阻碍其进展的各种挑战。

本文探讨了数据从业者在分析数据时遇到的挑战类型。为了研究这个问题,本文分析了Kaggle 2017年数据科学和机器学习状况调查报告(Kaggle 2017 State of Data Science and Machine Learning)中的数据。这是一项针对16,000多名数据从业者展开的专项调查(数据收集于2017年8月)。

Kaggle的调查数据显示,数据科学家面临的最常见挑战包括脏数据(36%),缺乏数据科学人才(30%)和缺乏管理支持(27%)。

数据来源:

https://www.kaggle.com/kaggle/kaggle-survey-2017

工作中的障碍与挑战

数据从业者过去一年所面临的挑战

在调查中10153名受访者被问到,“在过去的一年中,你工作中遇到了哪些障碍或挑战?(可多选)。”结果如上图所示,排名前十的挑战是:

  1. 脏数据(36%的受访者提及此项)
  2. 缺乏数据科学人才(30%)
  3. 公司政策(27%)
  4. 缺乏明确的研究问题(22%)
  5. 数据无法访问(22%)
  6. 结果未被决策者使用(18%)
  7. 向其他人解释数据科学(16%)
  8. 隐私问题(14%)
  9. 缺乏专业领域知识(14%)
  10. 小公司请不起数据科学团队(13%)

结果显示,平均每个数据从业者就会遇到上图中的三项挑战(3是中位值)。不同职位所遇到的挑战数量不同。自认为是数据科学家(Data Scientist)或预测建模师(Predictive Modeler)的数据从业者称遇到了其中的四项挑战。自认为是程序员的数据从业者称只遇到了其中的某一项挑战。

挑战分组

我想将这20项挑战进行分组,把通常一起出现的挑战归为一组,因此我对数据进行了主成分分析(0表示未经历此项挑战;1表示经历过此项挑战)。我发现了一个相当清晰的、由5个主要成分构成的分组方案,其中特定挑战往往会与其他相关挑战一起出现。

数据从业者遇到的挑战的主成分分析。

图中表格数据是方差极大正交旋转后的成分矩阵,

得分大于等于0.40的成分以粗体显示。

上图中五个主要成分(挑战分组)是:

  1. 分析结果未被用于决策:这组挑战还包括公司政策、无法将研究结果纳入决策过程以及缺乏管理支持。
  2. 数据隐私、真实性、无法访问:这组挑战围绕数据本身展开,包括数据清洗的复杂程度、可访问性以及隐私问题。
  3. 扩展/部署工具的局限性:这组挑战与用于提取结果、部署模型以及将解决方案扩展到完整数据库的工具相关。
  4. 缺乏资金:资金缺乏引起的挑战会影响组织机构在外部数据源、数据科学人才以及可能的领域专业知识方面的购买力。
  5. 提出的错误问题:这组挑战包括难以对数据科学项目的结果保持合理的期望,并且对数据分析没有明确目的或方向。

结论

数据从业者在数据科学和机器学习工作方面会遇到一些挑战。一年中平均每个数据从业者可能会遇到其中三项挑战。最常见的数据科学和机器学习挑战包括脏数据,缺乏数据科学人才,缺乏管理支持以及缺乏数据分析明确的方向或目的。

原文链接:

http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

谷歌之后,亚马逊也开源了自家的深度学习工具

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

4128
来自专栏人工智能头条

AAAI主席Rao Kambhampati:破解人机共存的规划技术挑战(PPT下载)

1313
来自专栏新智元

【解读2015】自然语言处理:持续探索,稳中前行

2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展...

3395
来自专栏企鹅号快讯

企业如何进行AI自动化?这几点不容忽视

本文原文作者 Michael Hu,科尔尼管理咨询公司总监,由腾股创投编译整理。 人工智能和机器学习在亚马逊 Alexa 等面向消费者的应用领域取得了长足的进步...

2179
来自专栏企鹅号快讯

新型Power9处理器 针对AI和机器学习而开发

目前全球需要越来越大的计算能力来处理像人工智能和机器学习这样的资源密集型工作负载,IBM公司以其最新一代Power芯片 - Power9进入了竞争。该公司打算向...

2186
来自专栏AI科技评论

李佳担任谷歌 AI 中国中心负责人:改善人类生活需要 AI,而 AI 需要「四步走」

AI 科技评论按:12 月 13 日,谷歌开发者大会 2017 在上海召开,多名谷歌工程师和重量级嘉宾登台演讲,宣布了许多振奋人心的消息,美国工程师的中文演讲也...

3446
来自专栏大数据文摘

算法告诉你,达芬奇和莫奈谁更有创造力

2647
来自专栏人工智能头条

语音识别真的比肩人类了?听听阿里 iDST 初敏怎么说

1432
来自专栏云计算D1net

IT专家指导企业如何使用大数据

目前大数据市场日益升温,由此大数据驱动了巨大的消费增长。 研究公司IDC预计大数据技术和服务市场将以27%的速度逐年增长,到2017年达到324亿美元。 尽管资...

3727
来自专栏企鹅号快讯

那些年我们吹过的牛逼——人工智能

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术...

2047

扫码关注云+社区