前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >导致大多数人工智能机器学习项目失败的原因

导致大多数人工智能机器学习项目失败的原因

作者头像
程序你好
发布2020-11-05 14:15:23
4660
发布2020-11-05 14:15:23
举报
文章被收录于专栏:程序你好程序你好

我们到处都能看到机器学习的新闻。的确,机器学习有很大的潜力。根据数据分析绝大多数的人工智能项目将永远不会投入生产,为什么这么多的人工智能项目失败了? 根据在机器学习领域多年的经验,我们总结出了几个常见的导致机器学习项目失败的原因。了解这些问题,以及它们如何产生,将有助于你更好地评估下一个机器学习项目的可行性,也有助于让项目的实际效果达到预期。

缺少足够的专业知识

如今,似乎任何从事过数据分析或软件开发、做过一些数据科学样本项目的人,在参加过短期在线课程后,都给自己贴上了数据科学家的标签。

事实上,需要有经验的数据科学家来处理大多数机器学习和人工智能项目,尤其是在定义成功标准、最终部署和对模型的持续监控方面。

数据科学和传统软件开发之间的脱节

数据科学和传统软件开发之间的脱节是另一个主要因素。传统的软件开发往往更具有可预测性和可度量性。

数据科学研究通过多次迭代和实验向前推进。有时,整个项目将不得不从部署阶段回到计划阶段,因为所选择的度量标准并没有驱动用户行为。对于那些在正常软件开发项目的每个任务周期结束时都在处理清晰交付内容的领导来说,这将导致大规模的混乱。

数据的数量和质量

每个人都知道数据集越大,人工智能系统的预测就越准确。除了更大容量的直接影响外,随着数据大小的增加,还会出现许多新的挑战。

在实际情况下,需要我们不得不把多种来源的数据进行合并。而通常这些并不同步的数据源会导致许多的混乱,可能会合并不应该合并的数据,最终将导致拥有相同名称但不同含义的数据点。

糟糕的数据最多只能产生不操作性或不具洞察力的结果,而错误的数据也会导致误导的结果。

标注数据

无法获得标注数据是阻碍许多机器学习项目的另一个挑战。根据麻省理工学院斯隆管理评论,76%的人通过自己对训练数据进行标签和注释来应对这个挑战,63%的人甚至尝试建立自己的标签和注释自动化技术。

这意味着这些数据科学家在标注过程中丢失了很大比例的专业知识。这也成为有效执行AI项目的一个主要挑战。

这就是许多公司将标注工作外包给其他公司的原因。然而,如果标注任务需要足够的领域知识,那么将其外包出去风险很高。如果标注人员需要保持数据集的质量和一致性,公司将不得不投资于正规和标准化的培训。

如果要标记的数据复杂,另一种选择是开发自己的数据标注工具,可是这通常比机器学习任务本身需要更多的资源开销。

孤立的组织

数据是机器学习项目中最重要的实体。在大多数组织中,这些数据将以不同的安全约束和不同的格式驻留在不同的地方——结构化的、非结构化的、视频文件、音频文件、文本和图像等。

将这些数据以不同的格式放在不同的位置本身就是一个挑战。然而,当组织处于孤立状态,负责任的个人之间不相互协作时,风险就会加倍。

缺乏协作

另一个主要挑战是不同团队之间缺乏协作,这些团队包括数据科学家、数据工程师、数据管理员、BI专家、DevOps和工程人员。这对于处于数据科学工程计划中的团队来说尤其重要,因为在他们的工作方式和他们用于完成项目的技术上有很多不同。

工程团队将实施机器学习模型并将其投入生产。因此,他们之间需要有适当的理解和强有力的合作。

技术上不可行的项目

由于机器学习项目的成本往往非常昂贵,大多数企业倾向于将目标锁定在一个雄心勃勃的“登月”项目上,这个项目将彻底改变公司或产品,并带来巨大的回报或投资。

这样的项目需要花费很长时间才能完成,而且会把数据科学团队推向他们的极限。

最终,商业领袖将对项目失去信心并停止投资。

技术团队和业务团队之间的一致性问题

很多时候,ML项目开始时,业务团队和数据科学团队之间没有对项目的期望、目标和成功标准进行明确的协调。

这类项目本身将永远停留在研究阶段,因为他们永远不知道自己是否取得了进展,因为从来都不清楚目标是什么。

在这里,数据科学团队将主要关注准确性,而业务团队将对度量更感兴趣,比如财务收益或业务洞察力。最后,业务团队最终不会接受来自数据科学团队的结果。

缺乏数据策略

根据《麻省理工学院斯隆管理评论》(MIT Sloan Management Review),在雇员人数超过10万的大型企业中,只有50%最有可能制定数据策略。在开始机器学习项目之前,制定一个可靠的数据策略至关重要。作为数据策略的一部分,您需要对以下内容有一个清晰的理解:

  • 你在公司的全部数据
  • 这些项目真正需要多少数据?
  • 所需的个人将如何访问这些数据,以及这些个人访问这些数据的容易程度如何?
  • 如何将所有这些来自不同来源的数据整合在一起的具体策略
  • 如何清理和转换这些数据。

大多数公司一开始没有计划,或者没有开始认为他们没有数据。

缺乏领导支持

人们很容易认为“你只需要投入一些资金和技术来解决问题,自动就能达到目标”

我们没有看到来自领导层的正确支持,以确保取得成功所需的条件。有时,商业领袖对数据科学家开发的模型没有信心。

这可能是由于缺乏对人工智能的理解,以及数据科学家无法将模型的商业好处传达给领导。

最终,领导者需要了解机器学习是如何工作的,以及人工智能对组织的真正意义。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序你好 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档