首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

为什么有些分析平台会让数据科学家失望?

今年早些时候,研究公司Market Research Future预测,到2023年,全球数据分析市场将实现30%的年增长率,达到近780亿美元的市值。然而,据数字分析协会称,44%的分析团队花费超过一半的时间来存取和清洗数据,而不是进行实际分析,这是一笔回报甚微的巨额投资。

由于使用了错误的分析平台,实施商业智能(BI)是否会失败?以下是分析平台让数据科学家失望的五种原因:

不是使用者或受益者来选择分析平台

尽管在评估过程开始时拥有纯粹的意图,但分析平台的功能需求通常都是在关系范围的另一端不成比例地向客户倾斜。许多分析平台迎合了那些只提供少量消费信息的普通客户。而其他平台虽吸引了一小部分客户,但这需要数据科学家利用非常复杂的分析工具在客户群中进行运算。基于这两种情况,核心客户群都匹配了一个不适合日常需求的工具

我们已经看到非技术客户正在评估平台的情况,这对于需要更深层次分析数据复杂性的技术人员来说可能是沮丧的。我们还目睹了数据科学家在没有花费大量时间考虑业务成果的情况下选择工具。有时,管理人员和数据科学家在一起决定。尽管前者可能是需要做出最终决定的人,但实际上将使用该工具的人、将要做报告的人,并未被要求参与决策。

您可能会说,如果我们想要更复杂的分析,需要选择一个优先考虑数据科学家需求的平台。或者您可能会说,要创建分析文化,平台需要尽可能易于使用,以便最多的客户实际使用它。要使分析取得成功,需要将重点放在80%的中间客户群。理想的平台找到了中间方案:提供了普通客户可以欣赏、可访问的客户界面(UI),也包括简明的复杂分析,以便高级客户可以探索挑战。

分析策略仅限于纸上谈兵

另一个常见的问题是分析策略与日常分析和数据工作流程之间不匹配。出现这种脱节可能由于几个原因:通常帮助选择数据分析平台的顾问或执行伙伴对业务缺乏整体了解,或者带有先入为主的供应商偏好。在其他情况下,内部驱动的供应商选择过程被不成比例地倾向于某些特别使用案例。无论采用哪种方式,如果选择作为分析策略核心的分析工具无法适应数据或业务需求的变化趋势,或者如果无法有效地将客户聚集在一起进行协作,那么该分析工具就是失败的。

例如,如果您设计指定的数据工作流程,却发现无法连接对分析至关重要的数据源,且平台又无法容纳它,那么客户可能会寻找一个变通方法,可能是现成的连接器,也可能是完全不同的分析工具。如果继续下去,可能很快就会发现,自己正在使用六个不同的供应商来处理分析离散数据。最初认为可以很简单的操作变得复杂了。

您还可以发现,员工正在使用他们更熟悉的数据或分析工具版本。因此,即使在您购买并“实施”昂贵的企业分析平台之后,也可能会发现没有人使用它。

一个灵活、共享、可支配的环境允许企业借助新资源和不断变化的基础设施需求来改变。企业分析应用程序需要消除使用多个工具造成的混乱。每个生命周期决策的参与者,无论是IT、分析师、数据科学家还是普通客户,都必须具有与共享、一致的数据交互的能力。

数据科学家花在数据清洗上的时间多于分析

选择企业分析平台是将所有数据整合到一个中心,并利用它。然而,虽然您可以访问数据,但您似乎没有干净的数据可以解决业务挑战。尽管尝试集中存储数据,但它仍然储存在不同的业务单元或部门中。您可能在讨论解决方案时,却发现使用了六个不同的供应商来应对一个特定的数据源。

数据科学家可以随时访问数据。如果做不到这点,他们就会考虑其他方法,并把时间花在不那么有效的任务上,比如数据清洗和数据标准化。一个常见的场景:数据科学家被要求对数据源进行分析。如果数据未进行优化,则必须首先处理数据。然后,再使用独立机器学习(ML)软件应用程序进行分析,最后输出一个平面文件,供业务分析师重新加载到几个基于桌面的BI应用程序之一。这个过程导致了提取、导入、分析、导出、重新导入和重新分析数据的永久循环。整个过程繁琐且效率低下,这使 AI和ML计划产生的有意义的见解仍然有限。

规范化流程对于高质量的数据-重现(或复制)数据流是至关重要。同样重要的是,对于大多数客户来说,这种机制直观。当您将多个应用程序作为分析堆栈的一部分时,这通常很困难。将分析流程的环节(数据准备、合并ML算法、准备建模、构建可视化以及组装仪表板和报告)引入到单个应用程序中,可以更容易地重新创建(和自动化)数据工作流。

专注于优化机器学习工作流程,以致忽略大局

错误的分析工具、或完全独立的ML应用程序,可能会将您的数据科学家与日常的分析实践隔离开来。如果该工具没有提供一个高级客户与典型平台客户协作的环境,那么整个流程将进一步分解。因此,现在不仅存在数据孤岛,还存在分析孤岛,即不同的客户使用自己的应用程序进行分析。

数据科学家在构建算法、设置模型参数和测试结果时表现出色。如果使用错误的工具,他们所做的大多数实际工作,如数据清洗、维护数据存储等都将变得毫无意义。理想情况下,分析平台应该使不那么有趣的部分变得更容易,这样数据科学家就可以更快地将他们的模型、算法和报告投入到生产环境。

临时业务让高级分析客户产生压力

您很可能建立了AI和ML计划,因为您认识到,要提升分析能力,必须向数据科学家承诺,以及投资大数据基础设施,并选择将先进洞察用于典型业务场景的分析技术。

然而,经常发生的事情是,企业普遍热衷于接受分析,但临时业务,很快压倒数据科学资源。例如,假设营销副总裁来到数据科学团队,询问根据过去的行为,哪些目标社交广告活动和受众表现出了最高的购买意愿。然后销售副总裁根据当前的销售数据询问他们应该优先考虑哪些产品和市场。单独来看,每个请求都是合理且有价值的。然而,如果您的数据科学团队在您的常规数据流之外(使用独立的工具)处理所有这些工作,那么从员工资源的角度来看,这个过程将变得低效、脱节。

如果没有一个严格的流程来管理这些高级项目,您的数据科学家很快就会陷入困境。他们将重复耗时的工作,并且不能从更广泛的战略角度为企业提供价值。如果您使用的平台能够将所有这些集成到一个环境中,那么您可以更快更容易地将模型投入生产。此外,结果更加集成和可用。

该如何做

在本文中,我们阐述了错误的分析平台让数据科学家失败的所有关键原因。我们发现,成功的秘诀包括面向最广泛客户群的端到端的分析平台。关键是创建一个分析环境,并为环境提供特定的工具组和功能,这些工具组和功能对于决策生命周期中的任何参与者、终端客户和数据科学家都是有价值的。这不仅在部门,而且在整个企业范围内都增加了价值。随着客户采用率的提高,IT和分析主管保持对数据消费的可视化。这样,分析最终能为整个企业的所有业务需求提供可操作的建议。

原文作者:OMRI KOHL

原文标题:WHY ANALYTICS PLATFORMS ARE FAILING YOUR DATASCIENTISTS

编译作者:创略科技“数数”,转载请注明来源

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190813A0N4XQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券