前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据整合和机器学习深入客户见解

数据整合和机器学习深入客户见解

作者头像
Lethe丶L
发布2018-02-01 18:01:48
9050
发布2018-02-01 18:01:48

本文精选与新的DZone人工智能指南中。免费获取更有深度的文章,行业统计,以及更多!

在这个大数据世界中,企业的一个主要目标是最大化所有客户数据的价值。在本文中,我将讨论为什么企业需要整合数据来构建更好的模型,以及机器学习如何帮助他们发现这些洞察力。

数据的价值在于洞察力

分析的目标是在数据中“发现模式”。这些模式采用数据中变量之间统计关系的形式。例如,市场营销主管想知道哪些营销手法改善了客户的购买行为。然后,营销人员使用这些模式(统计关系)建立预测模型,帮助他们确定哪个营销手法对客户忠诚度的提升最大。

我们在数据中查找模式的能力受到我们访问的变量数量的限制。所以,当你从单一的数据集分析数据时,你的见解受到数据集中的变量的限制。如果您的数据仅限于客户调查的态度指标,您将无法理解有关客户态度如何影响客户忠诚度行为。您无法将客户的态度与其行为联系起来,将阻止您得出关于客户体验的满意度如何驱动客户的忠诚度这一行为的结论。

数据的两个维度

您可以在两个维度上描述数据集的大小:(1)样本大小(数据集中实体的数量)和(2)变量的数量(每个实体的事实数量)。图1包含不同的数据集的一个很好的例子,可以看到他们沿着这两个尺寸相关的维度如何下降(你可以在这里看到一个交互式图表)。

图1

对于图1左上象限中的数据集,我们知道很多关于少数人的事实。人类基因组就是这类数据集很好的例子。对于右下象限的数据集,我们知道很多人(即美国人口普查)的一些事实。商业中的数据孤岛是这些类型的数据集的好例子。

绘制和理解人类的所有基因,通过集中药物治疗(即药物基因组学)和遗传疾病风险评估(即遗传咨询,基因检测),可以实现医疗保健的深度个性化。人类基因组计划使得医疗保健专业人员能够摆脱“一刀切”的方式,以更加量身定制的方式解决特定患者的医疗保健需求。

整合数据孤岛的需求

在商业上,大多数客户数据都存放在不同的数据库中。尽管每个数据库都包含有关客户的重要信息,但是如果您不将这些数据连接到不同的数据库,则只会看到整个客户难题的一部分。

看看这个由蒂姆·伯纳斯-李的关于开放的数据的TED演讲,说明合并/捣碎不同数据源在一起的价值。只有将不同的数据源整合在一起,才能有新的发现 - 如果只是分析单个数据库,根本不能发现什么。

数据整合
数据整合

孤立的数据集可以防止业务领导者完全理解他们的客户。在这种情况下,一次分析只能在一个数据库内进行,限制可用于描述给定现象的一组信息(即变量)您的分析模型可能被限制(不使用完整的有用预测变量),从而降低模型的预测能力/增加模型的预测误差。本质内容是你不能对你的客户做出最好的预测,因为你没有关于他们的所有必要的信息。

这些不同的客户数据库的整合有助于您的分析团队识别不同客户信息之间的相互关系,包括他们的购买行为,价值观,兴趣,对品牌的态度,与品牌的互动等等。整合有关客户的信息/事实,可以让您了解所有变量如何协同工作(即相互关联),从而更深入地了解客户为何流失,如何建议以及向您购买更多商品。

本质内容是:全面的,整体的,统一的数据集大于其数据库部分的总和。发现新问题的关键是将数据库中的信息连接起来。

机器学习

数据整合后,下一步就是分析整个变量集。但是,随着CRM系统,公共数据(即天气)和库存数据等众多数据库的整合,可以对组合数据集进行可能的分析。例如,在数据库中有100个变量,则需要测试大约5000个独特的关系对,以确定哪些变量彼此相关。当您检查三个或更多变量的独特组合时,测试次数呈指数增长,导致需要进行数百万次测试。

由于这些整合这些数据集非常庞大,无论是关于记录(即客户)数量和变量,数据科学家都无法有效地筛选大量的数据。相反,为了识别关键变量并创建预测模型,数据科学家依靠机器学习的力量在所得的数据中快速准确地发现数据中的模式 - 变量之间的关系。

公司现在可以应用机器学习,而不是依靠单个数据科学家的努力。机器学习使用统计学和数学方法,允许计算机在变量之间找到隐藏的模式(即进行预测),而不需要明确地编程在哪里寻找。机器学习算法在本质上是不断学习的。他们摄取的数据越多,他们越能找到变量之间的联系,以生成有效定义记本业务流程如何工作的算法。

在我们的案例中,我们有兴趣了解顾客忠诚行为背后的驱动因素。根据数学,统计学和概率,算法,能够在变量中找到帮助优化重要组织结果的联系---比如客户忠诚度。然后,这些算法可用于对特定客户或客户群进行预测来提供见解,从而改善营销,销售和服务功能,从而提高业务增长。

本质内容是:应用机器学习发现见解是一种找到变量之间的重要联系的自动化的,有效的方式。

总结

您的数据的价值只有您可以从中提取的信息。这些信息是由数据集中变量之间的关系来表示的。坚持一个单一的数据集(筒仓)作为唯一的数据源限制了你对研究对象的任何现象的理解能力。在商业领域,数据科学实践中发现有用的数据模式依赖于整合数据仓,从而可以访问有关客户的所有变量。反过来,企业可以利用机器学习来快速从集成数据集中获取洞察力,从而使他们能够创建更准确的客户模型。随着机器学习的进步,人们追求(和发现)的关系仅受限于他们的想象力。

本文精选与新的DZone人工智能指南中。免费获取更有深度的文章,行业统计,以及更多!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据的价值在于洞察力
  • 数据的两个维度
  • 整合数据孤岛的需求
  • 机器学习
  • 总结
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档