首页
学习
活动
专区
工具
TVP
发布

大数据中会不会有太多数据

这个问题的答案是肯定的。可以有绝对太多数据的大数据项目。发生这种情况的方式有很多种,而且专业人员需要以多种方式限制和整理数据以获得正确结果的原因多种多样。通常,专家们谈论将模型中的“信号”与“噪声”区分开来。换句话说,在大数据的海洋中,相关的洞察力数据变得难以确定目标。在某些情况下,您正在大海捞针。

例如,假设一家公司正在尝试使用大数据来生成关于客户群细分的特定见解,以及他们在特定时间范围内的购买。

摄入大量数据资产可能会导致获取不相关的随机数据,甚至可能产生偏向,使数据偏向一个方向或另一个方向。

由于计算系统必须处理越来越大的数据集,因此它也极大地减慢了该过程。

在许多不同类型的项目中,对于数据工程师而言,将数据整理为受限制的特定数据集非常重要–在上述情况下,这仅是针对正在研究的那部分客户的数据,仅是当时的数据正在研究的框架,以及淘汰可能使事情混乱或减慢系统速度的其他标识符或背景信息的方法。

有关更多信息,让我们看看它在机器学习领域是如何工作的。

机器学习专家谈论一种称为“ 过度拟合 ”的东西,当机器学习程序在新的生产数据上松动时,过于复杂的模型会导致效果较差的结果。

当一组复杂的数据点与初始训练集匹配得太好,并且不允许程序轻松适应新数据时,就会发生过度拟合。

现在从技术上讲,过度拟合不是由存在太多数据样本引起的,而是由过多数据点的加冕导致的。但是您可能会争辩说,过多的数据也可能是导致此类问题的一个因素。处理维数的诅咒涉及早期大数据项目中使用的某些相同技术,因为专业人员试图确定他们为 IT 系统提供的内容。

最重要的是,大数据可能对公司有极大的帮助,或者可能成为一项重大挑战。其中一个方面是公司是否拥有正确的数据。专家知道,不建议将所有数据资产简单地转储到料斗中并以这种方式得出见解–在新的云原生和复杂的数据系统中,人们正在努力控制和管理以及管理数据,以便获得更准确,更准确的数据。有效利用数据资产。

欢迎将文章分享到朋友圈

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191206A08MHN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券