专栏首页奇点大数据大数据的误导

大数据的误导

大数据火了这么多年了,还是有不少朋友会跟我讨论,“你说大数据多大算大?”

有这样困惑的朋友可能还不少,而且大多集中在刚刚入行的朋友里。这就是“大数据”一词天然给我们带来的坑。再加上行业里动辄宣传和鼓吹Google、Facebook的机房有多大,存量有多大。就更容易让我们认为,必须数据量超级大才算大数据入了门,才算“大”数据。不过我的看法不尽相同。

认为数据很多才算大才有价值,就好比饭多了才好吃,音乐声音大才好听一样经不起推敲,是不是?

我们想一想,我们做大数据的目的究竟是什么呢?尤其是作为商业用途来说?那无非是为了多赚钱或者多省钱,不论是直接的还是间接的。一旦脱离开这些,谁来买单?谁来背成本?

Google和Facebook这样的公司搞大规模系统的目的也不是为了炫富,而是他们确实数据量膨胀到一定程度了,不得不使用一些我们平时应用场景里不多见的技术而已,所以“这些技术一定是大数据的必备条件”就自然变成了误导我们的信息。作为挑战尖端科技和中国这种人口基数的互联网公司的客观需求,研究超大规模架构集群技术是个方向而且绝对正确,但中小型公司我肯定是不建议盲目地邯郸学步的。

中小型公司需要大数据吗?答案是肯定的,不仅需要,而且非常需要。中小型公司要用大数据干什么?这种需求多少年来一直没有变过,还是刚刚说的要么多赚钱要么多省钱。多赚钱多省钱的途径在数据运营中最常见的就是指标管理,再有就是诸如财务分析、人力成本分析、工作效率及成果分析等。这些东西在我们日常生产生活中占了绝大多数的数据应用场景。对这些对象研究明白了就已经能解决大部分运营问题了。如果还想搞得深一些怎么弄?再把参考维度的数据增多就可以了,比如刚刚这些数据指标是否和气候变化有关?是否和地理位置有关?是否和大气污染程度有关?是否跟当前热播的电视剧有关?是否跟短时间内网上的一个热词有关?是否跟交通状况有关?是否跟人们使用的上网设备有关等等。这些数据的引入不需要搞得非常多,只要相互结合有效且丰富适度,就有得挖掘。甚至指标自身前后是否彼此有影响规律,也是个值得研究的课题。

在数据挖掘应用中有随机森林等算法就是尝试帮人们来寻找多彩多样的维度之间的联系的,在今后的文章中我们会逐一分享。

本文分享自微信公众号 - 奇点(qddata),作者:高扬

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-12-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据工程师职业前景到底有多好?听BAT怎么说!

    大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。

    刀刀老高
  • 再免费多看一章--高斯贝叶斯

    高斯贝叶斯用来处理连续数据,假设数据里每个特征项相关联的数据是连续值并且服从高斯分布,参考这里。 ? 概率公式: ? 在《白话大数据与机器学习》里使用了s...

    刀刀老高
  • 再免费多看一章--knn

    算法很简单,对待分类样本实施近邻投票。其中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。 ? 在《白话大数据与机器学习》里使用了sklea...

    刀刀老高
  • 从IT到DT时代,变革在悄然发生

    从1936年的图灵机的发明到1945年冯.诺依曼机的出现,这些都是计算机发展的基石,甚至于往后各种大型计算机、小型计算机的诞生,严格意义上来说,这都不是IT。真...

    钱塘数据
  • 【数据分析】六种可用于互联网金融风险控制的大数据来源

    近年来,以第三方支付、P2P平台、众筹为代表的互联网金融模式引起了人们的广泛关注,该模式大量运用了搜索引擎、大数据、社交网络和云计算等技术,有效降低了市场信息不...

    陆勤_数据人网
  • 6种可用于互联网金融风险控制的大数据来源

    近年来,以第三方支付、P2P平台、众筹为代表的互联网金融模式引起了人们的广泛关注,该模式大量运用了搜索引擎、大数据、社交网络和云计算等技术,有效降低了市场信息不...

    华章科技
  • 大数据平台架构+ETL

    ETL,Extraction-Trasformation-Loading,即数据读取,转换,装载的过程,是构建数据仓库的重要环节。

    可爱见见
  • 大数据架构和模式(二)——如何知道一个大数据解决方案是否适合您的组织

    作者: Divakar Mysore等 来源: DeveloperWorks 摘要:本文介绍一种评估大数据解决方案的可行性的基于维度的方法。通过回答探索每个维...

    机器学习AI算法工程
  • 数据猿对话丨聚合数据郭劼:数据只有在流通过程中被充分应用,价值才能最大化

    作数据流通的中转站,聚合数据以API形式为互联网和移动互联网(企业和个人)开发人员提供了最好、最便捷的服务。有了聚合数据,开发者再也不用担心对各种类型数据的采集...

    数据猿
  • 贝恩咨询:大数据的三个误区及危险

    大数据文摘

扫码关注云+社区

领取腾讯云代金券