前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据什么鬼,别让众口铄金迷乱你的双眼!

大数据什么鬼,别让众口铄金迷乱你的双眼!

作者头像
IT阅读排行榜
发布2018-08-13 16:09:33
3020
发布2018-08-13 16:09:33
举报
文章被收录于专栏:华章科技华章科技

作者:徐光辉

首先写这篇文章受到启发,源于朋友圈要刷爆的消息,大数据与互联网相连,2010年开始大热,现在是互联网时代,所到之处都是谈论大数据的,毕业了做什么,大数据;找男朋友的,做大数据;学数学,适合做大数据. 双十一期间看《大数据告诉你,电商会把假货卖给谁》,写的像小数,异常精彩。 我只想说,作者带着激动的心情写了看似很正确的话来修饰大数据的恐惧。 根据我从业经验来看,今天说说数据乃至大数据,决定进行透析,透析就是一层层的,日常我们经常看到报表,报告或者数据或者数字,这些都是数据范畴类。 我们先从数据底层说起。

第一层是数据收集

(叫数据积累,存储等是广义上的收集) 数据的收集趋势,从标准化数据到零散的,从多年积累的到每日都要达到千万级数据,从纯数据到文本数据,到各种数据,到各种颗粒度。 互联网时代,数据量是几何级的升高,但绝大多数的都是标准化的数据,相对更容易,但最大的问题是量大,快速,多变。 数据的收集后的下一步,基本上可以分为,数据校验,为什么是数据校验,因为整个数据就是不正确的,GA的数据正确么?接口的数据正确么?另外一部分是数据分析&挖掘,超过半数的企业的数据都是不准确的,或者不完全准确的,涉及到接口,接口交换或者传输各种问题,

数据都不能正确的,何谈大数据。 多半谈大数据的是不知道数据质量的,这一点千真万确。

第二层是数据应用&分析&挖掘

大数据应用其实是业务的运用,不是数据运用,不是数据结果运用。 面对小数据很多时候我们一筹莫展,更别提更多的数据,往往不了解的人都会说,我们通过大数据,得出某某结论,其实这是断掉中间的东西(如何分析,如何发现未知,确定未知),臆想,众口铄金,迷乱了很多人的双眼。 数据的结果是为业务分析服务,不是大数据,还是小数据的分析,大数据的分析一定是最后做到小数据,既要全局全揽,还要落到小点 再谈大数据的数据模型,模型是统计学家,前人的成果,搜索下现行所有模型,仍然是关联模型,行为判别,再加上判别等模型。

第三层是大数据的重中之重-数据转换存储

大数据其实是底层技术的大数据,海量的数据更多是数据集成,存储,转换 每日千万量的数据,每次ETL如此量的数据,是服务器的配置的设置,大数据考验的有一点是数据架构

第四层时回归到小数据,解释世界

做了大量模型,推荐模型,关键在于准确度,这些需要汇报,汇报高级主管的,落的是小数据。 当很多人在说需求预测,自动输出,这些是模型范畴的选模型步骤,模型检验,其实跟我们理解的都不一样,大数据混淆,模型的说法也开始使用到业务工作中,完全开始混了 回归数据,一定是回归小数据,跟所说的大数据似乎关系很小

数据落到最后,是解释世界,业务分析。

记得之前跟客户团队成员提过,谈大数据的都不会分析,甚至不知道如何分析;做数据分析的都在谈数据研究,做数据研究的都在做市场研究,做市场研究的其实在做业务。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档