前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >海量数据, 为何总是 "海量垃圾" ?!

海量数据, 为何总是 "海量垃圾" ?!

作者头像
Ken Fang 方俊贤
发布2018-01-05 10:14:53
9160
发布2018-01-05 10:14:53
举报

2017.9.10, 深圳, Ken Fang

雷军说:我拥有海量的数据, 却不知道怎么用?每年, 花在存储海量数据的费用, 也是海量;足以使企业破产⋯ 为何会如此?

当我们将所谓 “海量数据分析” 的神秘面纱给揭开时, 打破 “海量数据分析” 的神话, 就会很容易的明白, 真正的问题到底出在哪?为何谷歌能做到的, 我们却做不到?

大家都明白的 Common Sense: 做海量数据分析, 要先能建立数据模型;有了数据模型, 我们才能从 “海量” 数据中, 去提炼出 “有用” 的数据。 海量数据分析最关键、最重要的ㄧ步:将海量数据 “转换” 为有用的数据。

而数据模型建立的前提是: @ 要能先分析出, 产生数据背后的 “用户的目的” 。例如:用户是基于什么样的社会事件?天灾?人祸?的触发, 而生成数据的。 @ 所采集到的数据, 从 “时间” 的纬度, 必需是要有 “延续性” 的。

所以⋯ @ 当我们所拥有的数据, 虽然是海量, 但, 我们却不知道, 这些数据是为何而产生的?更糟糕的是, 数据之间, 完全没办法, 经由 “时间”, 而归纳出 “人类行为的模式”。 这样的数据, 再如何的 “海量”, 也根本没法经由 “数据分析师”, 使用任何的数据分析工具, 建立出任何有效的数据模型;海量数据将永远没办法转换为有用的数据。

为什么谷歌能做得到? 因为, 谷歌有 “搜索引擎”⋯

“搜索引擎” 使得谷歌能⋯ @ 分析出产生海量数据, 其背后的用户的目的。 @ 能采集到随着 “时间” 的演进, 而持续生成的数据;人类的行为数据。

这也就是为什么:谷歌可以早ㄧ步的就能 “精准” 的预知到, 某种流行病, 接下来会在美国的那一州流行。

所以, 别再采集, 更别再存储: “海量”、“没目的”、“没意义”、“不持续性” 的数据了⋯

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-09-10 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档