最近一直流行一个很火的词“大数据”,一问周围人却发现大家也说不出个所以然来,于是小编精心搜集了大量资料,和读者一起来探讨这大数据时代该怎么玩?
▼
首先,都说大数据,那么,数据到底大到何种境地了呢?
如果我们以1byte为计量单位的话
当我们还在计较几百MB的流量时(鄙视个别土豪秀GB级的流量),已经有人在研究BB级数据啦!!!
什么!你还不知道什么是BB?!有图有真相!!!
看到这里,小编此刻的表情是这样的
通常来说,我们口中的大数据至少是TB级别的。那么问题来了,要这么多数据做甚?
▼
一、做一个聪明的卖方——更好地挖掘客户的潜在需求
不知你有没有思考过我们在某宝购物时看到的这类东西。。。
还有Teradata公司著名的“啤酒与尿布”的案例
通过分析大数据能更好地了解客户的偏好和行为,方便企业做出预测和决策。
▼
二、改善我们的生活——提高医疗和研发
谷歌公司通过对“感冒”、“受凉”等关键词分析,准确地得出了全球流感发展趋势。
利用可穿戴式装备可追踪我们自身的数据。
▼
关键的问题来了,如此惊人的数据该如何处理呢?
简单来说,数据分析通常都分为采集、处理和储存三个环节。
2003年至2004年,谷歌发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文。MapReduce是分布式计算框架,GFS是分布式文件系统,BigTable是数据储存系统。
现主流的三大分布式计算系统:Hadoop、Spark和Storm。
▶Hadoop常用于离线的复杂的大数据处理,Yahoo、Facebook、Amazon以及国内的百度、阿里等公司都是以Hadoop为基础搭建自己的分布式计算系统。
▶Spark常用于离线的快速的大数据处理,Spark用内存储存数据,其运算速度超过Hadoop100倍。
▶Storm常用于在线的实时的大数据分析,是Twitter主推的分布式计算系统。
总而言之一句话,大数据让我们的生活更美好~
文/东怡文
编辑/王斐
PPV课其他精彩文章:
1、回复“干货”查看干货 数据分析师完整知识结构
2、回复“答案”查看大数据Hadoop面试笔试题及答案
3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝
4、回复“可视化”查看数据可视化专题-数据可视化案例与工具
5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限
6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布
7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载
8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募
9、回复“每日一课”查看【每日一课】手机在线视频集锦
PPV课大数据ID: ppvke123 (长按可复制)
大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!