【周末漫谈】一篇漫画,读懂大数据

大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。

大数据通常都拥有海量的数据存储。仅根据2013年的统计,互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。

面对这样规模的数据存储量,依靠单台数据库服务器显然是不够的,需要以分布式文件系统(例如 HDFS)作为基石。

在传统的关系型数据库中,所存储的数据都是结构化的,例如:

但是在现实生活中,信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为:

用户张三, 于某某时间在商品搜索栏搜索了“苹果手机”一词,然后进入 XXX 商铺进行浏览,经过与店家沟通,讨价还价,最终以6000元的价格购买了 iPhone 7 “钢琴黑”款式手机一部。

诸如此类的用户行为数据属于非结构化数据,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 HBase)成为了存储大数据的更好选择。

如果没有更加快速有效的海量数据解决方案,那么如此大量多样的数据不但没有带来更多价值,反而成为了系统的负担。关于这一点,谷歌公司率先提出的MapReduce模型为我们带来了新的道路。

MapReduce可以简单的理解成一种分治方法:把庞大的任务分成若干小任务,交给多个节点进行并行处理,然后再把所有节点的处理结果合并起来,从而大大提升了数据处理效率。(关于MapReduce的详细流程,将会在以后的文章中进行讲解。)

人工智能:

以大数据作为机器学习的训练集,从而训练出拥有一定决策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通过大量围棋棋局的学习,最终拥有了打败围棋世界冠军的能力。

商业分析:

从大量的用户行为数据中挖掘出有价值的商业信息。典型代表是著名社交公司LinkedIn,他们通过用户之间的关联关系,绘画出学校、公司、人才之间庞大而复杂的信息网络。不仅如此,LinkedIn还通过大量求职者和招聘方的信息,分析出哪些公司正在迅速扩张,哪些公司正在流失人才,哪些公司之间正在展开人才市场的争夺。这些对于客户公司来说,都是无价之宝。

犯罪预测:

洛杉矶警察局曾经借助一套原本用于预测地震后余震的大数据模型,把过去80年内的130万个犯罪记录数据输入进去,结果发现其预测出的犯罪高发地点与现实惊人的吻合。后来该预测算法经过改进,已经成为了当地警局重要的参考依据,大大降低了当地的犯罪率。

这里所介绍的相关知识,只是作者对于大数据领域的浅层次理解。通过这篇漫画,希望没有从事过IT行业,或者不了解大数据的朋友们能够对大数据有一些初步的认知。

本文来源:钱塘号

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2017-07-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

十款卓越工具助力大数据与分析技术

数据已经成为现代化企业中最为重要的宝贵资源。一切决策、策略或者方法都需要依托于对数据的分析方可实现。随着“大数据分析”逐步替代其上代版本,即“商务智能”,企业正...

39911
来自专栏PPV课数据科学社区

数据科学家养成记:成为数据科学家八步走

但如何能成为一个数据科学家呢? 首先,各个公司对数据科学家的定义各不相同,当前还没有统一的定义。但在一般情况下 ,一个数据科学家结合了软件工程师与统计学家的综合...

3638
来自专栏BestSDK

10款最好用的,开源大数据分析工具

考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的大数据收集与分析工具。然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成大...

3356
来自专栏大数据挖掘DT机器学习

写给刚入门的数据分析师的几点建议

1.数据是有立场的,立场决定解读 数据对于业务来讲,是KPI的衡量标杆,也是行动指南。但一旦涉及到立场和方向性的东西,必然有利益触发点的问题。比如同样的一次活动...

2986
来自专栏前沿技墅

踏上架构旅途 思考从未止步

普通程序员是编写代码的人。编写代码的方式有很多,只要能让程序跑起来,能正确地处理业务流程和对数据进行计算,就可以说“会编写代码”。程序员需要熟悉整个程序的逻辑及...

632
来自专栏PPV课数据科学社区

【R应用】R 语言企业级数据挖掘应用

有奖转发活动 回复“抽奖”参与《2015年数据分析/数据挖掘工具大调查》有奖活动。 三月底参加了中国人民大学统计学院海峡两岸数据挖掘研讨会,和大家简单聊了聊R语...

2715
来自专栏大数据文摘

业界丨身为数据科学家怎么能不掌握这四大技能!

1214
来自专栏大数据文摘

【大数据100分】大数据架构及行业大数据应用(中级教程)

27615
来自专栏数据派THU

数据蒋堂 | 不要对自助BI期望过高

来源:数据蒋堂 作者:蒋步星 本文长度为1800字,建议阅读5分钟 本文分三个层面讨论自助BI是否能够真正满足用户需求。 从早期的多维分析(OLAP)到近年来的...

16810
来自专栏数据猿

【案例】恒丰银行——运营风险监测系统

数据猿导读 在当前金融大背景下,我国商业银行正处于大幅调整阶段,面临不确定、不稳定因素正在不断增加,监管机构与公众日益认识到运营风险正成为金融机构面临的最大威胁...

2805

扫码关注云+社区