专栏首页信息化漫谈用几张图看懂大数据技术

用几张图看懂大数据技术

我们做政企客户的解决方案支撑工作,一直在跟客户提到“大数据”,通过大数据就能将数据转化成推动精准营销、精准管理的利器。但实际,我们对大数据的理解有多少,今天我们用几张图帮助建立对大数据的技术理解。

一、我们对大数据的误解

在接触大数据之前,我们会简单将系统运行过程中产生的数据,经过分析后呈现出来,称为大数据。但以前,我一直在想这与Mysql、甚至一个简单的Excel存储数据后,再将查询数据吐出来,有什么区别?

二、大数据与传统数据分析的区别

1、数据量大:大数据量级一般会上到PB级别,而一般数据分析在GB、TB级别。

2、数据种类多:大数据一般涉及表格、图像等,而传统数据分析一般是规则的表格化数据。

3、数据增长快:像FaceBook一天就像增长500TB数据量,而传统数据分析基于表格数据,数据量每天增长在MB级别。

4、数据价值低:正是因为有视频图像有很多大量数据,真正有用的数据需要分析后才能知道,单位数据的价值量较低。

三、大数据技术架构与传统数据分析的架构有很大区别

我们做解决方案,有业务出身的人会强调大数据对客户的价值,比如分析某时段加油站岛的利用率分布情况,用于优化加油站岛的布局。但对后台的大数据的架构比较吃力。今天我们用几张的形象图形来展示大数据技术架构。

1、传统数据分析基于单机的存储或计算,性能存在瓶颈。

传统的数据量因为不大,而且主要基于表格等关系型数据,一般用一个性能较好的云主机+容量较大的硬盘或云关系型数据库能解决。

2、随着数据量的增长,总会面临存储的瓶颈,实现分布式存储。

硬盘的容量总有上限、计算机的处理能力也有上限,面临这样的问题,大数据提出将数据保存至不同的服务器中,实现横向扩展。

如下图,云主机2保存“中国啤酒”库存的资料,而云主机3只保存”外国啤酒“库存的资料,而云主机1保存以下资料的索引,这样数据量可以灵活的扩容。

3、在分布式存储的基础上,实现分布式计算,加快大型数据量的计算结果。

如果这时候我们统计各库存的啤酒数量,传统方式是依靠单机的性能,而大数据的方式是实现在存储数据的服务器上进行分布式计算,最后汇总即可。

此方式,对大数据量的计算,采用此方式很快,相当把一个大活分给了许多人同时干。但对于一些小型数据量的实时计算业务,该方式不适用,应采用另一种架构模型(实时计算)。

4、在云上,服务商提供了很多基于hadoop的paas软件,客户不用在云主机自行搭建大数据底层软件了。

搭建hadoop的底层环境也不是一个容易的事情,开源软件不同的版本存在兼容性问题,而且不同的应用场景也需要对hadoop进行针对性调优。

在今天的快时代,如果业务应用场景没有太大的个性化,建议尽量采用云服务商的hadoop套件。

本文分享自微信公众号 - 信息化漫谈(informationwalk),作者:新梦飞

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 淘宝大数据之流式计算

    到底什么是大数据?大数据与数据统计有什么区别?如果不理解大数据的承载底层技术,很难讲清楚。因此作为解决方案经理,技术与业务都是作为方案不可缺少的组成部分。今天我...

    希望的田野
  • 5G时代的云计算变了

    最近工作比较忙,到了周末,技术文章继续。最近研究了一下5G与边缘云计算的关系,有一些感触,分享出来。相信做对5G网络、云计算的同学,有所帮助,因为在5G时代做云...

    希望的田野
  • 你的上网行为就这样被采集走了

    1、被采集的数据主要是网页跳转数据:比如你从哪个网页跳转入该购物网站、你点击了哪些商品页面、在商品页面上停留了多少时间。

    希望的田野
  • 聊聊这一款能真正匹配大数据性能的BI工具

    最近在看关于大数据、数据仓库 、数据架构的《数据架构:大数据、数据仓库以及Data Vault》一书,关于大数据有些思考,结合FineBI的Spider引擎,可...

    数据分析的那些事儿
  • 某二手交易平台大数据平台从 0 到 1 演进与实践

    在人口流量红利不再,获客成本越来越高的时代,精益创业、MVP 的概念已经深入人心,精细化运营也是大势所趋,而这些背后本质上都依赖数据化运营,那如何根据现有业务,...

    江帅帅
  • 慧数汽车:解析大数据在汽车行业的应用领域

    “大数据”作为时下最时髦的词汇,开始向各行业渗透辐射,颠覆着很多特别是传统行业的管理和运营思维。大数据在汽车行业释放出的巨大价值吸引着诸多汽车行业人士的兴趣和关...

    拼命三郎
  • 大型IT企业内部数据分析的现状和发展趋势

    大数据时代,数据已经成为战略资源。掌握前沿科技的大型IT企业在数据的分析和利用上走在了时代的前列。笔者浸淫IT业十余年,近几年专注在数据分析平台研发和数据分析上...

    叶锦鲤
  • SQL自动化上线之alter语句

    关于SQL自动化上线,之前码了一篇简单的实现,发现大家对这块的关注还是比较多,通过一些反馈了解,感觉整体大家现在的SQL上线状态离自动化还有距离。

    jeanron100
  • Python(2):创建函数模块

    说明: 在使用python的时候我们除了使用内置的函数之外,可能还需要使用一些别人写的函数。或者我们写的代码也希望可以给其他人使用。要实现这样的功能,我们就需要...

    SecondWorld
  • 对话涂子沛:数据不是工具,是社会基石

    【悦读客】:2012年,您的著作《大数据》引发了人们对大数据的强烈关注与思考,是什么原因驱使您写作了第二本有关大数据的书籍《数据之巅》? 【涂子沛】:第一本书是...

    小莹莹

扫码关注云+社区

领取腾讯云代金券