专栏首页CSDN技术头条多图技术贴:深入浅出解析大数据平台架构

多图技术贴:深入浅出解析大数据平台架构

目录

  • 什么是大数据
  • Hadoop介绍-HDFS、MR、Hbase
  • 大数据平台应用举例-腾讯
  • 公司的大数据平台架构

“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

大数据的4V特征-来源

公司的“大数据”

随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

  1. 业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;
  2. 平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

……

三国里的“大数据”

“草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

Google分布式计算的三驾马车

  • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
  • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
  • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

Hadoop体系架构

Hadoop核心设计

HDFS介绍-文件读流程

Client向NameNode发起文件读取的请求。

NameNode返回文件存储的DataNode的信息。

Client读取文件信息。

HDFS介绍-文件写流程

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

MapReduce——映射、化简编程模型

输入数据-<Map分解任务-<执行并返回结果-<Reduce汇总结果-<输出结果

Hbase——分布式数据存储系统

Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

HMaster: 管理用户对表的增删改查操作

HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

HStore:HBase存储的核心。由MemStore和StoreFile组成。

HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

还有哪些NoSQL产品?

为什么要使用NoSQL?

一个高并发网站的DB进化史

关系模型<聚合数据模型的转换-基本变换

关系模型<聚合数据模型的转换-内嵌变换

关系模型<聚合数据模型的转换-分割变换

关系模型<聚合数据模型的转换-内联变换

Hadoop2.0

MapReduce: JobTracker:协调作业的运行。 TaskTracker:运行作业划分后的任务。

大数据的技术领域

腾讯大数据现状(资料来自2014.4.11 腾讯分享日大会)

腾讯大数据平台产品架构

腾讯大数据平台与业务平台的关系

公司数据处理平台的基础架构

公司大数据平台架构图

应用一数据分析

应用二视频存储

应用三离线日志分析

应用五在线数据分析

参考资料:京东基于Samza的流式计算实践

本文分享自微信公众号 - CSDN技术头条(CSDN_Tech)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【BDTC2016】科大讯飞大数据研究院副院长谭昶:讯飞大数据的实践与思考

    2016中国大数据技术大会首日全体会议中,上午最后一位演讲嘉宾来自科大讯飞大数据研究院副院长谭昶,他带来了《讯飞大数据的实践与思考》的主题分享。他从语言谈起,分...

    CSDN技术头条
  • 【BDTC 2015】大数据分析及生态系统分论坛:HBase、Spark、ES、Kylin技术生态

    2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

    CSDN技术头条
  • 大数据和开放数据有什么不一样?

    Q:大数据从哪来? A:任何地方。随着物联网兴起,任何以前不可能产生数据的东西或地方都可能「数据化」。天睿资讯(Teradata)首席技术长宝立明认为大数据的发...

    CSDN技术头条
  • 在企业中完成数据报告,数据分析师要怎么做?

    1、数据分析师需要进行思考 随着时代的发展,人们每天在互联网上产生大量的数据,对于企业来讲这些数据都是十分宝贵的资源。企业可通过数据挖掘进行战略调整以及营销部署...

    小莹莹
  • “忘掉大数据”之“建模术”:数据挖掘还原用户的生活场景

    建模无疑是大数据里面最艺术的部分,也是最令大数据从业者痴迷、得意的领域,一个好的模型就是一篇作品,是一首诗,令人心旷神怡。建模、模型并不是什么新鲜事...

    智能算法
  • 企业如何更好地制定大数据策略

    大数据策略会失败吗?是时候该讨论一下这个问题了。企业才刚刚掌握如何集成ERP(企业资源规划)及其他业务应用来消除业务流程中妨碍效率的孤岛。面向服务架构、软...

    静一
  • CV领域这样入门进阶才是对滴——系列2

    上次我们简单介绍了OpenCV及计算机视觉的定义,今天我们继续说说基础知识。今天主要讲Python和图像基本处理。

    计算机视觉研究院
  • 分布式文件系统监控

    分布式文件系统用来存储各种非结构化数据,例如海量的图片,海量的视频,海量的xml等数据。在这种分布式存储中,是不支持随机的读写的,要么直接覆盖,要么删除然后再...

    SRE运维实践
  • 基于WebGL的超逼真仿透明液体流动变形效果教程

    这是一款基于WebGL的超逼真液体流动变形效果。该效果使用PixiJS和GSAP来制作,以轮播图的方式来展现不同类型的液体流动变形效果。液体流动变形效果共5组...

    用户5997198
  • 从传统运维到云运维演进历程之软件定义存储(五)上

    数据资料是整个系统运作的核心,而人为或非人为引起的数据丢失将对的企业造成无法估量的影响。因此系统管理员都会考虑通过数据备份手段对业务数据进行保护。但在现在云数据...

    DevinGeng

扫码关注云+社区

领取腾讯云代金券