首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据下的数据分析平台架构

Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。...作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。 1....大数据分析大分类 Hadoop平台对业务的针对性较强,为了让你明确它是否符合你的业务,现粗略地从几个角度将大数据分析的业务需求分类,针对不同的具体需求,应采用不同的数据分析架构。...本文稍后将主要介绍Hadoop上基于MapReduce的一个多维数据分析平台。 数据分析的算法复杂度 根据不同的业务需求,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。...一种Hadoop多维分析平台的架构 整个架构由四大部分组成:数据采集模块、数据冗余模块、维度定义模块、并行分 析模块。

78810

六大主流大数据采集平台架构分析

今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般包括以下的几个过程...几乎在大部分的情况下ELK作为一个栈是被同时使用的。所有当你的数据系统使用ElasticSearch的情况下,logstash是首选。...在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。...在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。...总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

4.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    六大主流大数据采集平台架构分析

    几乎在大部分的情况下ELK作为一个栈是被同时使用的。所有当你的数据系统使用ElasticSearch的情况下,logstash是首选。...在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。...在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。...总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。...Splunk作为一个优秀的商业产品,它的数据采集还存在一定的限制,相信Splunk很快会开发出更好的数据收集的解决方案。 来源:36大数据 END 投稿和反馈请发邮件至hzzy@hzbook.com。

    1K40

    【推荐收藏】六大主流大数据采集平台架构分析

    几乎在大部分的情况下ELK作为一个栈是被同时使用的。所有当你的数据系统使用ElasticSearch的情况下,logstash是首选。...Chukwa基于Hadoop的HDFS和Map Reduce来构建(显而易见,它用Java来实现),提供扩展性和可靠性。Chukwa同时提供对数据的展示,分析和监视。...在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。...在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。...总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

    1.4K40

    六大主流大数据采集平台架构分析

    今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般包括以下的几个过程...几乎在大部分的情况下ELK作为一个栈是被同时使用的。所有当你的数据系统使用ElasticSearch的情况下,logstash是首选。...在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。...在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。...总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。

    7.2K81

    【推荐收藏】六大主流大数据采集平台架构分析

    几乎在大部分的情况下ELK作为一个栈是被同时使用的。所有当你的数据系统使用ElasticSearch的情况下,logstash是首选。...Chukwa基于Hadoop的HDFS和Map Reduce来构建(显而易见,它用Java来实现),提供扩展性和可靠性。Chukwa同时提供对数据的展示,分析和监视。...在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。...在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。...总结 我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

    1.3K20

    5大架构:细数数据平台的组成与扩展

    【译者介绍】 蔡延亮,北京大学计算机硕士毕业,明略数据技术合伙人。专注于大数据解决方案的研发和实施,拥有丰富的大数据分析平台建设实施经验。...熟悉商务智能(BI)系统的设计、架构和演进规划,擅长其在电信运营商的应用;在数据ETL处理、模型设计、数据备份、生命周期管理、安全管理等领域有丰富的实践经验;熟悉数据挖掘、机器学习等分析算法和工程应用;...这种方式有一个弊端是存储的数据量受限于内存的大小,数据量一大,索引也增大,数据就饱和了。 2)第二种方式是把大的索引结构,拆成很多小的索引来存储。...Druid就是一个很典型的例子,他是一个开源的、分布式的、实时的、列式存储的分析引擎。列式存储特别适合需要加载大的数据块,且数据块分到多个文件中的场景。...采取批处理模式的hadoop无疑是这种平台最广用和出色的代表了。 Hadoop平台提供快速的读写访问,廉价的存储,批处理流程,高吞吐信息流,和其他抽取、分析、处理数据的工具。

    1.5K80

    大数据架构平台架构设计和技术分析

    本文首先介绍了大数据架构平台的组件架构,让读者了解大数据平台的全貌,然后分别介绍数据集成、存储与计算、分布式调度、查询分析等方面的观点,最后是专家眼里大数据平台架构的发展趋势。...01 大数据平台架构 从图上可以看出,大数据架构平台分为:数据集成、存储与计算、分布式调度、查询分析等核心模块。我们就沿着这个架构图,来剖析大数据平台的核心技术。...更多:数据集成的 9大 ETL工具 03 数据处理:数据存储、计算 专家观点: ● Spark+数据湖是未来的发展方向。...06 大数据平台架构的发展趋势 最后,我们请专家们聊了一下大数据平台架构的发展趋势,专家们发表了以下看法: 1....Olap 场景是大数据平台架构整体的重点,未来的发展趋势如下: 如何算得更快; 如何存得弹性:如何做的像单机数据库,可以快速的线性扩展; Olap 基于云原生的架构体系,基础系统构建 ok,无限弹性。

    2.6K40

    大数据平台架构:数据平台建设的几种方案

    对于企业而言,基于大数据背景下的企业数据管理应用,也需要更加符合需求的数据平台建设方案。...2、敏捷型数据集市 数据集市也是常见的一种方案,底层的数据产品与分析层绑定,使得应用层可以直接对底层数据产品中的数据进行拖拽式分析。...4、Hadoop分布式系统架构 当然,大规模分布式系统架构,Hadoop依然站在不可代替的关键位置上。雅虎、Facebook、百度、淘宝等国内外大企,最初都是基于Hadoop来展开的。...Hadoop生态体系庞大,企业基于Hadoop所能实现的需求,也不仅限于数据分析,也包括机器学习、数据挖掘、实时系统等。...15.jpg 关于大数据平台架构,数据平台建设的几种方案,以上就为大家做了一个简单的介绍了。

    2.8K51

    跨数据中心下的 Kafka 高可用架构分析

    导语 本文介绍了 Kafka 跨数据中心的两种部署方式,简要分析两种方式下的不同架构以及优缺点,对这些架构可能碰到的问题也提供了一些解决思路;同时也说明了 Kafka 跨数据中心部署的社区解决方案和商业化解决方案...单集群的高可用讨论得比较多,但跨数据中心的方式比较多,相对复杂。本文希望借由对 Kafka 跨数据中心高可用架构的分析,为以上场景的解决方案提供一些思路。...高可用性(High Availability): 一个高度可用的系统即使在出现故障的情况下也可以连续运行。在多区域架构的上下文中,高可用性应用程序即使在整个区域故障期间也可以运行。...在 2.5AZ 的部署架构下,如果副本数设为3,并且 Acks=all,min.insync.replicas=2,那么3副本的分布为2+1。...总结 本文介绍了 Kafka 跨数据中心的两种部署方式,简要分析了两种方式下的不同架构以及优缺点,对这些架构可能碰到的问题也提供了一些解决思路;同时也说明了 Kafka 跨数据中心部署的社区解决方案和商业化解决方案

    1.8K11

    微服务下的数据架构

    ,旨在帮助大家在构建微服务架构时,提供一个从数据方面的视角: 微服务定义 微服务的优势及架构特点 微服务架构下的数据设计 选择一个合适的数据库 什么是微服务?...,提供给分析平台使用。...Decentralized 去中心数据治理 数据的管理在微服务架构下也是和传统单体有很大的不同考量。...如果是多个数据库,我是否为每一个微服务挑选一个最合适的数据库,还是选择同一种类型的数据库? 我如何在微服务架构下扩展我的数据库?...微服务扩展你的数据 微服务架构的一大裨益是其灵活的扩展性。以上面的 Snapchat 为例,如果需要采集或处理的数据量快速增长,在我们增加应用服务实例的同时,支撑数据存储的模块也要相应扩充。

    50820

    数据架构的三大纠缠趋势:数据网格、数据编织和混合架构

    他们在处理必须使用混合架构的现实时,被关于看似独立的新趋势(如数据网格和数据编织)的文献轰炸。这些趋势中的每一个都声称是其数据架构的完整模型,以解决“一次无处不在”的问题。...定义的混合数据架构 “现代数据”的想法是,那些不是在云中诞生或无法完全迁移到云的公司都是在吹捧混合架构的公司。但即使所有计算和存储资源的最终目的地是云,也将有一个不平凡的过渡期。...混合架构应允许研发团队订阅销售数据,并在源数据更改时自动复制数据。 混合架构是用于摄取、存储、处理、管理和可视化不同形式因素的数据的技术选择——在本地以及多个云中,可能会根据需要复制数据。...因此,混合架构可以被认为是跨多种形式因素的数据编织的实现。 混合架构可以允许数据生产者在数据中心的本地数据仓库中生成数据和表,并允许云中的数据消费者订阅这些表。...消费者订阅数据生产者生产的数据产品。 混合架构的不同定义是什么? 混合数据架构有很多定义。混合有严格的定义,能够在不同位置之间自动无缝迁移数据工作负载,例如从本地部署到任何云,或从一个云到另一个云。

    1.6K10

    剖析大数据平台的数据分析

    无论是采集数据,还是存储数据,都不是大数据平台的最终目标。失去数据处理环节,即使珍贵如金矿一般的数据也不过是一堆废铁而已。...机器学习与常见的数据分析稍有不同,通常需要多个阶段经历多次迭代才能得到满意的结果。下图是深度分析的架构图: ? 针对存储的数据,需要采集数据样本并进行特征提取,然后对样本数据进行训练,并得到数据模型。...场景驱动数据处理 不同的业务场景(业务场景可能出现混合)需要的数据处理技术不尽相同,因而在一个大数据系统下可能需要多种技术(编程模型)的混合。...场景2:Airbnb的大数据平台 Airbnb的大数据平台也根据业务场景提供了多种处理方式,整个平台的架构如下图所示: ?...Spark集群则为Airbnb的工程师与数据科学家提供机器学习与流处理的平台。 大数据平台的整体结构 行文至此,整个大数据平台系列的讲解就快结束了。

    1.2K60

    大数据平台搭建:基于Hadoop的数据分析平台

    15.jpg 企业要进行大规模的数据分析,基于开源的Hadoop及其生态圈来搭建起大数据系统平台,无疑是一种低成本高效率的选择。...Hadoop大数据平台 Hadoop在大数据技术生态圈,经过这么多年的发展,基础核心架构的地位,依然稳固。...针对不同的具体需求,采用不同的数据分析架构和框架组件来解决实际问题。 大数据分析平台需求规划 按照数据分析的时效性需求,大数据分析可分为实时数据分析和离线数据分析两种。...对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,可采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。...在这类场景下,Hadoop无疑是就是低成本的高效解决方案了。 9.jpg 关于大数据平台搭建,基于Hadoop的数据分析平台,以上就是今天的分享内容了。

    2.1K1410

    大数据平台的整体架构介绍

    本文不依托于任何一家大厂的平台架构,用通俗的语言介绍一下大数据平台的整体架构。 总体来说,大数据平台可以分为四个部分: 数据采集、数据处理、数据输出和任务调度管理。 ?...日志数据 日志是大数据平台重要数据来源之一,应用程序日志一方面记录各种程序执行状况,一方面记录用户的操作轨迹。Flume 是日志收集常用的工具。 3....前端程序埋点 所谓前端埋点,是应用前端为了进行数据统计和分析采集数据。 4. 爬虫系统 通过网络爬虫获取外部数据用于行业数据支撑,管理决策等。 数据处理 分为离线计算和实时计算两类: 1....除了给用户提供数据,大数据平台还需要在一些后台系统中给运营和决策层提供各种统计数据,这些数据也写入数据库,被相应的后台系统访问。...简单的大数据平台任务调度管理系统其实就是一个类似 Crontab 的定时任务系统,按预设时间启动不同的大数据作业脚本。复杂的大数据平台任务调度还要考虑不同作业之间的依赖关系。

    2.8K10

    【数据分析】大数据下的用户行为分析

    用户行为分析平台主要面临海量数据处理困难、分析模型算法复杂、建设和运营成本高昂等方面的技术难点和挑战。...(3)思路:利用Nosql数据库解决大数据存储,通过水平扩展读写负载提高访问性能; 分析模型算法复杂: (1)问题:分析需要运用预警预测、聚类、协同过滤等数据挖掘算法,算法的编程复杂度和计算复杂度都非常大...数据挖掘算法的编程复杂度和计算复杂度都非常大,往往称为制约分析项目按期完成的瓶颈,精细化运营分析平台利用支持Hadoop并行计算框架的开源数据挖掘模型数据库Mahout,实现了数据挖掘算法的快速实施和高效表现...用户行为分析平台建立了大量的分析主题,分析结果的呈现能力对平台的应用效能影响重大。...利用研制管理决策支持系统的经验,我们可以提供灵活可制定的报表编制和数据展现方式,并建立了主动推送和移动跨平台访问结合的数据访问能力,提高分析材料的生成和呈现速度。

    2.7K90

    大数据平台架构的组成

    大数据平台是什么?有哪些组成? 01 大数据平台 是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。...典型的包括Hadoop系列、Spark、Storm、Flink以及Flume/Kafka等集群。 02 典型大数据平台架构 ? 由上到下,可分为三个部分:数据搜集、数据处理、数据输出与展示。...-1 数据采集 将应用程序发作的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。...-2 数据处理 这部分是大数据存储与核算的核心,数据同步系统导入的数据存储在 HDFS。MapReduce、Hive、Spark 等读取 HDFS 上的数据进行核算,再将计算结果写入 HDFS。 ?...数据同步导出相对比较简单,核算发生的数据都比较标准,稍作处理就可以用 Sqoop 之类的体系导出到数据库。这时,应用程序就可以直接拜访数据库中的数据,实时展现给用户。 ?

    2.7K31

    存算分离架构下的数据湖架构

    日前,腾讯云高级工程师程力老师在 ArchSummit 全球架构师峰会上分享了存算分离架构下的数据湖架构。...针对存算分离架构带来的性能问题和数据本地性减弱问题,腾讯云的数据湖方案设计构建了新一代分布式计算端缓存层。...该缓存不仅兼容 Hadoop 和对象语义,同时具备了结构化元数据管理的特性,还充分利用了对象存储 COS 的弹性伸缩和低成本的优势。 下面,让我们一起回顾下程老师的精彩演讲内容。...第三阶段:数据湖,存储统一 随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。...二、云原生生态下的存算分离 腾讯云上的数据湖生态如上图所示, 数据湖底座:对象存储 COS; 云原生:serverless 架构,免运维; 数据共享:通过统一的对象存储 COS 作为弹性底座,结合三层加速器接入多种生态

    3K30
    领券