大数据开发

83 篇文章
8.1K 次阅读
13 人订阅

全部文章

成都加米谷大数据

大数据开发:MapReduce排序问题详解

Hadoop MapReduce,作为分布式计算的第一代引擎,其经典的地位是不容动摇的,而越是经典越是有代表性的东西,也就越需要去深入理解其中的原理和运行机制。...

3310
成都加米谷大数据

大数据开发:OLAP分析引擎ClickHouse入门

作为这几年热度颇高的一款开源产品,ClickHouse在国内的互联网大厂也陆续有被使用。在大数据学习阶段,也不妨多了解一下ClickHouse,下面我们主要来对...

5630
成都加米谷大数据

大数据开发:OLAP分析引擎Apache Kylin入门

在OLAP分析引擎领域,Apache Kylin可以说是一个重要的成员,相比于大规模并行处理指导思想下的Hive、Presto等组件,Apache Kylin采...

7220
成都加米谷大数据

大数据开发:分布式OLAP查询引擎Presto入门

在之前的《大数据开发:OLAP开源数据分析引擎简介》一文当中,我们对主流的一些开源数据分析查询引擎做了大致的介绍,今天的大数据开发分享,我们具体来讲解其中的Pr...

10620
成都加米谷大数据

大数据开发:HDFS Namenode元数据管理

HDFS作为分布式文件系统的代表性产品,在大数据学习当中的重要性是不言而喻的,基于Hadoop基础架构,HDFS更是得到了广泛的认可,在大规模离线数据处理上,提...

5820
成都加米谷大数据

大数据开发:HDFS数据写入流程详解

HDFS作为Hadoop的分布式文件系统,其在大数据平台当中的地位是显而易见的。面对越来越大规模的数据存储任务,HDFS的高可靠性和高性能依然值得称赞,这也与H...

8040
成都加米谷大数据

大数据开发:OLAP开源数据分析引擎简介

针对于不断新增的海量数据资源,企业需要通过及时地数据分析处理,才能从中挖掘出价值线索,反哺业务,实现数据驱动业务发展。而企业级的数据分析场景,多是采用OLAP数...

9500
成都加米谷大数据

大数据开发:分布式文件存储系统简介

在分布存储式存储技术体系当中,分布式文件存储是其中的分类之一,也是大数据架构当中常常用到的。得益于Hadoop的高人气,Hadoop原生的HDFS分布式文件系统...

6910
成都加米谷大数据

大数据开发:Apache Kafka分布式流式系统

Kafka在大数据流式处理场景当中,正在受到越来越多的青睐,尤其在实时消息处理领域,kafka的优势是非常明显的。相比于传统的消息中间件,kafka有着更多的潜...

5000
成都加米谷大数据

Java大数据开发:Java基础类库和API

作为大数据重要基础的Java语言,在大数据学习当中的重要性还是非常高的。Java作为一门有着悠久历史的语言,想要学好还是有很多可参考借鉴的学习思路的。今天的Ja...

6100
成都加米谷大数据

大数据开发:Kafka工作原理入门

Kafka在大数据技术生态当中,以作为消息系统而闻名,面对活跃的流式数据,提供高吞吐量的服务,在实时大数据处理场景下,可以说是一大利器,国内外大厂都有应用。今天...

10320
成都加米谷大数据

大数据开发:基于Hadoop的数仓设计

企业级的大数据平台,Hadoop至今仍然占据重要的地位,而基于Hadoop去进行数据平台的架构设计,是非常关键且重要的一步,在实际工作当中,往往需要有经验的开发...

5400
成都加米谷大数据

大数据开发:Java基础数据类型

在Java基础入门学习阶段,Java基础数据类型无疑是基础当中的重点,掌握基础数据类型,对于后续去理解和掌握更深入的理论,是有紧密的关联性的。今天的大数据开发学...

12430
成都加米谷大数据

大数据开发:Flink on Yarn原理

在流计算越来越受到重视的大趋势下,Flink框架受到的关注和重视,可以说是与日俱增,在大数据的学习当中,Flink也成为重要的一块。今天的大数据开发分享,我们主...

6100
成都加米谷大数据

大数据开发:MapReduce任务流程

作为Hadoop生态核心组件的MapReduce,是实现大数据计算处理的主要引擎,其核心思想是“分而治之”,简单来说就是分为Map和Reduce两个阶段。今天的...

6710
成都加米谷大数据

大数据开发:HDFS的故障恢复和高可用

作为分布式文件系统的HDFS,在Hadoop技术生态当中,始终是不容忽视的。HDFS的稳定性和可靠性,对于后续的数据处理环节,提供底层支持,起着至关重要的作用。...

8340
成都加米谷大数据

大数据开发:Hive小文件合并

Hadoop生态技术体系下,负责大数据存储管理的组件,涉及到HDFS、Hive、Hbase等。Hive作为数据仓库工具,最初的存储还是落地到HDFS上,这其中就...

9930
成都加米谷大数据

大数据入门:HDFS架构演进之路

Hadoop的核心三大组件之一,HDFS主要负责分布式文件存储,将大规模的数据存储任务拆分成小块,分布到不同的机器上,从而以低成本的方式解决大数据存储问题。今天...

3800
成都加米谷大数据

大数据入门:HDFS文件管理系统简介

Hadoop作为大数据主流的基础架构选择,至今仍然占据着重要的地位,而基于Hadoop的分布式文件系统HDFS,也在大数据存储环节发挥着重要的支撑作用。今天的大...

10430
成都加米谷大数据

大数据入门:Hbase Rowkey设计

在Hadoop技术生态体系当中,Hbase作为分布式数据库而存在,也可以说是业界最早最经典的一个分布式数据库。Hbase的原型来自Google的BigTable...

6610

扫码关注云+社区

领取腾讯云代金券