#Hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

大数据概念解析之数据仓库简介

成都加米谷大数据

在大数据系统平台当中,数据存储、数据库、数据仓库是非常重要的概念,共同支持大数据存储的实际需求。在大数据处理当中,大数据存储这个环节,数据仓库技术起到重要的作用...

4820

大数据核心技术之分布式基础入门

成都加米谷大数据

大数据技术的核心,离不开分布式理论。大数据从概念走向落地,也是因为大数据技术的成熟,换句话说,就是大数据技术使得大规模数据处理成为可能,而大数据技术背后的核心,...

8130

从Hadoop到Spark,大数据技术发展概况

成都加米谷大数据

大数据从概念走向落地,得益于大数据技术的成熟,尤其是以Hadoop为代表的第一代大数据系统框架,为大数据在企业当中的现实落地,提供了稳固的技术支持,而随着大数据...

86110

大数据平台搭建:基于Hadoop的数据分析平台

成都加米谷大数据

互联网的发展,带来了各种数据的爆发式增长,所有接入互联网的相关操作行为,都化为虚拟的数据被记录了下来。大数据时代的带来,一个明显的变化就是全样本数据分析,面对T...

100110

【赵强老师】Flink的DataSet算子

赵强老师

京东大学 · 大数据学院院长 (已认证)

Flink为了能够处理有边界的数据集和无边界的数据集,提供了对应的DataSet API和DataStream API。我们可以开发对应的Java程序或者Sca...

133120

分布式文件系统FastDfs

公众号 IT老哥

随着文件数据的越来越多,通过tomcat或nginx虚拟化的静态资源文件在单一的一个服务器节点内是存不下的,如果用多个节点来存储也可以,但是不利于管理和维护,所...

8320

【赵强老师】什么是Spark SQL?

赵强老师

京东大学 · 大数据学院院长 (已认证)

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

14290

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

大数据学习与分享

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

13410

【赵强老师】Flink的Watermark机制(基于Flink 1.11.0实现)

赵强老师

京东大学 · 大数据学院院长 (已认证)

在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下...

576950

必须掌握的分布式文件存储系统—HDFS

大数据学习与分享

HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数...

14100

Hadoop源码编译全流程分享

江帅帅

首先准备一个hadoop源码包,我选择的hadoop版本是:hadoop-2.7.7-src.tar.gz,在hadoop-2.7.7的源码包的根目录下有一个文...

13430

【大数据】Spark优化经验&案例--数据倾斜

onephone

腾讯 · 工程师 (已认证)

53880

0759-Kafka2.3性能测试

Fayson

了解Kafka的性能指标可以很好的帮助你规划Kafka集群,但使用不同的消息大小,保留时间(retention periods),分区,复制因子,网络速度,甚至...

23730

HDFS原理 | 一文读懂HDFS架构与设计

大数据技术架构

HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非...

13610

Hadoop/Spark读写ES之性能调优

ethanzhang

腾讯 · 高级工程师 (已认证)

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

71330

大数据基石——Hadoop与MapReduce

TechFlow-承志

近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄...

12230

xargs 参数

sanmutongzi

hadoop fs -ls /source/recommend/at_access | awk -F "/" '{print $NF}' | grep -v $...

10830

COS助力HADOOP轻松实现数据存储

Hunter

腾讯云 · 高级工程师 (已认证)

1.2 如何在hadoop集群上实现简单的数据处理,通过 wordcount 实现测试。

35520

SpringBoot2 整合Kafka组件,应用案例和流程详解

知了一笑

Kafka是由Apache开源,具有分布式、分区的、多副本的、多订阅者,基于Zookeeper协调的分布式处理平台,由Scala和Java语言编写。通常用来搜集...

9910

MongoDB,我的道

MongoDB中文社区

但是事实说明了一切。这个用户的MongoDB集群从2015年上线以来,到2020年的今天,已经运行了5年时间。承载了每天的数据汇聚和数据同步(到检索服务),平均...

22920

扫码关注云+社区

领取腾讯云代金券