#Hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

【赵强老师】什么是Spark SQL?

赵强老师

京东大学 · 大数据学院院长 (已认证)

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。

13070

Hadoop支持的压缩格式对比和应用场景以及Hadoop native库

大数据学习与分享

对于文件的存储、传输、磁盘IO读取等操作在使用Hadoop生态圈的存储系统时是非常常见的,而文件的大小等直接影响了这些操作的速度以及对磁盘空间的消耗。

12100

【赵强老师】Flink的Watermark机制(基于Flink 1.11.0实现)

赵强老师

京东大学 · 大数据学院院长 (已认证)

在使用eventTime的时候如何处理乱序数据?我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下...

24440

必须掌握的分布式文件存储系统—HDFS

大数据学习与分享

HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数...

12600

Hadoop源码编译全流程分享

江帅帅

首先准备一个hadoop源码包,我选择的hadoop版本是:hadoop-2.7.7-src.tar.gz,在hadoop-2.7.7的源码包的根目录下有一个文...

11630

【大数据】Spark优化经验&案例--数据倾斜

onephone

腾讯 · 工程师 (已认证)

47180

0759-Kafka2.3性能测试

Fayson

了解Kafka的性能指标可以很好的帮助你规划Kafka集群,但使用不同的消息大小,保留时间(retention periods),分区,复制因子,网络速度,甚至...

20530

HDFS原理 | 一文读懂HDFS架构与设计

大数据技术架构

HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非...

10910

Hadoop/Spark读写ES之性能调优

ethanzhang

腾讯 · 高级工程师 (已认证)

腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇

48320

大数据基石——Hadoop与MapReduce

TechFlow-承志

近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄...

10630

xargs 参数

sanmutongzi

hadoop fs -ls /source/recommend/at_access | awk -F "/" '{print $NF}' | grep -v $...

9830

COS助力HADOOP轻松实现数据存储

Hunter

腾讯云 · 高级工程师 (已认证)

1.2 如何在hadoop集群上实现简单的数据处理,通过 wordcount 实现测试。

25820

SpringBoot2 整合Kafka组件,应用案例和流程详解

知了一笑

Kafka是由Apache开源,具有分布式、分区的、多副本的、多订阅者,基于Zookeeper协调的分布式处理平台,由Scala和Java语言编写。通常用来搜集...

9010

MongoDB,我的道

MongoDB中文社区

但是事实说明了一切。这个用户的MongoDB集群从2015年上线以来,到2020年的今天,已经运行了5年时间。承载了每天的数据汇聚和数据同步(到检索服务),平均...

19520

聊聊 Hadoop 生态圈的历史之 Hive

哒呵呵

今天再聊聊 Hadoop 生态圈。话说前文已经提到了雅虎硬是用自己的业务把 Hadoop 搞出来了,最后也不知道什么原因把辛辛苦苦地弄出来的 Hadoop 给开...

8420

瞎扯 Hadoop 的历史

哒呵呵

在大数据领域里,Hadoop 是谁都绕不开的话题,它基本上已经成为了事实上的标准,无论是什么企业或者是个人,闭源开始开源,都不得不兼容Hadoop生态圈,即使是...

16120

架构杂记

solve

inveno · 大数据开发工程师 (已认证)

根据目前的情况看起来,国内普遍对于flink比较看好, 从实际情况来看,flink也是以后的发展方向, 但是目前Spark的活跃程度远高于Flink, 很...

9530

Snowflake,价值120亿美元的云端数据仓库公司

用户1564362

有人会问为什么Hadoop的生态圈里面就没有能够做出一个类似的产品来呢?Hadoop生态圈做的很多事情其实也和数据仓库差不多。只不过Hadoop的架构本身太基于...

46620

快速学习-Hive企业级调优

cwl_java

Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,H...

6720

快速学习-HDFS HA高可用

cwl_java

1)所谓HA(High Available),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的H...

6720

扫码关注云+社区

领取腾讯云代金券