#Hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

Apache Kylin 入门介绍与学习资源

Yajun_

近日 Kylin v2.6.4 版本发布,包含很多问题修复与各种改进。翻阅三年前写的Kylin测试文档,当时版本还是1.5.3。近两年 Kylin 版本迅速迭代...

300

新技术加速隐私暴露,如何应对?(一)

数据猿

最近的大数据行业风声鹤唳,多家大数据服务头部企业、贷超、催收公司被查,引发行业地震,未被牵连的企业纷纷自查,其他头部公司黑稿和纠纷频出。从业者如惊弓之鸟,人人自...

1300

Hadoop已死?Hadoop万岁!

昱良

百度 · 研发工程师 (已认证)

Gartner分析师Merv Adrian喜欢讲述这样一个故事,一个客户说他最喜欢的“Hadoop应用程序”就是在S3中使用了带有Spark的Tensorflo...

3230

手把手教你入门Hadoop(附代码&资源)

昱良

百度 · 研发工程师 (已认证)

Hadoop是目前最流行的大数据软件框架之一,它能利用简单的高级程序对大型数据集进行分布式存储和处理。本文将介绍Hadoop的核心概念,描述其体系架构,指导您如...

8150

一文带你搞清楚什么是“数据倾斜”

用户2769421

我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾...

7130

大数据平台下的数据治理

物流IT圈

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

8620

用几张图看懂大数据技术

希望的田野

我们做政企客户的解决方案支撑工作,一直在跟客户提到“大数据”,通过大数据就能将数据转化成推动精准营销、精准管理的利器。但实际,我们对大数据的理解有多少,今天我们...

11240

一文带你搞清楚什么是“数据倾斜”

Sam Gor

我们在用hive取数的时候,有的时候只是跑一个简单的join语句,但是却跑了很长的时间,有的时候我们会觉得是集群资源不够导致的,但是很大情况下就是出现了"数据倾...

10320

(译)优化ORC和Parquet文件,提升大SQL读取性能

用户6072933

本文编译自IBM开发者社区,主要介绍了HDFS中小的ORC和Parquet文件的问题,以及这些小文件如何影响Big SQL的读取性能,并探索了为了提高读取性能,...

8130

Giraph源码分析(一)— 启动ZooKeeper服务

数澜科技

Apache Giraph is an iterative graph processing system built for high scalability...

8430

系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

用户1564362

☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ]

10720

Hbase入门(二)——安装与配置

实时计算

本文讲述如何安装,部署,启停HBase集群,如何通过命令行对Hbase进行基本操作。

6920

程序员的鄙视链

youngda

用 Spark 的工程师鄙视用 Hadoop 的工程师,用 Hadoop 的工程师鄙视用 Hadoop 处理只有几 GB 数据的工程师,用 Hadoop 处理只...

9810

Zookeeper的应用场景

加米谷大数据

Hadoop客户端连接集群时指定Zookeeper服务器地址,从Zookeeper获取当前Master节点地址,进而连接Master操作Hadoop。Hadoo...

6020

大数据学习:HDFS是个啥?

加米谷大数据

Hadoop分布式文件系统(HDFS)是一种基于Java的分布式文件系统,它具有容错性、可伸缩性和易扩展性等优点,是一个分布式存储的Hadoop应用程序,它提供...

9420

初识Hadoop

爱学习的孙小白

高速性(velocity):大数据要求处理速度快,比如淘宝双十一需要实时显示交易数据

7220

Mac搭建Hadoop环境

week

腾讯 · 算法工程师 (已认证)

Hadoop 需要 Java 版本在1.6或以上, 运行java -version 在你的终端中,它会显示你电脑上安装的Java版本

8630

系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreaSets ]

11530

使用 Kubernetes 部署 Flink 应用

王知无

Flink 提供了一个官方的容器镜像,可以从 DockerHub 上下载。我们将以这个镜像为基础,构建独立的脚本镜像,将打包好的 Jar 文件放置进去。此外,新...

6830

如何使用 Kubernetes 部署 Flink 应用

zhisheng

Flink 提供了一个官方的容器镜像,可以从 DockerHub 上下载。我们将以这个镜像为基础,构建独立的脚本镜像,将打包好的 Jar 文件放置进去。此外,新...

8110

扫码关注云+社区

领取腾讯云代金券