#Hadoop

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。

【赵强老师】HBase的体系架构

赵强老师

京东大学 · 大数据学院院长 (已认证)

HBase是一个基于HDFS之上的分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“BigTable大表”,即:把所有的...

11050

安装和体验hive-1.2

程序员欣宸

Hive是种基于Hadoop的数据仓库工具,将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

8630

大数据开发:Hadoop技术原理简介

成都加米谷大数据

在大数据技术体系当中,Hadoop技术框架无疑是重点当中的重点,目前主流的大数据开发任务,都是基于Hadoop来进行的。对于很多初入门或者想要学习大数据的同学们...

6220

大数据开发:Hadoop数据分析应用场景

成都加米谷大数据

基于Hadoop来开发企业大数据平台,是现在大部分企业的选择,一方面是因为可以节约成本,另一方面则是因为Hadoop生态系统对于企业大数据处理的各种需求,都能基...

7620

大数据开发:大数据Hadoop好学吗?

成都加米谷大数据

在大数据技术体系当中,Hadoop无疑是占据着非常重要的位置。从2005年Hadoop项目诞生开始,到如今发展到相对成熟稳定的阶段,Hadoop技术在大数据处理...

9630

大数据开发:Hadoop架构如何提高数据吞吐量?

成都加米谷大数据

Hadoop架构在目前的大数据处理上,具有极大的优势,其中主要的一个原因就是Hadoop解决了系统进行数据处理的数据吞吐量的问题。海量的大数据通过Hadoop架...

9320

大数据开发:Hadoop处理数据的优势是什么?

成都加米谷大数据

Hadoop之所以大数据时代得到重用,很大程度上来说,就是因为在Hadoop在大数据处理上有很大的优势,针对大规模、多样化的大数据,进行高效准确的处理。那么Ha...

900

大数据开发:基于Hadoop的机器学习框架

成都加米谷大数据

在很多人的理解当中,Hadoop相关性最高的是大数据,但实际上在机器学习上,Hadoop同样有着很不错的应用价值,因为机器学习当中也涉及到大批量的数据处理,而这...

7830

hive学习笔记之十一:UDTF

程序员欣宸

如果您不想自己搭建kubernetes环境,推荐使用腾讯云容器服务TKE:无需自建,即可在腾讯云上使用稳定, 安全,高效,灵活扩展的 Kubernetes 容器...

7500

大数据开发:Hadoop数据写入和数据读取流程

成都加米谷大数据

基于Hadoop开发自己的企业大数据平台,这是现如今很多企业刚开始做大数据的选择,而在Hadoop系统框架当中,Hadoop实现数据处理的原理和技术,更是很多同...

5820

hive学习笔记之十:用户自定义聚合函数(UDAF)

程序员欣宸

执行结果如下,可见guangdong的guangzhou和shenzhen总长度为17,jiangsu的nanjing为7,shanxi的xian和hanzho...

6520

大数据开发:Hadoop Hive和Spark的对比

成都加米谷大数据

在大数据处理框架不断更新和优化的过程中,Hadoop和Spark之间既有竞争关系,也有相互协同的需求。比方说Hive和Spark,在一段时间内,很多人认为Spa...

8420

hive学习笔记之九:基础UDF

程序员欣宸

如果您不想自己搭建kubernetes环境,推荐使用腾讯云容器服务TKE:无需自建,即可在腾讯云上使用稳定, 安全,高效,灵活扩展的 Kubernetes 容器...

5000

hive学习笔记之八:Sqoop

程序员欣宸

Sqoop是Apache开源项目,用于在Hadoop和关系型数据库之间高效传输大量数据,本文将与您一起实践以下内容:

5050

hive学习笔记之七:内置函数

程序员欣宸

如果您不想自己搭建kubernetes环境,推荐使用腾讯云容器服务TKE:无需自建,即可在腾讯云上使用稳定, 安全,高效,灵活扩展的 Kubernetes 容器...

7830

hive学习笔记之六:HiveQL基础

程序员欣宸

结果如下,可见不会根据student表的addressid字段值去address查找记录,而是将addrerss的记录全部连接一次:

6800

通过数据组织优化加速基于Apache Iceberg的大规模数据分析

鱼跟猫

数据湖(Data lake)是一种将数据以原始格式存储在同一个系统或存储库的设计思想。它可以实现在一份数据之上进行多种数据计算,以避免为了多种计算场景而导致数据...

241140

大数据入门:Hadoop是如何工作的?

成都加米谷大数据

海量数据价值的挖掘,需要大数据技术框架的支持,在目前的大数据平台搭建上,Hadoop是主流的选择之一,而精通Hadoop的大数据人才,也是企业竞相争取的专业技术...

11520

Hadoop和spark:兼容才是可靠的解决方案

成都加米谷大数据

说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议的,甚至一度还出现了Spark会替代Hadoop的声音,但是随着这两年的发展,事实告诉...

7310

大数据开发:Hadoop HDFS安全模式

成都加米谷大数据

HDFS作为Hadoop框架下的分布式文件系统,其中包括的知识点是非常繁杂的,尤其在理论学习阶段,如果不多花点时间学透彻,在后续的学习当中也会拖累学习进度。今天...

6720

扫码关注云+社区

领取腾讯云代金券