首页
学习
活动
专区
工具
TVP
发布

大鹅专栏:大数据到机器学习

从大数据计算到机器学习,你需要了解这些。专注于Hadoop生态 Spark 机器学习 深度学习
专栏作者
127
文章
268489
阅读量
46
订阅数
大数据文件格式对比 Parquet Avro ORC 特点 格式 优劣势
在大数据环境中,有各种各样的数据格式,每个格式各有优缺点。如何使用它为一个特定的用例和特定的数据管道。数据可以存储为可读的格式如JSON或CSV文件,但这并不意味着实际存储数据的最佳方式。
大鹅
2021-06-16
4K0
HIVE 基本概念 数据单元 学习笔记
Hive是一个数据仓库基础工具,由Java编写,在Hadoop中用来处理结构化数据,可以把SQL查询转换为一系列在Hadoop集群上运行的作业。
大鹅
2021-06-16
4800
HDFS 基本概念及常用操作 学习笔记
Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,并且非常易于扩展。
大鹅
2021-06-16
4690
HBASE BufferedMutator 批量写入使用举例与源码解析
BufferedMutator主要用来异步批量的将数据写入一个hbase表,就像Htable一样。通过Connection获取一个实例。
大鹅
2021-06-04
2K0
Java连接HBase的正确方法及Connection创建步骤与详解
HBASE的连接不像其他传统关系型数据库连接需要维护连接池。HBASE连接若使用错误则会导致随时间推移程序创建的TCP连接过多,导致HBASE连接失败。
大鹅
2020-10-29
7.4K0
Hbase 基础 Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记
HBase类似于数据库的存储层,HBase适用于结构化存储,并且为列式分布式数据库。
大鹅
2020-10-29
1.2K0
Hadoop HBASE集群运维相关笔记 及hdfs参数设置调优等
本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题,包括HBASE HDFS的常见问题及相关的解决方案
大鹅
2020-10-29
9150
Spark Structured Streaming 使用总结
在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据,然而建立这么一个应用需要解决多个问题:
大鹅
2020-10-29
8.9K0
HBASE 技术细节 读取与写入 Region Split与合并介绍
Hbase Rowkey CF 架构 概述 预分区及Rowkey设计 学习笔记介绍了Region类似于数据库的分片和分区的概念,每个Region负责一小部分Rowkey范围的数据的读写和维护,Region包含了对应的起始行到结束行的所有信息。master将对应的region分配给不同的RergionServer,由RegionSever来提供Region的读写服务和相关的管理工作。
大鹅
2020-07-31
1.8K0
CentOS集群安装CDH Hadoop环境 操作指引 及Yarn Hbase Spark配置安装
此篇博客主要记录集群安装Hadoop环境的流程及配置讲解。这里的IP已换成192.168.0.*
大鹅
2020-06-24
1.4K0
Spark 基本概念及 jobs stages tasks 等 解释
还有一个是范围的依赖,即RangeDependency,它仅仅被org.apache.spark.rdd.UnionRDD使用。UnionRDD是把多个RDD合成一个RDD,这些RDD是被拼接而成,即每个parent RDD的Partition的相对顺序不会变,只不过每个parent RDD在UnionRDD中的Partition的起始位置不同
大鹅
2019-09-23
1.2K0
Spark 与 Hadoop 学习笔记 介绍及对比
这篇博客将会简单记录Hadoop与Spark对比,HDFS,MapReduce的基本概念,及Spark架构设计,RDD,运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。
大鹅
2019-09-23
1.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档