大鹅专栏：大数据到机器学习-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大鹅专栏：大数据到机器学习

从大数据计算到机器学习，你需要了解这些。专注于Hadoop生态 Spark 机器学习深度学习

专栏成员

127

文章

296347

阅读量

47

订阅数

大数据文件格式对比 Parquet Avro ORC 特点格式优劣势

apache hadoop 存储 hive 数据库

在大数据环境中,有各种各样的数据格式,每个格式各有优缺点。如何使用它为一个特定的用例和特定的数据管道。数据可以存储为可读的格式如JSON或CSV文件,但这并不意味着实际存储数据的最佳方式。

2021-06-16

4.8K0

HIVE 基本概念数据单元学习笔记

hive hadoop sql

Hive是一个数据仓库基础工具，由Java编写，在Hadoop中用来处理结构化数据，可以把SQL查询转换为一系列在Hadoop集群上运行的作业。

2021-06-16

4990

HDFS 基本概念及常用操作学习笔记

node.js 存储 hadoop https 大数据

Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统，基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件，运行在集群的商品硬件上。它是容错的，可伸缩的，并且非常易于扩展。

2021-06-16

4850

HBASE BufferedMutator 批量写入使用举例与源码解析

hbase 云服务器弹性 MapReduce 大数据处理套件 TBDS hadoop

BufferedMutator主要用来异步批量的将数据写入一个hbase表，就像Htable一样。通过Connection获取一个实例。

2021-06-04

2.2K0

Java连接HBase的正确方法及Connection创建步骤与详解

java hbase hadoop

HBASE的连接不像其他传统关系型数据库连接需要维护连接池。HBASE连接若使用错误则会导致随时间推移程序创建的TCP连接过多，导致HBASE连接失败。

2020-10-29

7.8K0

Hbase 基础 Rowkey CF 架构概述预分区及Rowkey设计学习笔记

java hbase hadoop

HBase类似于数据库的存储层，HBase适用于结构化存储，并且为列式分布式数据库。

2020-10-29

1.2K0

Hadoop HBASE集群运维相关笔记及hdfs参数设置调优等

java hadoop hbase

本篇博客将持续更新一些遇到过的Hadoop大数据集群的问题，包括HBASE HDFS的常见问题及相关的解决方案

2020-10-29

9780

Spark Structured Streaming 使用总结

大数据解决方案 java spark hadoop

在大数据时代中我们迫切需要实时应用解决源源不断涌入的数据，然而建立这么一个应用需要解决多个问题：

2020-10-29

9K0

HBASE 技术细节读取与写入 Region Split与合并介绍

hbase 弹性 MapReduce hadoop

Hbase Rowkey CF 架构概述预分区及Rowkey设计学习笔记介绍了Region类似于数据库的分片和分区的概念，每个Region负责一小部分Rowkey范围的数据的读写和维护，Region包含了对应的起始行到结束行的所有信息。master将对应的region分配给不同的RergionServer，由RegionSever来提供Region的读写服务和相关的管理工作。

2020-07-31

2.1K0

CentOS集群安装CDH Hadoop环境操作指引及Yarn Hbase Spark配置安装

java hadoop spark hbase

此篇博客主要记录集群安装Hadoop环境的流程及配置讲解。这里的IP已换成192.168.0.*

2020-06-24

1.5K0

Spark 基本概念及 jobs stages tasks 等解释

spark hadoop 大数据处理套件 TBDS 大数据大数据解决方案

还有一个是范围的依赖，即RangeDependency，它仅仅被org.apache.spark.rdd.UnionRDD使用。UnionRDD是把多个RDD合成一个RDD，这些RDD是被拼接而成，即每个parent RDD的Partition的相对顺序不会变，只不过每个parent RDD在UnionRDD中的Partition的起始位置不同

2019-09-23

1.3K0

Spark 与 Hadoop 学习笔记介绍及对比

大数据处理套件 TBDS 大数据解决方案大数据 spark hadoop

这篇博客将会简单记录Hadoop与Spark对比，HDFS，MapReduce的基本概念，及Spark架构设计，RDD，运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。

2019-09-23

1.2K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态