大数据学习与分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习与分享

专注于大数据领域常用技术的学习与分享

专栏成员

170

文章

219422

阅读量

44

订阅数

一文掌握ClickHouse

数据存储分布式 clickhouse 对象

ClickHouse 是Yandex开源的一个用于实时数据分析的基于列存储的数据库，其处理数据的速度比传统方法快100-1000 倍。

大数据学习与分享

2024-03-20

3.2K0

详解MapReduce（Spark和MapReduce对比铺垫篇）

mapreduce 分布式 vr 视频解决方案数据处理 spark

本来笔者是不打算写MapReduce的，但是考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时，Hadoop3.X目前用的还不多，企业中目前大量运用的还是Hadoop2.X，所以以下都是基于Hadoop2.X版本的MapReduce（后续要讲的HDFS和Yarn也是）。

大数据学习与分享

2020-08-10

7610

Spark RDD详解

spark 缓存分布式大数据

RDD（Resilient Distributed Datasets）弹性的分布式数据集，又称Spark core，它代表一个只读的、不可变、可分区，里面的元素可分布式并行计算的数据集。

大数据学习与分享

2020-08-10

8030

Redis中的哈希问题

云数据库 Redis hashmap 编程算法分布式

在说redis中的哈希（准确来说是一致性哈希）问题之前，先来看一个问题：为什么在分布式集群中一致性哈希会得到大量应用？

大数据学习与分享

2020-08-10

9190

大数据常用技术栈

分布式 hbase TDSQL MySQL 版开源 spark

提起大数据，不得不提由IBM提出的关于大数据的5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性），而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发展，尤以Hadoop和Spark最为突出，已构建起庞大的技术生态体系圈。首先通过一张图来了解一下目前大数据领域常用的一些技术，当然大数据发展至今所涉及技术远不止这些。

大数据学习与分享

2020-08-10

9300

必须掌握的HDFS相关问题

hadoop 大数据分布式文件存储

安全模式是Namenode的一种状态（Namenode主要有active/standby/safemode三种模式）。

大数据学习与分享

2020-07-26

9990

深度剖析MapReduce

mapreduce 分布式 vr 视频解决方案数据处理 spark

【前言：考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时，Hadoop3.X目前用的还不多，企业中目前大量运用的还是Hadoop2.X，所以以下都是基于Hadoop2.X版本的MapReduce（后续要讲的HDFS和Yarn也是）】

大数据学习与分享

2020-07-01

6450

Spark RDD详解

spark 分布式大数据缓存

RDD（Resilient Distributed Datasets）弹性的分布式数据集，又称Spark core，它代表一个只读的、不可变、可分区，里面的元素可分布式并行计算的数据集。

大数据学习与分享

2020-06-29

8000

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态