大鹅专栏：大数据到机器学习-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大鹅专栏：大数据到机器学习

从大数据计算到机器学习，你需要了解这些。专注于Hadoop生态 Spark 机器学习深度学习

专栏成员

127

文章

295803

阅读量

47

订阅数

Spark 查看某个正在执行的或已结束的任务中executor与driver日志

yarn node.js 网站 spark 大数据

如果运行在 YARN 模式，可以在 ResourceManager 节点的 WEB UI 页面根据任务状态、用户名或者 applicationId Search 到应用。

2021-06-16

6K0

HDFS 基本概念及常用操作学习笔记

node.js 存储 hadoop https 大数据

Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统，基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件，运行在集群的商品硬件上。它是容错的，可伸缩的，并且非常易于扩展。

2021-06-16

4850

HBASE 表在HDFS目录结构

大数据存储 hbase TDSQL MySQL 版缓存

进程按角色分为Master和RegionServer，其中Master负责DDL操作，比如建表、删表，而RegionServer负责DML操作，比如数据的读写操作等。从数据视图上讲，HBase中的Table会按Range切分为多个Region，然后由不同的RegionServer来负责对外提供服务。

2020-07-03

1.9K0

Spark 基本概念及 jobs stages tasks 等解释

spark hadoop 大数据处理套件 TBDS 大数据大数据解决方案

还有一个是范围的依赖，即RangeDependency，它仅仅被org.apache.spark.rdd.UnionRDD使用。UnionRDD是把多个RDD合成一个RDD，这些RDD是被拼接而成，即每个parent RDD的Partition的相对顺序不会变，只不过每个parent RDD在UnionRDD中的Partition的起始位置不同

2019-09-23

1.3K0

Spark 与 Hadoop 学习笔记介绍及对比

大数据处理套件 TBDS 大数据解决方案大数据 spark hadoop

这篇博客将会简单记录Hadoop与Spark对比，HDFS，MapReduce的基本概念，及Spark架构设计，RDD，运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。

2019-09-23

1.2K0

Kafka入门教程消息队列基本概念与学习笔记

kafka 消息队列 CKafka 版大数据

Apache Kafka是基于发布/订阅的容错消息系统，由Scala和Java编写，是一个分布式消息队列，具有高性能、持久化、多副本备份、横向扩展能力。

2019-09-17

1K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态