首页
学习
活动
专区
工具
TVP
发布

大鹅专栏:大数据到机器学习

从大数据计算到机器学习,你需要了解这些。专注于Hadoop生态 Spark 机器学习 深度学习
专栏作者
127
文章
267748
阅读量
46
订阅数
Spark 查看某个正在执行的或已结束的任务中executor与driver日志
如果运行在 YARN 模式,可以在 ResourceManager 节点的 WEB UI 页面根据 任务状态、用户名 或者 applicationId Search 到应用。
大鹅
2021-06-16
5.3K0
HDFS 基本概念及常用操作 学习笔记
Hadoop 附带了一个名为 HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)的分布式文件系统,基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,并且非常易于扩展。
大鹅
2021-06-16
4680
HBASE 表在HDFS目录结构
进程按角色分为Master和RegionServer,其中Master负责DDL操作,比如建表、删表,而RegionServer负责DML操作,比如数据的读写操作等。从数据视图上讲,HBase中的Table会按Range切分为多个Region,然后由不同的RegionServer来负责对外提供服务。
大鹅
2020-07-03
1.8K0
Spark 基本概念及 jobs stages tasks 等 解释
还有一个是范围的依赖,即RangeDependency,它仅仅被org.apache.spark.rdd.UnionRDD使用。UnionRDD是把多个RDD合成一个RDD,这些RDD是被拼接而成,即每个parent RDD的Partition的相对顺序不会变,只不过每个parent RDD在UnionRDD中的Partition的起始位置不同
大鹅
2019-09-23
1.2K0
Spark 与 Hadoop 学习笔记 介绍及对比
这篇博客将会简单记录Hadoop与Spark对比,HDFS,MapReduce的基本概念,及Spark架构设计,RDD,运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。
大鹅
2019-09-23
1.1K0
Kafka入门教程 消息队列基本概念与学习笔记
Apache Kafka是基于发布/订阅的容错消息系统,由Scala和Java编写,是一个分布式消息队列,具有高性能、持久化、多副本备份、横向扩展能力。
大鹅
2019-09-17
9680
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档