首页
学习
活动
专区
工具
TVP
发布

大数据实战演练

专栏成员
157
文章
577668
阅读量
60
订阅数
说一说 Ambari 支持 Python3 的最新进展
万众期待,目前 Ambari 社区提交了对 python3 版本的支持,贡献者提供了非常详细的升级说明,呼吁大家根据说明将改动更新到自己本地,进行试用,然后反馈。
create17
2023-09-12
4750
hdp 不更新了,有没有办法将 Apache Hadoop 代替 hdp 并集成到 Ambari 中呢?
今天咱来聊一聊 Ambari 如何集成 Apache Hadoop 哈,自从 cloudera 公司将 hortonworks 公司收购后,hdp 就不迭代更新了,这对 Apache Ambari 也产生了很大影响,毕竟 Ambari 与 hdp 耦合性很强。
create17
2022-11-17
3.3K1
干货 | 5000字教你如何使用命令行查看应用日志以及YARN应用日志相关参数解析
对于从事大数据相关工作的朋友来说,在平时应该会跟 yarn 打过不少交道。像 MapReduce on yarn,Spark on yarn,Flink on yarn 等都是需要将应用运行在 yarn 上面的。但是对于应用运行日志的查看,yarn 却不像寻常服务那样方便,确实是有一些门槛的。而今天,我们就来好好梳理运行在 yarn 上面的应用日志相关参数及查看方式,最后以查看 Flink on yarn 日志示例。
create17
2022-11-17
2.4K0
干货 | YARN 应用日志相关参数解析及如何使用命令行查看应用日志
对于从事大数据相关工作的朋友来说,在平时应该会跟 yarn 打过不少交道。像 MapReduce on yarn,Spark on yarn,Flink on yarn 等都是需要将应用运行在 yarn 上面的。但是对于应用运行日志的查看,yarn 却不像寻常服务那样方便,确实是有一些门槛的。而今天,我们就来好好梳理运行在 yarn 上面的应用日志相关参数及查看方式,最后以查看 Flink on yarn 日志示例。
create17
2022-11-17
3.2K0
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。
create17
2022-11-17
9620
数仓面试高频考点--解决hive小文件过多问题
hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式
create17
2021-04-07
6570
彻底搞清Flink中的Window(Flink版本1.8)
在流处理应用中,数据是连续不断的,因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次,但是有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口,用来收集最近一分钟内的数据,并对这个窗口内的数据进行计算。
create17
2021-04-07
1.4K0
快手EB级HDFS挑战与实践
导读:作为快手内部数据规模和机器规模最大的分布式文件存储系统,HDFS一直伴随着快手业务的飞速发展而快速成长。
create17
2021-04-07
6820
完结撒花 | 全网稀有的Ambari自定义服务集成实战(全)
自从 2020 年开始,我就发觉网上使用 Ambari 的同学多了很多,随着 cloudera 收购 hdp 并进入收费模式,越来越多的企业选择了 Ambari 来管理大数据平台,Ambari 集成第三方服务的需求也就变得越来越常见。
create17
2021-04-07
1.6K0
Java api 远程访问 HDFS HA 通用写法总结,说实话,我之前就是前一种写法的那种人,笑哭~
今天将自己的程序部署到生产环境中,发现执行 hdfs 相关操作时报错了。原来是测试环境是 nameNode 单节点,生产环境上是 nameNode HA 。
create17
2020-12-16
3.1K0
拜托!这才是分布式系统CAP的正确打开方式!
纠结了很久要不要写这一篇,作为分布式系统的核心理论简单说说容易,聊透却很难,转念一想,如果不写这篇,算什么想通透大数据呢!并且这本身就违背了我写作的初衷;加之正好前几天和同事以ZooKeeper的用户行为反推了CAP理论,回过头来细琢磨了下,还蛮有意思的!闲话少絮,我们进入正题!
create17
2020-09-01
7420
HBase 集成 Phoenix 构建二级索引实践
Phoenix 在 HBase 生态系统中占据了非常重要的地位,本文主要包括以下几方面内容:
create17
2020-02-18
2.1K1
【实战】使用 Kettle 工具将 mysql 数据增量导入到 MongoDB 中
1)根据 source 和 db 字段来获取 MongoDB 集合内 business_time 最大值。
create17
2020-02-18
5.4K0
【实战】Kettle自定义jar包供JavaScript使用
工具类方法开发完毕后,可通过 mvn clean package -DskipTests 命令进行打包,在 target 目录下,会生成一个 jar 文件。需要将这个 jar 包放到 kettle 的 lib 目录下。如下图所示:
create17
2020-01-17
1.7K0
Sqoop1.4.7实现将Mysql数据与Hadoop3.0数据互相抽取
将 mysql 数据库中的 hive 数据库中的 ROLES 表数据导入到 HDFS 中的 /tmp/root/111 目录下。执行代码如下:
create17
2019-08-05
2.5K0
HBase应用(一):数据批量导入说明
前两种方式:需要频繁的与数据所存储的 RegionServer 通信,一次性导入大量数据时,可能占用大量 Regionserver 资源,影响存储在该 Regionserver 上其他表的查询。
create17
2019-06-15
4K0
HBase原理(一):架构理解
Apache HBase 是基于 Hadoop 构建的一个分布式的、可伸缩的海量数据存储系统。常被用来存放一些海量的(通常在TB级别以上)、结构比较简单的数据,如历史订单记录,日志数据,监控 Metrics 数据等等,HBase 提供了简单的基于 Key 值的快速查询能力。
create17
2019-05-28
1.3K0
【生活现场】从洗袜子到HBase存储原理解析
小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了。
create17
2019-05-14
8190
Kylin集群模式部署(使用同一HBase存储)
本文主要讲解如何部署Kylin集群,采取多个Kylin实例共享HBase存储的模式,如果需要事先了解Kylin基本概念的朋友可以查看《Apache Kylin基本原理及概念》。
create17
2019-04-17
2.2K5
HDFS ACL权限设置
今天主要给大家说一下HDFS文件权限的问题。当一个普通用户去访问HDFS文件时,可能会报Permission denied的错误。那么你会怎么做呢?
create17
2019-03-19
9.7K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档