今天发现两个NameNode都处在StandBy模式 📷 📷 尝试重启hdfs,两个NameNode依然处在StandBy模式 后来发现停止HDFS时,NameNode1不能停止 [root@bigdata01-test hadoop]# stop-dfs.sh Stopping namenodes on [bigdata01-test bigdata02-test] bigdata01-test: no namenode to stop bigdata02-test: stopping namenode
本文主要讲述如何为CDH集群配置机架感知,通过配置机架感知,提高CDH集群的运行效率。
[yarn@bigdata016 ~]$ yarn node -list 2021-01-12 00:07:07,642 INFO [main] client.ConfiguredRMFailoverProxyProvider (ConfiguredRMFailoverProxyProvider.java:performFailover(100)) - Failing over to rm2 Total Nodes:32 Node-Id Node-State Node-H
1、安装RabbitMQ 1)下载和安装erlang 下载erlang wget http://www.rabbitmq.com/releases/erlang/erlang-18.1-1.el6.x86_64.rpm 安装erlang,root用户使用rpm安装 rpm -ihv erlang-18.1-1.el6.x86_64.rpm 2)下载和安装RabbitMQ 下载RabbitMQ wget https://github.com/rabbitmq/rabbitmq-server/releases/
首先,我们需要知道配置伪分布式集群要修改的配置文件 所有配置文件都在 /opt/module/hadoop-2.7.2/etc/hadoop/内
1、什么是SSH? 2、SSH由“客户端”和“服务端”的软件组成 3、SSH认证机制(详细图解) 4、演示“远程拷贝” 5、配置免密登录:和免密登陆相关的文件夹/root/.ssh 6、检验是否配置成功
在文件的第99行或者root ALL=(ALL) ALL内容后新启一行添加以下内容
执行脚本链路: start-dfs.sh -> hdfs-config.sh -> hadoop-config.sh -> hadoop-daemons.sh -> slave.sh -> hadoop-daemon.sh -> hadoop-env.sh -> hdfs
准备三个虚拟机: 192.168.101.15 bigdata01 192.168.101.14 bigdata02 192.168.101.17 bigdata03 注意:下边的步骤都是在bigdata01这个节点上进行的操作,除特殊说明外。 1、下载安装包 cd /data/soft # 下载zookeeper安装包 wget http://archive.apache.org/dist/zookeeper/stable/apache-zookeeper-3.6.3-bin.tar.gz 2、解
```bash tar -zxvf apache-hive-3.1.1-bin.tar.gz -C /root/bigdata/
*通过共享文件夹的方式将j**d**k的安装包放在ma**ster**节点的/**root/downloads**文件夹下*
操作前需要准备: 1.虚拟机镜像:CentOS-6.5-x86_64-bin-DVD1.iso 链接:https://pan.baidu.com/s/1O9a-6Sn7riGWG3mVQssTGg 提取码:rud1 2.jdk:jdk-8u144-linux-x64.tar.gz 链接:https://pan.baidu.com/s/1TdaCDaT_qriDMjbYFyphPw 提取码:qulj 3.hadoop:hadoop-2.7.2.tar.gz 链接:https://pan.baidu.com/s/1Wt0mAUHKJDSYTUM5-u6CYw 提取码:oofe 或者官网: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/ 上述的如果百度云下载的慢的话,可以去各大开源论坛或者官网下载 博主使用的工具为Xshell,非常方便的一个软件,感兴趣的话可以动动自己的小手,去官网下载
Apache ZooKeeper 是一个面向分布式应用程序的高性能协调服务器。要实现Hbase全分布式安装,需要安装ZooKeeper,当然后面kafka也需要安装这个东西。
软件包下载地址: 链接: https://pan.baidu.com/s/1dvf4o8i9J02fmUu3SMRyDw 提取码: 3dk3
链接: https://pan.baidu.com/s/1dvf4o8i9J02fmUu3SMRyDw 提取码: 3dk3
修改flink-conf.yaml HA模式下,jobmanager不需要指定,在master file中配置,由zookeeper选出leader与standby。
此篇博文博主为大家讲解的是Hive中常用的交互命令及其他的一些命令。 一. Hive常用交互命令 可先通过命令行查看帮助 [bigdata@hadoop001 hive]$ bin/hive
zookeeper服务器是用Java创建的,运行在JVM之上。需要安装JDK7以上版本(最好JDK8或以上)。
经过上篇的简单介绍,相信大家对Kafka有了初步的了解,本篇为博主带来的是Kafka的集群部署。
zookeeper和hbase安装 #--hbase是Hadoop的数据库,依赖于zookeeper,默认的hbase自带zookeeper #不是很好用,这里我们自己安装zookeeper 1.下载软件 & 解压软件 zookeeper.apache.org hbase.apache.org $ tar -zxvf zookeeper-3.4.11.tar.gz -C /usr/local $ tar -zxvf hbase-1.3.1.tar.gz -C /usr/loc
10、服务器集群:192.168.0.110(master),192.168.0.111(slave1),192.168.0.112(slave2)
8. 配置 /opt/apache-hive-2.1.1-bin/conf/hive-site.xml
Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。
元组其实跟之前讲过的列表差不多,也是存一组数,只不是它一旦创建,便不能再修改,所以又叫只读列表,用小括号()表示。
至于怎样查看脚本,我们可以查看Kafka/bin目录,下图标记即为常用的脚本
在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。
bin/hadoop fs 具体命令 or bin/hdfs dfs 具体命令 都是可以的。
本篇博主带来的是Kafka和zookeeper群起脚本的创建与使用。 之前介绍过Kafka集群环境的搭建,但是细心的朋友们都发现,Kafka与ZooKeeper一样,都需要在每台节点上执行
Ganglia由gmond、gmetad和gweb三部分组成。 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gmond,你可以很容易收集很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。 gmetad(Ganglia Meta Daemon)整合所有信息,并将其以RRD格式存储至磁盘的服务。 gweb(Ganglia Web)Ganglia可视化工具,gweb是一种利用浏览器显示gmetad所存储数据的PHP前端。在Web界面中以图表方式展现集群的运行状态下收集的多种不同指标数据。
由于我们Sinesafe的客户要求网站的服务器要装Centos7版本所以给大家分享下安装的过程与经验,如果需要深入的服务器运维服务也可以找我们。
最近刚刚跳槽,新单位同事问了我个问题,突然把我问懵了,因为好久没有接触底层磁盘了,于是做了以下的实验。
sqoop-export Purpose The export tool exports a set of files from HDFS back to an RDBMS. The target table must already exist in the database. The input files are read and parsed into a set of records according to the user-specified delimiters. 目的:将数据从HDF
一. Oozie调度shell脚本 目标:使用Oozie调度Shell脚本 大体过程如下: 1. 创建工作目录 [bigdata@hadoop002 oozie-4.0.0-cdh5.3
本篇博主带来的是Kafka的两种监控软件。 一. Kafka Monitor 1. 上传jar包KafkaOffsetMonitor-assembly-0.4.6.jar到集群 2.在/o
https://www.psvmc.cn/article/2022-03-31-bigdata-environment.html
配置Source用于监控hive.log文件,配置Sink输出数据到下一级Flume。
经过上篇的简单介绍,相信大家已经了解什么是Hive,那么这篇文章讲述的是怎样安装部署Hive。 本系列所用到的安装包博主已经上传到百度云盘中,如有需要的可以自取。下面为链接: 链接:https://pan.baidu.com/s/10ezDJTuZl-qU2sq0hDCinw 提取码:pw12
01 — 要求 从海量数据中按照某个规则找出前K名,简化起见,从一个海量的整形数组中,找出前K个最大元素。 无法直接一次性读入内存,可以将文件依次分批读入,找出前K个最大值。 02 — 最小堆实现思路 实现思路: 从海量数据中按照索引,选取前K个元素,建立一个小根堆; 遍历第K+1个元素, 若满足:这个元素不小于当前堆顶,则继续下一个遍历; 若满足:这个元素大于当前栈顶,则与堆顶元素交换,然后调整堆为最小堆 直到遍历结束 03 — 最小堆的python实现 class TopKByHeap(object)
此篇是在Hadoop分布式环境搭建(简单高效~)这篇博文的基础上进行搭建的,如果有不会的同学可自行查看操作。同时,如果缺少Zookeeper包的同学可上博主的分享的百度云连接进行下载。 下面为百度云链接: 链接:https://pan.baidu.com/s/178EYOx9N5rHZyjRnrHu13Q 提取码:199b
Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。
Apache Mesos - 一个通用的集群管理器,也可以运行Hadoop MapReduce和服务应用程序。
1.下载相应版本、上传服务器、解压、配置环境变量并生效 2.配置文件:conf/storm.yaml // zookeeper的信息 storm.zookeeper.servers: - "bigdata112" - "bigdata113" - "bigdata114" // 主节点信息(此处配置多个实现HA) nimbus.seeds: ["bigdata112"] // 配置Supervisor上的slot的个数(端口号
Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。 Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API. 在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码.
因为在之前的博客在Linux中部署集群(零基础速学!)中,上述的准备操作均已详细描述,这里对于准备工作的内容就不做过多讲解。接下来正式开始进行集群环境的搭建
域名(elasticsearch-master-headless.bigdata.svc.cluster.local)的由来不清楚的,可以参考我之前的文章:Kubernetes(k8s)DNS(CoreDNS)介绍[2]
一. 实战前的准备 1. 在executor服务器目录下执行启动命令 [bigdata@hadoop002 executor]$ bin/azkaban-executor-start.sh 2.
普罗米修斯下载地址:https://prometheus.io/download/
本文介绍了如何使用 MapReduce 实现基于 PEGASOS 算法的 SVM,通过在 Hadoop 集群上使用 MRJob 来实现分布式训练,并利用 Cascading 和 Oozie 进行作业管理。
在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。
领取专属 10元无门槛券
手把手带您无忧上云