首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何通过init操作脚本更改我的google dataproc集群中工作节点的yarn-site.xml属性?

要通过 init 操作脚本更改 Google Dataproc 集群中工作节点的 yarn-site.xml 属性,您需要在创建集群时指定一个自定义的 init 操作脚本。这个脚本会在每个工作节点启动时运行,并且可以用来修改配置文件。

以下是使用 gcloud 命令行工具创建集群并应用 init 脚本的步骤:

  1. 编写 Init 脚本: 创建一个脚本文件,比如 modify_yarn_site.sh,并在其中添加修改 yarn-site.xml 的逻辑。例如,如果您想要增加一个新的属性 yarn.nodemanager.resource.memory-mb,脚本可能看起来像这样: #!/bin/bash yarn_site_path="/etc/hadoop/conf/yarn-site.xml" # 备份原始文件 cp $yarn_site_path $yarn_site_path.bak # 修改 yarn-site.xml 文件 cat <<EOF | sudo tee $yarn_site_path <configuration> <!-- 其他配置 --> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>8192</value> </property> </configuration> EOF 确保给脚本执行权限: chmod +x modify_yarn_site.sh
  2. 上传 Init 脚本到 Google Cloud Storage: 将脚本上传到 Google Cloud Storage (GCS),因为 Dataproc 集群可以从 GCS 加载 init 脚本。 gsutil cp modify_yarn_site.sh gs://your-bucket-name/init-scripts/
  3. 创建 Dataproc 集群并应用 Init 脚本: 使用 gcloud 命令创建集群,并通过 --initialization-actions 参数指定 init 脚本的 GCS 路径。 gcloud dataproc clusters create your-cluster-name \ --num-workers=3 \ --worker-machine-type=n1-standard-4 \ --initialization-actions gs://your-bucket-name/init-scripts/modify_yarn_site.sh 确保替换 your-cluster-nameyour-bucket-name 为您实际的集群名称和 GCS 存储桶名称。
  4. 验证更改: 集群创建完成后,您可以通过 SSH 连接到集群中的一个工作节点,并检查 yarn-site.xml 文件是否已被正确修改。 gcloud compute ssh worker-instance-name --zone=your-zone 然后在工作节点上运行: cat /etc/hadoop/conf/yarn-site.xml 您应该能看到您在 init 脚本中所做的更改。
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

搭建Hadoop3集群

如果不想在管理节点机器开启DataNode,则删除workers文件node-master配置。 此外,如果想在Hadoop集群动态增加和删除节点,则更改此文件即可。...内存分配属性 YARN作业执行需要使用以下两种资源: Application Master (AM) :负责监视应用程序并协调集群分布式执行程序。...Executors:一些由AM创建Executors,用于真正运行该作业。 对于MapReduce作业,executors会并行执行map和reduce操作。 两者都在从节点容器运行。...这个值在yarn-site.xml配置yarn.nodemanager.resource.memory-mb属性 单个容器可以消耗内存大小以及允许最小内存分配量。...这个值在mapred-site.xml配置yarn.app.mapreduce.am.resource.mb属性。 分配给map和reduce操作内存大小。应该小于最大尺寸。

1.1K21
  • 如何部署 Hadoop 集群

    内存分配属性 使用两种资源执行YARN作业: 应用主站(AM)是负责在集群监视应用程序和协调分布式执行者。 由AM创建一些执行程序实际上运行该作业。...对于MapReduce作业,它们将并行执行map或reduce操作。 两者都在从属节点容器运行。每个从属节点都运行一个NodeManager守护程序,该守护程序负责在节点上创建容器。...所有这些属性之间关系如下图所示: 2GB节点示例配置 对于2GB节点工作配置可能是: 属性 值 yarn.nodemanager.resource.memory-MB 1536 yarn.scheduler.maximum...启动和停止HDFS 通过从node-master运行以下脚本来启动HDFS : start-dfs.sh 根据slaves配置文件配置,它将在node-master上启动NameNode...这是YARN框架作用。以下部分介绍如何启动,监控和向YARN提交作业。 启动和停止YARN 使用脚本启动YARN: start-yarn.sh 使用该jps命令检查一切是否正在运行。

    3.4K1211

    如何安装和设置3节点Hadoop集群

    内存分配属性 使用两种资源执行YARN作业: 一个应用主站(AM)是负责在集群监视应用程序和协调分布式执行者。 由AM创建一些执行程序实际上运行该作业。...整个集群由ResourceManager管理,ResourceManager根据容量要求和当前费用调度所有从节点容器分配。 需要正确配置四种类型资源分配才能使群集正常工作。...所有这些属性之间关系如下图所示: 2GB节点示例配置 对于2GB节点工作配置可能是: 属性 值 yarn.nodemanager.resource.memory-MB 1536 yarn.scheduler.maximum-allocation-MB...启动和停止HDFS 通过从node-master运行以下脚本来启动HDFS : start-dfs.sh 根据配置文件slaves配置,它将在node-master上启动NameNode和SecondaryNameNode...这是YARN框架工作。以下部分介绍如何启动,监控和向YARN提交作业。 启动和停止YARN 使用脚本启动YARN: start-yarn.sh 使用该jps命令检查一切是否正在运行。

    2K40

    在 Linux Ubuntu 18.0418.10上安装Hadoop图文详解

    Hadoop将数据存储在Hadoop分布式文件系统(HDFS),并使用MapReduce完成这些数据处理。 YARN提供用于在Hadoop集群请求和分配资源API。...我们将在Pseudo Distributed Mode节点集群上安装HDFS(Namenode和Datanode),YARN,MapReduce,这是在一台机器上进行伪分布式安装。...在本教程,您将学习: 如何为Hadoop环境添加用户 如何安装和配置Oracle JDK 如何配置无密码SSH 如何安装Hadoop并配置必要相关xml文件 如何启动Hadoop集群 如何访问NameNode...$ source ~/.bashrc 编辑Hadoop安装目录/etc/hadoophadoop-env.sh文件,并进行以下更改并检查是否要更改任何其他配置。...配置文件更改 使用以下条目编辑yarn-site.xml

    2.5K50

    教程 | 如何使用Kubernetes GPU集群自动训练和加速深度学习?

    教程地址及相关文件:https://github.com/Langhalsdino/Kubernetes-GPU-Guide 在这个教程将要介绍如何轻松地在多个 Ubuntu 16.04 裸机服务器上进行...目录 Kubernetes 快速回顾 集群结构概览 初始化节点 配置 配置指令 使用快速配置脚本 步骤详细说明 怎样创建你 GPU 容器 .yml 重要部分 GPU 实例使用 一些有用指令.../init-master.sh 工作节点 执行上面的工作节点初始化脚本,并要求输入正确主控节点代号和 IP,端口通常使用 6443。...现在我们需要将工作站添加到集群。...完成了,现在检查你工作结点以确保能正常运行。 kubectl get nodes 注意:如果你想删除工作节点,那么就需要从集群移除节点并重置工作节点。另外,从计算机集群移除工作节点是有益

    3K40

    为什么我会被 Kubernetes“洗脑”?

    这些机器学习任务是在Cloud Dataproc运行,Cloud Dataproc是一个运行Apache Spark服务。...你需要花费大量时间和精力来学习如何操作ZooKeeper。 在构建Hadoop和Kafka过程,这些项目的创始工程师设计系统可以与ZooKeeper协作,共同来维护一个主节点。...有关开发人员如何使用无服务器完整列表,请参见CNCF无服务器工作组创建共享Google文档(本文发布时文档为34页)[18]。...从在《软件工程日报》上交谈来看,这些作为服务功能至少有两个明显应用例子: 可以快速而廉价地进行扩展以应对突发性工作负载计算(例如,Yubl社交媒体可扩展性案例研究[19]) 在多种工作负载频度下事件驱动粘合代码...如果你处理需求或查询速率发生变化,你可以选择修改实例大小或根据需要更改读副本数量。 这个模型在工作负载可预测、并且请求速率和处理需求在一定范围内环境下运行得非常好。

    1.5K60

    为什么我会被Kubernetes“洗脑”?

    这些机器学习任务是在 Cloud Dataproc 运行,Cloud Dataproc 是一个运行 Apache Spark 服务。...你需要花费大量时间和精力来学习如何操作 Zookeeper。在构建 Hadoop 和 Kafka 过程,这些项目的创始工程师设计系统可以与 Zookeeper 协作,共同来维护一个主节点。...如果正在编写一个系统来执行分布式 MapReduce,希望不考虑节点故障和竞争条件。Brendan 想法是将这些问题推到一个标准,从而让下一个开发人员为多节点应用程序提出新想法更加容易。...有关开发人员如何使用无服务器完整列表,请参见 CNCF 无服务器工作组创建共享 Google 文档(本文发布时文档为34页)[18]。...如果你处理需求或查询速率发生变化,你可以选择修改实例大小或根据需要更改读副本数量。这个模型在工作负载可预测、并且请求速率和处理需求在一定范围内环境下运行得非常好。

    1.4K90

    为什么我会被 Kubernetes “洗脑”?

    这些机器学习任务是在Cloud Dataproc运行,Cloud Dataproc是一个运行Apache Spark服务。...你需要花费大量时间和精力来学习如何操作ZooKeeper。 在构建Hadoop和Kafka过程,这些项目的创始工程师设计系统可以与ZooKeeper协作,共同来维护一个主节点。...有关开发人员如何使用无服务器完整列表,请参见CNCF无服务器工作组创建共享Google文档(本文发布时文档为34页)[18]。...从在《软件工程日报》上交谈来看,这些作为服务功能至少有两个明显应用例子: 可以快速而廉价地进行扩展以应对突发性工作负载计算(例如,Yubl社交媒体可扩展性案例研究[19]) 在多种工作负载频度下事件驱动粘合代码...如果你处理需求或查询速率发生变化,你可以选择修改实例大小或根据需要更改读副本数量。 这个模型在工作负载可预测、并且请求速率和处理需求在一定范围内环境下运行得非常好。

    88140

    深入浅出学大数据(二)Hadoop简介及Apache Hadoop三种搭建方式

    在学习Hadoop过程,即使出现“Hash校验和不符”提示,也不会影响Hadoop安装。 关于如何更改软件源,林子雨老师博客已经给出答案。如有兴趣可自行查看。...效果如下图所示: 5、改进鼠标性能 6、虚拟机时钟与主机或客户端桌面上时钟同步 7、帮助自动执行客户机操作系统操作脚本 8、启用虚拟机客户机自定义。...修改了Master节点,Slave节点也不要忘了呀~ 2. 修改主机名与映射 由于集群中有三台机器需要设置,所以,在接下来操作,一定要注意区分Master节点和Slave节点。...另外还需要在Master节点通过命令“hdfs dfsadmin -report”查看数据节点是否正常启动,如果屏幕信息“Live datanodes”不为 0 ,则说明集群启动成功。...jps脚本 在3.3.3 配置集群/分布式环境此部分,需要在每个虚拟机内分别输入jps查看进程,如下图所示: 我们有没有发现很是麻烦,那么能否通过编写简单shell脚本进行群体查看呢?

    1.5K50

    Hadoop 入门教程(超详细)

    ④ Cloudera Manager 是集群软件分发及管理监控平台,可以在几个小时内部署好一个 Hadoop 集群,并对集群节点及服务进行实时监控。...高扩展性: 在集群间分配任务数据,可方便扩展数以千计节点。 高效性: 在 MapReduce 思想下,Hadoop 是并行工作,以加快任务处理速度。...② 基本语法: rsync -rvl 要拷贝文件路径/名称 目的用户@主机:目的路径/名称   说明:-v:显示复制过程 、-l:拷贝符号链接 xsync 集群分发脚本 需求:循环复制文件到所有节点相同目录下...start-yarn.sh 编写查看集群所有节点 jps 脚本 alljps ① 在 /usr/local/bin 目录下创建文件 alljps vim alljps    在文件输入以下内容...iburst #server 3.centos.pool.ntp.org iburst    ⑶ 当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群其他节点提供时间同步 server

    9.8K12

    Docker Swarm 已死,Kubernetes 永生

    这些机器学习任务是在Cloud Dataproc运行,Cloud Dataproc是一个运行Apache Spark服务。...你需要花费大量时间和精力来学习如何操作Zookeeper。 在构建Hadoop和Kafka过程,这些项目的创始工程师设计系统可以与Zookeeper协作,共同来维护一个主节点。...有关开发人员如何使用无服务器完整列表,请参见CNCF无服务器工作组创建共享Google文档(本文发布时文档为34页)[18]。...从在《软件工程日报》上交谈来看,这些作为服务功能至少有两个明显应用例子: 可以快速而廉价地进行扩展以应对突发性工作负载计算(例如,Yubl社交媒体可扩展性案例研究[19]) 在多种工作负载频度下事件驱动粘合代码...如果你处理需求或查询速率发生变化,你可以选择修改实例大小或根据需要更改读副本数量。 这个模型在工作负载可预测、并且请求速率和处理需求在一定范围内环境下运行得非常好。

    6.7K130

    自动部署Hadoop集群

    而且,基本配置现在基本都定下来了,基本就是更改一下相关软件hostname或者ip就可以搞定事情,没必要上ambari大杀器。...所以还是自己搞了一坨脚本,其目的就是将各个软件tar包ssh到各个服务器节点,然后根据配置进行解压,复制对应配置文件到对应目录。...也能实现集群部署操作,后面还可以继续修改,支持主机添加等功能。 主体逻辑:读取集群配置,ssh传输软件包到各个服务器,根据配置生成对配置文件,ssh传输到各个服务器各个软件对应目录。...那我们脚本所做工作其实跟上篇文章所做工作差不多,首先需要配置免密,安装JDK,安装程序,配置等等。...如果配置已定或者网络不太方便,觉得自己写脚本比用ambari要来快一些,但是还是要称赞一下ambari。

    1.1K30

    Kubernetes 集群搭建

    但问题在于,如何将这些二进制可执行文件以及他们各自配置文件、授权文件、自启动脚本部署到生产环境中去无疑是一项艰巨工作。...用 kubeadm 创建集群 此处使用环境 ubuntu20.04,如果你用是其他版本操作系统,可以参考官网: https://kubernetes.io/zh/docs/setup/production-environment...kubelet:在集群每个节点上用来启动 Pod 和容器等。 kubectl:用来与集群通信命令行工具。...新加入到集群节点首先需要获取存储在 ConfigMap cluster-info,但用来与集群交互 kube-apiserver 提供接口在安全模式下都是需要 ssl 认证,那么,我们就必须非常繁琐将证书文件手动放到新节点中才能进行接下来操作...bootstrap token 就是用来解决这一步繁琐操作通过 bootstrap token,kubeadm 允许在此时发起一次非安全模式下通信,从而让新节点拿到 ConfigMap

    1.5K10

    hadoop集群搭建

    前置工作 1.创建虚拟机 2.配置虚拟机网络 3.WIN10 IP地址配置 4.CentOS静态IP设置 5.克隆三台虚拟机 6.jdk安装 7.hadoop安装 8.SSH免密登录配置(shell脚本单独提供...shell自行封装命令xsync,把hadoop102上所有配置文件分到到其他节点相同路径下(shell脚本单独提供) 命令格式:xsync + 文件路径 xsync /opt/module/hadoop...截至到这一步,hadoop集群配置工作就完成了。...:(有几个节点就配置几个主机名称) hadoop102 hadoop103 hadoop104 注意:该文件添加内容结尾不允许有空格,文件不允许有空行。...另外,需要分发shell脚本小伙伴可以私信给我哦~ 【小结】 上面详细讲述了hadoop集群搭建、运行与测试。具体操作稍微有点繁琐,需要花时间多练习几遍。

    1.2K10

    大数据基础系列 4:伪分布式 Hadoop 在 Ubuntu 上安装流程完整步骤及易错点分析

    4.8、设置 Hadoop 环境变量 五、准备启动 Hadoop 集群 5.1、启动 Hadoop 集群准备工作 5.2、Hadoop 脚本用法文档 5.3、查看 Hadoop 版本信息 六、伪分布式操作...对于 Hadoop 伪分布式和全分布式而言,Hadoop 名称节点(NameNode)需要启动集群中所有机器 Hadoop 守护进程,这个过程可以通过 SSH 登陆来实现。...四、Hadoop 伪分布式安装 伪分布式安装是指在一台机器上模拟一个小集群,但是集群只有一个节点。...属性控制 metrics 在 Hadoop 上如何发布属性 4.8、设置 Hadoop 环境变量 接下来我们需要设置 Hadoop 环境变量,编辑 ~/.bashrc,任意目录下输入如下代码: sudo...这里采用伪分布式,在集群只有一个节点,因此副本数量 replication 值也只能设置为 1。 6.2、执行 NameNode 初始化 在配置完成后,首先需要初始化文件系统。

    55420

    说说K8S是怎么来,又是怎么没

    这些机器学习任务是在Cloud Dataproc运行,Cloud Dataproc是一个运行Apache Spark服务。...你需要花费大量时间和精力来学习如何操作Zookeeper。 在构建Hadoop和Kafka过程,这些项目的创始工程师设计系统可以与Zookeeper协作,共同来维护一个主节点。...有关开发人员如何使用无服务器完整列表,请参见CNCF无服务器工作组创建共享Google文档(本文发布时文档为34页)[18]。...从在《软件工程日报》上交谈来看,这些作为服务功能至少有两个明显应用例子: 可以快速而廉价地进行扩展以应对突发性工作负载计算(例如,Yubl社交媒体可扩展性案例研究[19]) 在多种工作负载频度下事件驱动粘合代码...如果你处理需求或查询速率发生变化,你可以选择修改实例大小或根据需要更改读副本数量。 这个模型在工作负载可预测、并且请求速率和处理需求在一定范围内环境下运行得非常好。

    1.2K60

    hadoop运行环境搭建

    hdfs web界面 通过master_IP:50070访问hdfsweb界面,如下所示: ? 通过该web界面能获取到很多hdfs集群信息,平时多用用,大有帮助。 1.1.6 常见问题 ?...、yarn-site.xml与slaves 在hadoop-env.sh配置文件,只需修改jdk路径配置就行了,如下所示: exportJAVA_HOME=/usr/java/jdk1.7.0_25...参考配置如下: image.png slaves参考配置如下(集群节点名称): image.png 这些配置文件需要修改标签内一些属性配置,特别提醒一下是IP以及一些目录需要按照实际安装环境做相应修改...集群:start-all.sh 1.2.4 集群环境清理 1、 关闭hadoop集群 2、 清理/tmp目录 3、 清理数据目录文件 /data*/ 4、 清理内存:echo 3 >/proc/sys...解决办法:在yarn配置文件yarn-site.xml增加以下配置项: ? 然后重启yarn进程就可以了。 1.3.1.4 运行mapreduce程序报错 报错信息如下所示: ?

    1.8K110
    领券