开发课长

大数据-Hadoop、Spark

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

:wq   强制性写入文件并退出。即使文件没有被修改也强制写入，并更新文件的修改时间。

Linux的一些知识

网易在Spark多租户方面的工作，这个项目叫做Kyuubi(该项目的开源地址： https://github.com/netease-bigdata/kyuubi https://github.com/yaooqinn/kyuubi)，实际上是类似于HiveSever2的程序。

网易Kyuubi

ESS（EMR Remote Shuffle Service）是EMR在优化计算引擎的Shuffle操作上，推出的扩展组件。

EMR Remote Shuffle Service

轻量级：消耗资源小
 开源，来自Google 内部15年工程经验
 弹性伸缩
 负载均衡：IPVS

聊聊Kubernetes

在这个场景中，学习如何使用Kubectl创建和启动部署、复制控制器，并通过编写yaml定义通过服务公开它们。YAML定义定义了调度部署的Kubernetes对象。可以更新对象并将其重新部署到集群中以更改配置。

使用YAML部署容器

如何使用Kubectl创建和启动部署、复制控制器，并通过服务公开它们，而不需要编写yaml定义。快速地将容器启动到集群中。

学习使用Kubectl部署Containers

初始化集群的第一阶段是启动主节点。主服务器负责运行控制平面组件、etcd和API服务器。客户端将与API通信，以调度工作负载和管理集群的状态

kubeadm入门

Spark  Standalone  on  Kubernetes  (via  k8s  community)
 SPIP:  SPARK-18278
 https://github.com/apache-spark-on-k8s/spark  (fork)

Spark on K8S

Go与C/C++消耗的CPU差距不大，但由于Go是垃圾回收型语言，耗费的内存会多一些。
 拿Go与同为垃圾回收型语言的Java简单比较一下。

Go语言初窥

last等日志是二进制文件，无法直接修改。所以清除的最简单方式是清空日志文件本身。

Linux /var/log下的各种日志文件

[yarn@bigdata016 ~]$ yarn node -list
2021-01-12 00:07:07,642 INFO  [main] client.ConfiguredRMFailoverProxyProvider (ConfiguredRMFailoverProxyProvider.java:performFailover(100)) - Failing over to rm2
Total Nodes:32
         Node-Id         Node-State Node-H

yarn node -list

面向多租户的数据安全和资源隔离能力，提供标准的用户名密码认证、ACL、Quota、Resource Group等特性，
 看到集群的容量状况，Server列表，表属性，表大小等等信息。在集群管理系统中，可以完成namespace管理、用户管理、ACL管理等功能

HBase多租户系统设计

SparkListenerLogStart
 SparkListenerBlockManagerAdded
 SparkListenerEnvironmentUpdate
 SparkListenerApplicationStart
 //N个
 SparkListenerExecutorAdded
 //N个
 SparkListenerBlockManagerAdded
 org.apache.spark.sql.execution.ui.SparkListenerSQLExecutionStart
 SparkListenerJobStart
 //N个
 SparkListenerStageSubmitted
 //N个
 SparkListenerTaskStart
 SparkListenerTaskEnd
 //N个

Spark任务日志

该工具提供自动化解析HDFS集群FSImage文件，并解析成文本文件存储在HDFS中；解析后的信息通过Hive映射成表，并通过Hive进行相关信息统计，使用有数生成相关报表。

FsImage Analyse Tool

Hive on Tez 典型日志内容
INFO  : Compiling command(queryId=hive_20201014093918_9393118a-0614-4c9e-a6da-865afb5df98d): 
select count(*) as cnt, new_uv from dm_db. dm_browser_app_retain_d where p_dt = '2019-07-13'  GROUP BY new_uv
INFO  : Semantic Analysis Complet

Hive on Tez 典型日志内容

image.png
微服务无状态，不使用session。
 典型的多语言的微服务拓扑图。
image.png

2018-07-30

cd /opt/log/xdp/hadoop-hdfs/hdfs_datanode

ReadProcessor read fields took xx ms

公司的计算平台上，写入spark-history目录日志文件数超过设定阈值（1048576），导致任务失败。

Spark History Server自动删除日志文件

Hadoop2.8.0以下版本，内置是不支持按照时间等属性排序的。
 我们可以结合Shell命令来实现按照文件最近修改的时间对 ls 命令输出结果进行排序。比如，按照最近修改的时间降序排序（也就是越早修改的文件显示在最下面）

HDFS ls查看文件-按照时间排序

jmx?qry=Hadoop:service=NameNode,
 name=NameNodeInfo
http://yyy:50070/jmx?qry=Hadoop:service=NameNode

NameNode信息的接口

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据-Hadoop、Spark专栏，为你提供了大数据-Hadoop、Spark的相关文章，致力于帮助开发者快速成长与发展。

大数据-Hadoop、Spark

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐