首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
970
文章
2355031
阅读量
704
订阅数
关于Apache Hadoop权限提升漏洞(CNVD-2022-51055)
基于下面这个链接,对应的CVE号为 CVE-2021-33036 https://www.cnvd.org.cn/flaw/show/CNVD-2022-51055 这个CVE已经在Cumulative hotfix 8 (CDP PvC Base 7.1.7.1037-2 )这个版本中fix了,可以通过以下链接找到CHF8的parcel包  https://archive.cloudera.com/p/cdh7/7.1.7.1037 因为CDH5或CDH6已经EOL(end of life)了, 所以Cl
Fayson
2022-08-26
7340
0838-通过Anaconda部署python3环境
参考https://docs.anaconda.com/anaconda-scale/cloudera-cdh/
Fayson
2021-04-30
1.3K0
基于Apache Spark 3.1.1的CDS 3.1正式GA
基于Apache Spark 3.1.1的CDS 3.1在CDP Private Cloud Base 7.1.6上正式发布,这是CDS 3的小版本更新发布,主要改进包括:
Fayson
2021-04-19
7440
0834-CDP Private Cloud Base 7.1.6正式GA
https://docs.cloudera.com/cdp-private-cloud-base/7.1.6/manager-release-notes/topics/cm-release-notes-731.html
Fayson
2021-04-19
9040
0832-如何安装及使用Prometheus
Prometheus 是一个具有维度数据模型,灵活的查询语言,高效的时间序列数据库和现代警报方法的开源监视系统。
Fayson
2021-04-19
2.1K1
0833-如何使用Prometheus监控MySQL
在《如何安装及使用Prometheus》文中有对Prometheus 做简单的介绍,并且通过node_exporter的模板示例介绍了如何监控主机信息。本文主要介绍如何使用Prometheus监控MySQL数据库信息
Fayson
2021-04-19
1.8K0
0799-1.8-CDSW1.8的新功能
机器学习生命周期功能可以使数据科学家将模型投产时间从之前数周缩短至几分钟,同时可以扩展ML场景用例,并同时具备企业级安全,可维护以及数据治理的支持。
Fayson
2020-08-20
6730
0761-7.0.3-如何使用YARN Queue Manager UI配置集群资源
在CDP DC上,YARN资源的调度程序默认为Capacity Scheduler。我们可以通过YARN Queue Manager UI来界面化配置YARN的资源队列,队列权重,队列资源,以及队列的ACL等。本文主要讲述如何在CDP DC 7.0.3集群上使用YARN Queue Manager UI来控制队列的资源分配和队列的提交策略。
Fayson
2020-04-21
2.6K0
Dolphin Scheduler秒级别工作流异常处理
Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。
Fayson
2020-03-10
5.6K0
0496-使用Parquet矢量化为Hive加速
Apache Hive是Hadoop之上最流行的数据仓库引擎。提升Hive性能的功能可以显著提高集群资源的整体利用率。Hive使用一连串的运算符来执行查询。这些运算符包括MapTask,ReduceTask或SparkTask,它们在查询执行计划中进行调度。以前这些运算符被设计为每次处理一行数据。一次处理一行导致运算符效率不高,因为需要许多虚函数调用来处理扫描的每一行。另外,如果运算符一次只处理一行,不能利用CPU的SIMD指令集(例如SSE或AVX)进行加速。本文主要介绍如何在Hive中利用基于SIMD的优化,使Apache Parquet表的查询运行效率提升26%以上。
Fayson
2019-11-28
2.1K0
Hadoop 对象存储 Ozone
Apache Hadoop 项目至今已经有十多年的历史了,作为大数据的基石,自从投放之社区之后就引来了不少的眼球,进而也孕育出了众多的Apache项目,例如HBase,Hive , Spark 等等这些优秀的数据存储和处理等项目,从而构造成了一个庞大的生态圈。参考了世界级标准的,也就是 Hadoop的HDFS,一直在跟IEEE的POSIX文件系统API标准靠拢,因此我觉得,HDFS是长久的,因为它的API足够的标准化。API足够的标准化也就意味着照着实现的东西考虑的是很全面的。但是这并不代表HDFS本身的设计不存在问题或缺陷。
Fayson
2019-10-31
5.7K0
0716-1.6.0-CDSW1.6的新功能
你现在可以利用CDSW的所有好处,同时使用你熟悉的编辑器。这个功能支持在你本地电脑上运行第三方的IDE比如PyCharm,或者基于浏览器的IDE像Juypter。Base Image v8预打包了Juypter,你可以在Start Session菜单中选择它。
Fayson
2019-10-25
9900
Cloudera Streams Management正式GA
上个月Cloudera发布Cloudera Stream Processing,这个解决方案让所有Cloudera客户都能获得最新的,安全版本的Apache Kafka以及Schema Registry和Kafka Streams。我们很自豪能够通过Kafka的实施为数百名活跃客户提供支持,现在我们渴望为更多的客户提供服务。
Fayson
2019-09-18
1.1K0
0684-如何配置Nginx高可用
本文通过Keepalived服务vip漂移的方式配置Nginx的高可用;当vip所在节点的Nginx服务宕掉后,会将vip漂移到另外一个节点。而在配置Nginx的配置时,分别在两个节点配置Nginx服务,然后两个Nginx服务配置相同的负载均衡等配置;在配置连接时不使用两个Nginx节点的ip,而是使用vip; 以这样的方式实现Nginx的高可用。
Fayson
2019-08-08
6100
0656-6.2.0-如何配置Haproxy高可用
Fayson在之前的文章有提到《如何使用HAProxy实现HiveServer2负载均衡》《如何使用HAProxy实现Impala的负载均衡》集群采用了haproxy保证了集群服务的高可用,但是Haproxy本身并没有实现热备,在Haproxy服务器出现问题时,需要手动切换。本文主要介绍如何采用keepalived解决实在Haproxy高可用。
Fayson
2019-06-20
1K1
0569-5.15.1-开启Sentry后LOAD DATA异常分析
在开启了Sentry的CDH集群中,Hive或Impala的操作会受Sentry的管理,不同的操作需要不同的权限。例如,要在Hive中执行ALTER DATABASE命令,用户需要拥有SERVER或DATABASE的ALL权限。本文是描述关于LOAD DATA的异常,我们先来看看Cloudera官网对于这一块的描述:
Fayson
2019-04-29
1.7K1
0573-5.16.1-如何将CDSW从1.4.2升级到1.5
Cloudera于2019年1月29日发布CDSW1.5,Fayson在前面的文章《0544-CDSW1.5的新功能》中对于1.5的新功能也做了介绍。对于已经安装并在使用的CDSW用户,很多都是1.4版本的,发布新版本,一般第一时间关心是如何升级,本文将主要描述如何升级CDSW。
Fayson
2019-04-28
6950
0584-5.16.1-如何卸载CDSW1.5
Fayson在上一篇文章中介绍了如何将CDSW1.4.2升级到CDSW1.5,参考《0573-5.16.1-如何将CDSW从1.4.2升级到1.5》,期间还碰到了一个问题《0574-5.16.1-CDSW1.4升级1.5版本db-migrate镜像启动失败问题解决》,本文主要介绍如何卸载CDSW1.5。
Fayson
2019-04-28
5370
模型训练和部署-Iris数据集
在前面的文章Fayson介绍了关于《CDSW1.4的新功能》、《Hadoop之上的模型训练 - CDSW1.4新功能模块》、《CDSW1.4的Experiments功能使用》、《Hadoop之上的模型部署 - CDSW1.4新功能模块》及《CDSW1.4的Models功能-创建和部署模型(QuickStart)》。本篇文章Fayson会使用CDSW内置的Python模板项目来引导完成端到端的实操示例,即包含从模型创建,训练到部署或投产。我们使用CDSW的实验模块来开发和训练模型,然后使用模型模块的功能来进行部署。
Fayson
2018-08-17
8160
如何在Kerberos环境下使用Spark2通过JDBC访问Impala
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面Fayson介绍了在Kerberos和非Kerberos环境下使用JAVA通过JDBC访问Hive和Impala《如何使用java代码通过JDBC连接Hive》和《如何使用java代码通过JDBC连接Impala》,本篇文章Fayson主要介绍如何在Kerberos环境下使
Fayson
2018-07-12
2.4K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档