首页
学习
活动
专区
工具
TVP
发布

Hadoop实操

专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
964
文章
2344950
阅读量
704
订阅数
你问我答1 - HDFS数据的写入原理
我们在集群中配置了hdfs异构存储策略,配置如下: dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dn dfs.namenode.replication.min:1 dfs.replication:2 然后做了如下测试: hdfs dfs -mkdir /user/xxx/warm hdfs storagepolicies -setStoragePolicy -path /user/xxx/warm -
Fayson
2022-08-26
6910
0884-7.1.6-如何在CDP中集成Hive on HBase
1.文档编写目的 本篇文章主要介绍如何在Hive中集成HBase,将HBase表映射成Hive表,实现在beeline中查询或者修改HBase的表数据。 测试环境 1.集群是Cloudera Enterprise 7.3.1和Cloudera Runtime 7.1.6 2.系统均为RedHat 7.6 3.集群已启用 Kerberos 4.OpenLADP 2.4.44-23.el7_9 2.配置HBase与Hive集成 1.登录CM,下载HBase的配置文件,解压后打开hbase-site.xml 2
Fayson
2022-08-26
3720
0855-1.9.2-CDSW1.9的新功能
作为 CML 中现有引擎的替代品,ML Runtimes 比当前的单体引擎(monolithic Engines)更轻量级。通过指定所需的Editor, Kernel, Edition和Version,一个流水线式的Runtime将用于在Sessions, Jobs, Experiments, Models和Applications中运行用户的代码。
Fayson
2021-07-28
6920
0849-7.1.6-如何跨集群从CDH到CDP迁移Kudu表
在之前的文档《如何通过Hive跨集群迁移Kudu表》,通过Hive 进行跨集群迁移Kudu 表是一种效率较低但是非常通用的方式,本文主要讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。
Fayson
2021-07-05
1.3K0
0799-1.8-CDSW1.8的新功能
机器学习生命周期功能可以使数据科学家将模型投产时间从之前数周缩短至几分钟,同时可以扩展ML场景用例,并同时具备企业级安全,可维护以及数据治理的支持。
Fayson
2020-08-20
6710
0794-5.16.2-Hive和Imapla查询decimal类型结果不同异常
根据异常重现部分的步骤,S2字段的数据类型是decimal(13,2)。精度只有2位,但是我们原始数据小数点后都是有3位小数。Hive在这里进行查询的时候会损失精度,打印结果。但是Impala在查询的时候,校验decimal类型会更严格,当前的原始数据精度超过了S2字段设定的数据类型的精度,所以直接返回为空。
Fayson
2020-08-14
1.2K0
0773-1.7.2-CDSW1.7的新功能
Cloudera Data Science Workbench仅支持从版本1.5.x和1.6.x升级到版本1.7.1。如果使用的是CDSW的早期版本,则必须首先升级到1.5.x或1.6.x版,然后再升级到1.7.1版。
Fayson
2020-05-25
1.2K0
0766-6.3.3-如何实现Kafka跨网络访问
在使用Kafka时会遇到内外网的场景,即Kafka集群使用内网搭建,在内网和外网均有客户端需要消费Kafka的消息,同时在集群内由于使用内网环境通信,因此不必太过考虑通信的加密,所以在内网使用非安全的协议也能够通信,但对于外网环境出于安全考虑,只允许通过安全的协议访问Kafka集群,本文档介绍如何基于双网卡来配置Kafka。
Fayson
2020-05-16
3K0
数据分析设计
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM),本案例采用朴素贝叶斯模型。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,本节对此算法作了重点分析。
Fayson
2020-05-06
6470
0761-7.0.3-如何使用YARN Queue Manager UI配置集群资源
在CDP DC上,YARN资源的调度程序默认为Capacity Scheduler。我们可以通过YARN Queue Manager UI来界面化配置YARN的资源队列,队列权重,队列资源,以及队列的ACL等。本文主要讲述如何在CDP DC 7.0.3集群上使用YARN Queue Manager UI来控制队列的资源分配和队列的提交策略。
Fayson
2020-04-21
2.6K0
0754-5.16.2-Hive中使用Substr拆分含中文乱码字符串报错异常分析
从上游Oracle数据库中导出的携带中文乱码且编码集为ISO-8859-1的数据文件,将导出的数据文件导入到Hive表,在原始表的基础上通过创建视图,按照与上游接口约定的定长的方式拆分字段时报错,异常内容如下:
Fayson
2020-02-27
1.9K0
0738-6.2.0-如何在Hive中使用多分隔符
而Fayson在以前的文章中也基于C5的环境介绍过如何在Hive中使用多分隔符,参考《Hive多分隔符支持示例》。本文主要介绍在CDH6中如何让Hive支持多分隔符。
Fayson
2020-02-10
1.1K0
0737-1.6.1-CDSW分布式计算
Cloudera Data Science Workbench为从单个交互式会话中启动多个称为workers的引擎实例提供了基本支持。任何R或Python会话均可用于生成workers。这些工作程序可以配置为在启动时运行脚本(例如Python文件)或命令中。
Fayson
2020-01-14
5780
有赞大数据平台安全建设实践
在大数据平台建设初期,安全也许并不是被重点关注的一环。大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。那么数据平台建设过程中,需要考虑哪些安全性方面的问题?
Fayson
2019-11-28
1.9K0
0712-6.2.0-HBase快照异常
这个问题是由于CDH6.2.0上在进行HBase Snapshot Restore的过程中,会先进行is_enabled的操作。但假如这个表是已经被drop掉的情况下,会报表不存在。这会导致我们在CDH6.2.0上无法进行下一步的restore的操作。
Fayson
2019-10-11
5360
快手 HBase 在千亿级用户特征数据分析中的应用与实践
快手建设 HBase 差不多有2年时间,在公司里面有比较丰富的应用场景:如短视频的存储、IM、直播里评论 feed 流等场景。本次只分享其中的一个应用场景:快手 HBase 在千亿级用户特征数据分析中的应用与实践。为什么分享这个 Topic?主要原因:对于大部分公司来说,这都是一个普适的场景,因为很普遍,所以可选择的分析引擎也非常多,但是目前直接用 HBase 这种分析用户特征的比较少,希望通过今天的分享,大家在将来遇到这种场景时, 可以给大家提供一个新的解决方案。
Fayson
2019-09-03
1.2K0
0686-6.2.0-如何为CDH集群的JDK安装JCE策略文件
默认情况下, CentOS和RedHat5.5或更高的版本中,对Kerberos 票证使用AES-256加密,因此必须在集群所有节点的JDK中安装Java Cryptography Extension(JCE)无限制强度加密策略文件。在安装JCE文件的Kerberos集群中,服务启动时会报“java.security.InvalidKeyException: Illegal key size”异常。本篇文章Fayson主要介绍使用不同方式安装JCE加密策略文件以及如何禁用Kerberos的AES-256加密。
Fayson
2019-08-12
1.1K0
HDFS Router-based Federation
Hadoop 社区为了解决 HDFS 横向扩展的问题,早前的版本中实现了基于 ViewFs 的 Federation 架构,而在最新的 Hadoop 版本中,社区又实现了基于 Router 的 Federatio n架构,并且在这个架构之上还实现了许多增强集群管理能力的特性。Router 将挂载表从 Client 中抽离了出来,解决了挂载表不一致的问题,本篇文章就会介绍 HDFS Router-based Federation 的架构和特性。
Fayson
2019-07-30
2.4K0
Zeppelin: 让大数据插上机器学习的翅膀
导语:在数字化、智能化的时代,通过机器学习(Machine Learning)能够强有力的补充 Hadoop 大数据系统的数据处理能力,充分挖掘大数据的核心价值,一款好的算法开发平台能够让企业事半功倍,快速的进行算法实验和生产使用,Apache Zeppelin 就是这样一个兼具了 Hadoop 大数据处理和 机器学习/深度学习算法交互式开发的开源系统。
Fayson
2019-06-28
2.3K0
0659-6.2.0-Hive处理JSON格式数据
在使用Hive处理数据的过程中会遇到各种各样的数据源,其中较为常见的是JSON格式的数据,Hive无法直接处理JSON格式的数据,需要依赖于JSONSerDe。SerDe即序列化和反序列化,JSONSerDe基本思想是使用json.org的JSON库,使用这个库可以读取一行数据并解析为JSONObject,然后解析到Hive中的数据行。因此JSON文件的每行必须是一个完整的JSON,一个JSON不能跨越多行。本文档介绍的是JsonSerDe,该库的地址为:https://github.com/rcongiu/Hive-JSON-Serde。它的特点如下:
Fayson
2019-06-26
4K1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档