腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Hadoop实操
专注Apache Hadoop,CDH和HDP的实操,如安装部署,安全配置,排障过程,经验分享,性能
专栏作者
举报
964
文章
2344950
阅读量
704
订阅数
订阅专栏
申请加入专栏
全部文章(964)
hive(207)
其他(200)
github(175)
专用宿主机(165)
hadoop(161)
大数据(141)
kerberos(120)
sql(115)
https(99)
数据库(98)
spark(95)
apache(66)
git(56)
hbase(54)
node.js(53)
云数据库 SQL Server(52)
java(49)
yarn(49)
api(46)
开源(45)
kafka(38)
python(35)
parcel(34)
http(31)
编程算法(30)
TDSQL MySQL 版(29)
网络安全(28)
jdbc(26)
访问管理(25)
存储(25)
xml(23)
腾讯云测试服务(23)
shell(22)
linux(21)
jdk(21)
bash(20)
lucene/solr(17)
bash 指令(17)
ssh(17)
mapreduce(15)
dns(15)
网站(14)
负载均衡(13)
html(13)
打包(13)
jar(13)
windows(13)
postgresql(12)
负载均衡缓存(12)
zookeeper(12)
文件存储(11)
tcp/ip(11)
安全(11)
oracle(9)
容器(9)
flink(9)
机器学习(8)
json(8)
windows server(8)
nginx(8)
容器镜像服务(8)
人工智能(7)
数据分析(7)
DNS 解析 DNSPod(6)
javascript(6)
深度学习(6)
云推荐引擎(6)
kubernetes(6)
数据迁移(6)
数据(6)
SSL 证书(5)
企业(5)
缓存(5)
erp(5)
anaconda(5)
数据处理(5)
tensorflow(4)
scala(4)
maven(4)
神经网络(4)
分布式(4)
jvm(4)
面向对象编程(4)
unity(4)
rpc(4)
ntp(4)
单片机(3)
嵌入式(3)
access(3)
ide(3)
unix(3)
数据备份(3)
yum(3)
微信(3)
c++(2)
jquery(2)
全文检索(2)
批量计算(2)
云数据库 MySQL(2)
ftp(2)
物联网(2)
sas(2)
nat(2)
腾讯云开发者社区(2)
云数据库 postgresql(2)
云计算(2)
Elasticsearch Service(2)
impala(2)
session(2)
服务(2)
配置(2)
同步(2)
云服务器(1)
官方文档(1)
ios(1)
c 语言(1)
php(1)
go(1)
actionscript(1)
css(1)
android(1)
nosql(1)
mvc(1)
flask(1)
eclipse(1)
搜索引擎(1)
ubuntu(1)
centos(1)
apt-get(1)
spring(1)
归档存储(1)
云数据库 MongoDB(1)
数据库一体机 TData(1)
消息队列 CMQ 版(1)
数据加密服务(1)
流量服务(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
devops(1)
自动化(1)
运维(1)
html5(1)
决策树(1)
npm(1)
grep(1)
jenkins(1)
spring cloud(1)
socket编程(1)
数据可视化(1)
微服务(1)
nest(1)
任务调度(1)
密钥管理服务(1)
jupyter notebook(1)
分类算法(1)
ascii(1)
ipv6(1)
迁移(1)
负载测试(1)
智能客服机器人(1)
数据湖(1)
add(1)
client(1)
cloud(1)
com(1)
daemon(1)
datasource(1)
exit(1)
grafana(1)
h2(1)
hana(1)
host(1)
io(1)
kill(1)
ldap(1)
monitoring(1)
mysql(1)
openldap(1)
private(1)
project(1)
queue(1)
replication(1)
sap(1)
status(1)
visualization(1)
window(1)
worker(1)
部署(1)
测试(1)
集群(1)
脚本(1)
连接(1)
内存(1)
生命周期(1)
异常(1)
优化(1)
主机(1)
标签(1)
搜索文章
搜索
搜索
关闭
你问我答1 - HDFS数据的写入原理
node.js
hadoop
大数据
编程算法
我们在集群中配置了hdfs异构存储策略,配置如下: dfs.datanode.data.dir:/data02/dfs/dn,/data03/dfs/dn,[ARCHIVE]/mnt/nfs01/dfs/dn dfs.namenode.replication.min:1 dfs.replication:2 然后做了如下测试: hdfs dfs -mkdir /user/xxx/warm hdfs storagepolicies -setStoragePolicy -path /user/xxx/warm -
Fayson
2022-08-26
691
0
0884-7.1.6-如何在CDP中集成Hive on HBase
hbase
TDSQL MySQL 版
hive
编程算法
xml
1.文档编写目的 本篇文章主要介绍如何在Hive中集成HBase,将HBase表映射成Hive表,实现在beeline中查询或者修改HBase的表数据。 测试环境 1.集群是Cloudera Enterprise 7.3.1和Cloudera Runtime 7.1.6 2.系统均为RedHat 7.6 3.集群已启用 Kerberos 4.OpenLADP 2.4.44-23.el7_9 2.配置HBase与Hive集成 1.登录CM,下载HBase的配置文件,解压后打开hbase-site.xml 2
Fayson
2022-08-26
372
0
0855-1.9.2-CDSW1.9的新功能
编程算法
ipv6
tcp/ip
作为 CML 中现有引擎的替代品,ML Runtimes 比当前的单体引擎(monolithic Engines)更轻量级。通过指定所需的Editor, Kernel, Edition和Version,一个流水线式的Runtime将用于在Sessions, Jobs, Experiments, Models和Applications中运行用户的代码。
Fayson
2021-07-28
692
0
0849-7.1.6-如何跨集群从CDH到CDP迁移Kudu表
编程算法
hive
kerberos
专用宿主机
在之前的文档《如何通过Hive跨集群迁移Kudu表》,通过Hive 进行跨集群迁移Kudu 表是一种效率较低但是非常通用的方式,本文主要讲述如何通过Kudu 自带的Kudu Command Line Tools 进行Kudu 表迁移。
Fayson
2021-07-05
1.3K
0
0799-1.8-CDSW1.8的新功能
编程算法
网站
windows
kubernetes
网络安全
机器学习生命周期功能可以使数据科学家将模型投产时间从之前数周缩短至几分钟,同时可以扩展ML场景用例,并同时具备企业级安全,可维护以及数据治理的支持。
Fayson
2020-08-20
671
0
0794-5.16.2-Hive和Imapla查询decimal类型结果不同异常
hive
编程算法
根据异常重现部分的步骤,S2字段的数据类型是decimal(13,2)。精度只有2位,但是我们原始数据小数点后都是有3位小数。Hive在这里进行查询的时候会损失精度,打印结果。但是Impala在查询的时候,校验decimal类型会更严格,当前的原始数据精度超过了S2字段设定的数据类型的精度,所以直接返回为空。
Fayson
2020-08-14
1.2K
0
0773-1.7.2-CDSW1.7的新功能
编程算法
apache
数据分析
Cloudera Data Science Workbench仅支持从版本1.5.x和1.6.x升级到版本1.7.1。如果使用的是CDSW的早期版本,则必须首先升级到1.5.x或1.6.x版,然后再升级到1.7.1版。
Fayson
2020-05-25
1.2K
0
0766-6.3.3-如何实现Kafka跨网络访问
kafka
linux
编程算法
tcp/ip
hadoop
在使用Kafka时会遇到内外网的场景,即Kafka集群使用内网搭建,在内网和外网均有客户端需要消费Kafka的消息,同时在集群内由于使用内网环境通信,因此不必太过考虑通信的加密,所以在内网使用非安全的协议也能够通信,但对于外网环境出于安全考虑,只允许通过安全的协议访问Kafka集群,本文档介绍如何基于双网卡来配置Kafka。
Fayson
2020-05-16
3K
0
数据分析设计
决策树
分类算法
编程算法
数据库
数据处理
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM),本案例采用朴素贝叶斯模型。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,本节对此算法作了重点分析。
Fayson
2020-05-06
647
0
0761-7.0.3-如何使用YARN Queue Manager UI配置集群资源
访问管理
编程算法
yarn
node.js
网络安全
在CDP DC上,YARN资源的调度程序默认为Capacity Scheduler。我们可以通过YARN Queue Manager UI来界面化配置YARN的资源队列,队列权重,队列资源,以及队列的ACL等。本文主要讲述如何在CDP DC 7.0.3集群上使用YARN Queue Manager UI来控制队列的资源分配和队列的提交策略。
Fayson
2020-04-21
2.6K
0
0754-5.16.2-Hive中使用Substr拆分含中文乱码字符串报错异常分析
sql
hive
编程算法
从上游Oracle数据库中导出的携带中文乱码且编码集为ISO-8859-1的数据文件,将导出的数据文件导入到Hive表,在原始表的基础上通过创建视图,按照与上游接口约定的定长的方式拆分字段时报错,异常内容如下:
Fayson
2020-02-27
1.9K
0
0738-6.2.0-如何在Hive中使用多分隔符
专用宿主机
jar
编程算法
hive
而Fayson在以前的文章中也基于C5的环境介绍过如何在Hive中使用多分隔符,参考《Hive多分隔符支持示例》。本文主要介绍在CDH6中如何让Hive支持多分隔符。
Fayson
2020-02-10
1.1K
0
0737-1.6.1-CDSW分布式计算
python
编程算法
Cloudera Data Science Workbench为从单个交互式会话中启动多个称为workers的引擎实例提供了基本支持。任何R或Python会话均可用于生成workers。这些工作程序可以配置为在启动时运行脚本(例如Python文件)或命令中。
Fayson
2020-01-14
578
0
有赞大数据平台安全建设实践
大数据
sql
编程算法
在大数据平台建设初期,安全也许并不是被重点关注的一环。大数据平台的定位主要是服务数据开发人员,提高数据开发效率,提供便捷的开发流程,有效支持数仓建设。大数据平台的用户都是公司内部人员。数据本身的安全性已经由公司层面的网络及物理机房的隔离来得到保证。那么数据平台建设过程中,需要考虑哪些安全性方面的问题?
Fayson
2019-11-28
1.9K
0
0712-6.2.0-HBase快照异常
专用宿主机
hbase
TDSQL MySQL 版
编程算法
这个问题是由于CDH6.2.0上在进行HBase Snapshot Restore的过程中,会先进行is_enabled的操作。但假如这个表是已经被drop掉的情况下,会报表不存在。这会导致我们在CDH6.2.0上无法进行下一步的restore的操作。
Fayson
2019-10-11
536
0
快手 HBase 在千亿级用户特征数据分析中的应用与实践
hbase
TDSQL MySQL 版
编程算法
html
快手建设 HBase 差不多有2年时间,在公司里面有比较丰富的应用场景:如短视频的存储、IM、直播里评论 feed 流等场景。本次只分享其中的一个应用场景:快手 HBase 在千亿级用户特征数据分析中的应用与实践。为什么分享这个 Topic?主要原因:对于大部分公司来说,这都是一个普适的场景,因为很普遍,所以可选择的分析引擎也非常多,但是目前直接用 HBase 这种分析用户特征的比较少,希望通过今天的分享,大家在将来遇到这种场景时, 可以给大家提供一个新的解决方案。
Fayson
2019-09-03
1.2K
0
0686-6.2.0-如何为CDH集群的JDK安装JCE策略文件
jdk
编程算法
kerberos
oracle
java
默认情况下, CentOS和RedHat5.5或更高的版本中,对Kerberos 票证使用AES-256加密,因此必须在集群所有节点的JDK中安装Java Cryptography Extension(JCE)无限制强度加密策略文件。在安装JCE文件的Kerberos集群中,服务启动时会报“java.security.InvalidKeyException: Illegal key size”异常。本篇文章Fayson主要介绍使用不同方式安装JCE加密策略文件以及如何禁用Kerberos的AES-256加密。
Fayson
2019-08-12
1.1K
0
HDFS Router-based Federation
rpc
zookeeper
大数据
编程算法
Hadoop 社区为了解决 HDFS 横向扩展的问题,早前的版本中实现了基于 ViewFs 的 Federation 架构,而在最新的 Hadoop 版本中,社区又实现了基于 Router 的 Federatio n架构,并且在这个架构之上还实现了许多增强集群管理能力的特性。Router 将挂载表从 Client 中抽离了出来,解决了挂载表不一致的问题,本篇文章就会介绍 HDFS Router-based Federation 的架构和特性。
Fayson
2019-07-30
2.4K
0
Zeppelin: 让大数据插上机器学习的翅膀
机器学习
神经网络
人工智能
编程算法
hadoop
导语:在数字化、智能化的时代,通过机器学习(Machine Learning)能够强有力的补充 Hadoop 大数据系统的数据处理能力,充分挖掘大数据的核心价值,一款好的算法开发平台能够让企业事半功倍,快速的进行算法实验和生产使用,Apache Zeppelin 就是这样一个兼具了 Hadoop 大数据处理和 机器学习/深度学习算法交互式开发的开源系统。
Fayson
2019-06-28
2.3K
0
0659-6.2.0-Hive处理JSON格式数据
json
apache
编程算法
腾讯云测试服务
文件存储
在使用Hive处理数据的过程中会遇到各种各样的数据源,其中较为常见的是JSON格式的数据,Hive无法直接处理JSON格式的数据,需要依赖于JSONSerDe。SerDe即序列化和反序列化,JSONSerDe基本思想是使用json.org的JSON库,使用这个库可以读取一行数据并解析为JSONObject,然后解析到Hive中的数据行。因此JSON文件的每行必须是一个完整的JSON,一个JSON不能跨越多行。本文档介绍的是JsonSerDe,该库的地址为:https://github.com/rcongiu/Hive-JSON-Serde。它的特点如下:
Fayson
2019-06-26
4K
1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档