开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

无法在HDP 2.5.3上手动启动spark 2.1.0

HDP（Hortonworks Data Platform）是一种开源的大数据平台，而Spark是一种快速通用的大数据处理引擎。在HDP 2.5.3上手动启动Spark 2.1.0可能会遇到一些问题，以下是一些可能的解决方案：

确保Spark 2.1.0已正确安装：首先，确保已正确安装Spark 2.1.0版本，并且相关的环境变量已经设置。可以通过运行spark-shell命令来验证Spark是否正确安装。
检查HDP版本兼容性：确保所使用的Spark版本与HDP版本兼容。不同的HDP版本可能对应不同的Spark版本，因此需要确保所使用的Spark版本与HDP版本兼容。可以参考HDP官方文档或者HDP社区论坛来获取相关信息。
检查配置文件：在启动Spark之前，需要确保相关的配置文件已正确设置。主要包括spark-env.sh和spark-defaults.conf文件。这些文件通常位于Spark的安装目录下的conf文件夹中。可以根据具体需求进行相应的配置，例如设置内存分配、日志级别等。
检查端口和网络连接：确保所使用的端口没有被其他进程占用，并且网络连接正常。Spark需要使用一些端口进行通信，例如默认的Spark Master端口为7077，Worker端口为8888。可以使用netstat命令检查端口占用情况，以及使用ping命令检查网络连接。
检查日志文件：如果手动启动Spark失败，可以查看相关的日志文件来获取更多的信息。主要包括Spark的日志文件（通常位于Spark的安装目录下的logs文件夹中）和Hadoop的日志文件（通常位于Hadoop的安装目录下的logs文件夹中）。通过查看日志文件，可以了解具体的错误信息，从而进行相应的排查和修复。

总结起来，手动启动Spark 2.1.0需要确保正确安装Spark并设置相关的配置文件，同时要注意版本兼容性、端口和网络连接的正常情况。如果遇到问题，可以通过查看日志文件来获取更多的信息。如果问题仍然存在，建议参考HDP官方文档或者HDP社区论坛，寻求更详细的帮助和支持。

腾讯云相关产品和产品介绍链接地址：

腾讯云大数据平台：https://cloud.tencent.com/product/emr
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iot
腾讯云区块链（BCS）：https://cloud.tencent.com/product/bcs
腾讯云元宇宙（Metaverse）：https://cloud.tencent.com/product/metaverse

相关搜索:在HDP 2.4上运行Spark 2 无法在HDP 2.4中启动Kylin 无法在主URL上启动spark 服务无法在启动时启动，但可以手动启动无法在Jupyter notebook中启动Spark会话 spark无法在主服务器上启动org.apache.spark.deploy.worker.worker 无法在DCOS上安装apache spark 无法在Databricks上使用Spark NLP 无法在Ubuntu 20.04上安装用于Ruby 2.5.3版的json 1.8.2版gem 无法在freebsd上启动passenger SonarQube无法在Windows上启动无法在linux上启动mysql 无法在Mac上启动MongoDB Nginx无法在digitalocean上启动在OSX上，mongo无法启动无法在xampp上启动mysql madlib无法在openshift上启动无法在Ubuntu上启动Postgresql Minikube无法在mac上启动 kubernetes上的Spark : Executor pods无法启动，并且在创建sparkContext时

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

搭建Spark高可用集群

从右侧最后一条新闻看，Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效。

02

Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】

Spark是一种快速、通用、可扩展的大数据分析引擎，包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。

03

0481-如何从HDP2.6.5原地升级到CDH6.0.1

编写本文主要是因为Fayson在上篇文章《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》迁移失败的补充，为什么迁移失败是因为HDP2.6.5的Hadoop版本2.7.5比C5的2.6要高导致的，HDFS只支持升级，而不支持降级。

02

我攻克的技术难题 - 如何快速搭建Hadoop3集群

距离唯一一次搭建Hadoop集群，已是六年有余。那时候大数据的学习资料还是我从某宝25买来的，如今大数据已遍地开花。最近想写一些关于大数据的东西，例如Spark、flink等，想放在Yarn上跑，所以就从Hadoop的搭建开始写起。

04

ambari安装指南

（一）准备工作 1、准备几台机器 10.1.51.100 ambariserver 本地mirrorserver及ambari server都在这一台机器 10.1.51.10 master 10.1.51.11 slave1 10.1.51.12 slave2 2、都创建管理用户hadoop 3、做ssh免密码登录(ambariserver到其他机器的，hadoop用户) ssh-keygen cd .ssh cat id_rsa.pub >> authorized_keys chmod 700 ~/.ssh chmod 600 ~/.ssh/authorized_keys 注意，免密码一定要互相登陆一次，让他记住密码 4、设置sudo免密码(hadoop用户)---后续所有操作都在hadoop用户下去做在各节点上进入root: visudo 加入如下内容： hadoop ALL=(ALL) NOPASSWD: ALL 5、Maximum Open File Descriptors(10000) 检查语句 ulimit -Sn ulimit -Hn sudo vi /etc/security/limits.conf @hadoop soft nproc 262144 @hadoop hard nproc 262144 @hadoop soft nofile 262144 @hadoop hard nofile 262144 sudo vi /etc/security/limits.d/90-nproc.conf @hadoop soft nproc 262144 以上改动重启才能生效，最好同时执行ulimit -u 10240 命令，是其立即生效。（ulimit 命令很多啊） 6、Check Existing Package Versions 7、Set up Service User Accounts(设置服务用户账户) http://docs.hortonworks.com/HDPDocuments/Ambari-2.0.0.0/Ambari_Doc_Suite/ADS_v200.html#ref-70627b43-7d78-4cbb-8df8-e3f43cbd8422 hdp的各个服务运行在不同的linux账户下，如果你创建了这些账户，ambari就会直接用，否则他会自动创建，但是自动创建的用户不知道密码是什么，但是还是可以 sudo su hdfs进入到这些用户下，不过这样就不方便了。比较好的办法是自己创建的账户，使用ambari安装组件时选择自定义账户即可(UID >= 1000)。 8、Enable NTP on the Cluster and on the Browser Host 集群各节点，包括安装ambari webui的机器都得开启ntp服务已同步时间，如果有条件，局域网应该有ntp服务器 To check that the NTP service is on, run the following command on each host:chkconfig --list ntpd To set the NTP service to start on reboot, run the following command on each host:chkconfig ntpd on To turn on the NTP service, run the following command on each host:service ntpd start 9、Check DNS(可以选择10) 集群所有机器必须配置正向和反向DNS,如果条件不允许，就设置/etc/hosts文件，每个节点都得改 10、/etc/hosts 1.2.3.4 <fully.qualified.domain.name> //一行一个注意：这两行千万不要删除 127.0.0.1 localhost.localdomain localhost ::1 localhost6.localdomain6 localhost6 vi /etc/sysconfig/network NETWORKING=yesNETWORKING_IPV6=yes HOSTNAME=<fully.qualified.domain.name> 11、关闭防火墙 12、Disable SELinux and PackageKit and check the umask Value set SELINUX=disabled in /etc/selinux/config sudo vi /etc/yum/pluginconf.d/refresh-packagekit.conf 设置：enabled=0 Ambari supports a umask value

08

OushuDB入门（一）——安装篇

OushuDB是由Apache HAWQ创始团队基于HAWQ打造的新一代数据仓库(New Data Warehouse)。该产品采用了存储与计算分离技术架构，具有MPP的所有优点，还具有弹性，支持混合工作负载和高扩展性等优点。作为HAWQ的增强版，OushuDB遵循ANSI-SQL标准，兼容Oracle、Greenplum Database和PostgreSQL，提供PB级数据交互式查询能力，提供对主要BI工具的描述性分析和AI支持。

02

Apache Kylin-2.6安装部署

构建过程是一个MapReduce任务，比较耗时，构建之前确保MapReduce History Server是启动的，否则会报错

03

【大数据版本对比】Hortonworks HDP2.x到3.x技术演进及版本梳理

针对近期搭建HDP3.1.4版本大数据集群，相较之前研究的HDP2.6.3版本，版本跨度大，为更好的了解掌握新版本的新特性，于是对两个版本及区间版本的技术演进做下梳理。

04

0544-CDSW1.5的新功能

Cloudera于2019年1月29日发布CDSW1.5，因为恰逢过年，所以Fayson没第一时间翻译。1.5的主要更新是C6中终于可以使用CDSW了，另外HDP2.6.5和HDP3.1中也可以使用CDSW。

03

hive hwi配置

hdp 2.4 对应的hive版本是1.2.1如果是hdp 2.4 以及以下的版本

04

【流水】使用Ambari搭建Hadoop平台

手动安装Hadoop的朋友都知道，这是一个痛苦的过程。一天时间，你能够把上千台机器全部安装完成么？包括Hive、Spark、Hbase等。

02

大数据统一SQL网关：最新版Kyuubi整合Flink、Spark方案的实践案例总结

Kyuubi最新版本已经发布，本文主要介绍基于Kyuubi SQL网关整合多计算引擎Flink和Spark实践案例总结。另外，翻看Release Notes发现Kyuubi Web UI功能增强，新增SQL编辑器，本文亦一并尝鲜实践记录。

01

012.DolphinScheduler案例实战

需求是，使用spark程序读用户表，统计用户个数，保存到结果表user_count：

02

Spark2.1集群安装（standalone模式）

上传spark-2.1.0-bin-hadoop2.6.tgz安装包到Linux(intsmaze-131)上

02

【数据科学】数据科学中的 Spark 入门

本文由伯乐在线 - zhique 翻译，xxmen 校稿。未经许可，禁止转载！英文出处：Ram Sriharsha。欢迎加入翻译组。 Apache Spark 为数据科学提供了许多有价值的工具。随着 Apache Spark 1.3.1 技术预览版的发布，强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。Apache Zeppelin 正好能够帮他们做到这些。 Zeppelin 是一个基于 Web 的 notebook 服务器

06

眼前一亮的大数据毕业设计来咯~

好多人问我，这种「基于大数据平台的xxxx」的毕业设计要怎么做。这个可以参考之前写得关于我大数据毕业设计的文章大数据方向毕业设计，选题和实现思路。这篇文章是将对之前的毕设进行优化。

02

Kafka实战(四) -Kafka门派知多少

Kafka不是一个单纯的消息引擎系统，而是能够实现精确一次（Exactly-once）处理语义的实时流处理平台

02

Kafka实战(四) -Kafka门派知多少

Kafka不是一个单纯的消息引擎系统，而是能够实现精确一次（Exactly-once）处理语义的实时流处理平台

03

如何在HUE上通过oozie调用Spark工作流

访问ip:8888/about/#step2，点击下载Oozie Editor/Dashboard，可以下载应用程序示例。如下图所示：

02

0764-HDP Spark 2.3.2访问外部Hive 2的配置及验证

数据质量平台基于定义好的数据稽核和数据质量规则，生成Spark SQL并提交运行到HDP 3.1.5集群的Spark 2.3.2上。Spark 通过以下方式之一获取某Hadoop集群上Hive表的数据：

02

一文掌握最新数据湖方案Spark+Hadoop+Hudi+Hive整合案例实践总结

大数据生态发展数年，各种组件版本迭代升级在所难免。组件之间、不同版本之间的适配整合升级，尤为重要。本文主要讲述当前火热的数据湖方案Spark+Hadoop+Hudi+Hive的适配整合案例总结。详细的组件版本信息如下：

01

「EMR 开发指南」之 Kylin 快速构建 Cube

在大数据领域，数据量持续增长，数据类型和来源也变得越来越复杂。传统的数据仓库和分析工具很难满足大规模数据处理和实时分析的需求。为了解决这些问题，Apache Kylin应运而生。

01

Kylin配置Spark并构建Cube

在运行 Spark cubing 前，建议查看一下这些配置并根据集群的情况进行自定义。下面是建议配置，开启了 Spark 动态资源分配：

05

大数据-各组件之间的版本兼容关系

http://archive.apache.org/dist/phoenix/phoenix-5.1.2/

02

初识Spark

Spark是Apache的一个顶级项目，Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

02

将 HBase 迁移到 CDP

您可以将 Apache HBase 工作负载从 CDH 和 HDP 迁移到 CDP。要成功迁移 Apache HBase 工作负载，您必须首先了解两个平台之间的数据管理差异，并准备好源数据以与目标 CDP 平台兼容。

03

Kylin配置Spark并构建Cube（修订版）

在运行 Spark cubing 前，建议查看一下这些配置并根据集群的情况进行自定义。下面是建议配置，开启了 Spark 动态资源分配：

02

HUE配置与各服务集成使用

特别说明：该专栏文章均来源自微信公众号《大数据实战演练》，欢迎关注！

01

ambari系列--报错问题

hbase 启动不起来，通常是因为节点日期不同步。 HDFS 无法启动，通常是因为hdfs 进入了安全模式，需要先退出来，再启动。

01

Ambari + HDP 整体介绍

Ambari 是 hortonworks推出的管理监控Hadoop集群的Web工具，此处的Hadoop集群不单单指Hadoop集群，而是泛指hadoop 整个生态，包括Hdfs，yarn,Spark,Hive,Hbase,Zookeeper，druid等等，管理指的是可以通过Ambari对整个集群进行动态管理，包括集群的部署，修改，删除，扩展等，监控指Ambari实时监控集群的运行状况，包括运行内存，剩余内存，CPU使用率，节点故障等。所以通过Ambari可以简化对集群的管理和监控，让开发者更多的聚焦与业务逻辑。 Ambari + HDP介绍： Ambari：WEB应用程序，后台为Ambari Server，负责与HDP部署的集群工作节点进行通讯，集群控制节点包括Hdfs，Spark，Zk，Hive，Hbase等等。 HDP：HDP包中包含了很多常用的工具，比如Hadoop，Hive，Hbase，Spark等 HDP-Util：包含了公共包，比如ZK等一些公共组件。老的集群部署方式： 1. 集群配置(免密登陆，静态IP，防火墙) 2. JDK，MySql 部署 (Hive相关表结构管理，如果没有用到Hive，无需安装) 3. Hadoop Hdfs 部署(修改配置) (分布式文件存储) 4. Hadoop Yarn 部署(修改配置) (MapReduce 任务调度) 5. (可选) Zookeeper部署，需要修改NameNode 和 ResourceManager 的配置文件 6. Hive 部署 (数据仓库，对Hdfs上保存的数据进行映射管理) 7. HBase 部署 (NoSQL数据库，进行数据存储) 8. (可选) Flume，Sqoop 部署(主要用于数据采集，数据迁移) 9. Spark 部署 (计算框架部署) 10. 后面还需要部署监控框架等等，部署准备：MySql,JDK,Hadoop,Hive,HBase,Zookeeper,Spark,Flume,Sqoop等部署缺点：以上全部部署都是通过命令行来部署，麻烦复杂，容易出错，动态扩展较难，无集群监控部署优点：整体可控，对集群内部运行逻辑比较清楚，只部署需要的服务，所以对集群要求(内存，CPU及硬盘) 可以不是很高 Ambari 集群部署方式： 1. 集群配置(免密登陆，静态IP，防火墙) 2. JDK，MySql 部署 (需要配置Ambari，Hive，Hbase等多张表) 3. 部署Ambari 服务 4. 通过Ambari Web工具部署Hdfs，Spark，Hive，Zk，Hbase，Flume等，想怎么部署就怎么部署，鼠标选择服务和需要部署的节点即可 5. 通过Ambari Web工具进行集群监控，并且对警告及错误进行处理部署准备：MySql,JDK,Ambari,HDP,HDP-Util，和上面老的部署方式相比，是不是少了很多部署注意事项：通过Ambari部署集群对集群节点机器要求比较高，因为有好多关于AmbariServer服务会部署在同一个管理节点上，同时其他集群节点也会同时部署很多其他服务，这对节点的配置(CPU，内存，硬盘)要求比较高，可能运行不起来。部署优点：部署简单，一键部署，方便监控，方便扩展，多集群同时管理 Ambari 部署步骤： 1. 单节点:Ntp,java,selinux,hosts,hostname,ip 2. 克隆节点，修改ip及hostname 3. 安装mysql，配置免密登陆 4. 安装httpd，配置本地ambari+HDP 的yum源 5. Ambari Server安装及初始化 6. Ambari Server 通过向导安装集群 7. Ambari 使用介绍 8. Hdfs HA的高可用 9. 接下来就可以根据我们的需求使用集群了，这部分后面会有专门章节针对Hadoop MR 和Spark进行详细解读。

01

TBDS大数据套件对接cos对象存储系统配置化实现

腾讯大数据处理套件（Tencent Big Data Suite，TBDS）是一个可靠、安全、易用的大数据处理平台。TBDS 提供了多种高性能分析引擎方便您应对实时流数据处理、离线批数据分析、实时多维分析等场景的海量数据分析挑战。

02

011.分布式可视化DAG工作流任务调度系统DolphinScheduler-1.3.3安装部署

源码下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/incubator/dolphinscheduler/ 我这里选择1.3.3版本的apache-dolphinscheduler-incubating-1.3.3-src.zip

02

Spark 伪分布式 & 全分布式安装指南

0、前言 3月31日是 Spark 五周年纪念日，从第一个公开发布的版本开始，Spark走过了不平凡的5年：从刚开始的默默无闻，到13年的鹊起，14年的大爆发。Spark核心之上有分布式的机器学习，SQL，streaming和图计算库。 4月1日 spark 官方正式宣布 Spark 2.0 对Spark重构，更好支持手机等移动终端。Databricks创始人之一hashjoin透漏了相关的重构方法：利用Scala.js项目把Spark代码编译成JavaScript，然后利用Safari / Chrom

05

使用TPC-DS基准测试SQL-on-Hadoop系统的性能

• 与Presto、SparkSQL或Hive on Tez相比，Hive-LLAP有多快？

02

yarn任务信息的几种获取方式

在问题定位、日常巡检、特定开发任务中，都会涉及查看yarn任务的相关信息，包括applicaiton的ID、类型、名称、起始时间、app所包含的container、以及每个container的日志文件内容等信息。本文就来聊聊查询查看这些信息的几种方式。

02

CDP-DC7.1中的 YARN：新增功能和升级方法

该博客文章将介绍客户如何将集群和工作负载迁移到新的CDP-DC7.1，以及此新版本的重点。

03

FAQ系列之CDP PvC Base

CDP 私有云基础是Cloudera的本地（裸机）产品、企业数据中心（Enterprise Data Hub）和 HDP 企业的演变。CDP Private Cloud Base 7.1 包括 Cloudera Runtime 7.1，它将 CDH 和 HDP 的优点结合到一个发行版中。CDP私有云基础为客户提供以下服务：

04

强者联盟——Python语言结合Spark框架

框架由Scala语言开发，原生提供4种API，Scala、Java、Python以及最近版本开始支持的R。Python不是Spark的“亲儿子”，在支持上要略差一些，但基本上常用的接口都支持。得益于在数据科学中强大的表现，Python语言的粉丝遍布天下，如今又遇上强大的分布式内存计算框架Spark，两个领域的强者走到一起，自然能碰出更加强大的火花（Spark可以翻译为火花），因此PySpark是本节的主角。

03

WIN 10 安装 Hadoop 2.7.7 + Spark 2.4.7 记录

环境：win 10 + java 1.8.0_281 + Scala 2.11.11 + Hadoop 2.7.7 + Spark2.4.7

02

如何在Kerberos环境下的CDH集群部署Spark2.1的Thrift及spark-sql客户端

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson介绍了《如何在CDH中启用Spark Thrift》和《如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端》，本篇文章Fayson主要介绍如何在非Kerberos环境下的CDH集群中部署Spark2.1的T

03

OushuDB入门（三）——高可用篇

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80194003

02

CM+CDH 整体介绍

大数据平台的开发环境搭建，我们前面已经说过了，需要搭建Hdfs，Yarn，Spark，HBase，Hive，ZK等等，在开发环境下搭建是用于开发测试的，全部部署在VM 虚拟机里面，小数据量小运算量还可以，数据量运算量一旦上来，虚拟机是玩不转的，这就牵涉到生产环境的Hadoop的生态搭建，难道也需要我们一步一步来搭建吗？几台还可以，那么上百台呢？难道也需要一台台搭建吗？显然不可以，有没有什么好的Hadoop生态的搭建工具呢？国外有俩家企业做了这些事，hortonworks公司推出的Ambari+HDP套件和 Cloudrea公司推出的 CM+CDH 套件，不过这俩家公司 18年底合并了,不过这并不影响我们的使用。 2. CM+CDH介绍 CM是Cloudrea Manager的简称，是Cloudrea 提供的生产环境的Hadoop 生态部署工具，工具套件为CM+CDH,CM负责监控动态管理及部署Hadoop生态服务，CDH里面包含了绝大多数的Hadoop生态中的服务，包含Hdfs，Yarn，ZK，Hive，Hbase，Flume，Sqoop，Spark等。整体上与前面说所得Ambari + HDP类似。 CM+CDH有免费版和收费版，收费版当然功能更加强悍，比如支持回滚，滚动升级，支持Kerberos，SAML/LDAP支持，SNMP支持，自动化备份和灾难恢复，不过在我们看来，免费版已经够我们使用了。这里简单和Ambari + HDP对已一下，CDH在部署Hadoop生态上，整体与HDP类似，通过WEB端动态部署Hadoop生态， Name Web Server Tools hortonworks Ambari HDP HDP-Util Cloudrea CM CDH CDH-Util CM+CDH套件组成 CM：WEB应用程序，后台为Ambari Server，负责与HDP部署的集群工作节点进行通讯，集群控制节点包括Hdfs，Spark，Zk，Hive，Hbase等等。 CDH：HDP包中包含了很多常用的工具，比如Hadoop，Hive，Hbase，Spark等 CDH-Util：包含了公共包，比如ZK等一些公共组件。 3. CM+CDH 部署

01

0480-如何从HDP2.6.5原地迁移到CDH5.16.1

我们常使用的Hadoop平台包括Apache Hadoop，CDH和HDP，有时我们会碰到需要迁移平台的情况，举个例子，比如你已经一直在使用Apache Hadoop2.4，近期看到CDH6附带Hadoop3发布了，想迁移到CDH并且做整个平台的所有组件升级。平台迁移和平台升级的方式基本一样的，一般有2种大的选择，第一种是原地升级即直接在原有平台上操作，该办法操作效率较高，马上看到效果，但往往风险较高，比如升级失败回滚方案不完善，跨大版本比如Hadoop2到Hadoop3可能HDFS还有丢数据的风险；第二种是拷贝数据的方式升级，需要额外的服务器资源，会新搭平台，然后把旧的平台的数据拷贝过去，数据拷贝完毕后，再把旧集群的机器下线了慢慢加入到新集群，该方法一般实施周期较长，但是风险较小。根据实际情况可以选择不同的方式来进行平台迁移或者平升级，另外对于两种方案还可以具体细化分类出不同的方案，比如第一种方案考虑提前备份数据或者备份关键数据等，本文Fayson不做细化讨论。

04

OushuDB入门（六）——任务调度篇

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80408771

01

Ambari在离线环境中安装Hadoop集群顶

如果手工安装Hadoop集群,在管理和后继部署中，越来越多的问题不断出现，主要如下：

05

将 Kudu 数据迁移到 CDP

当您将 Kudu 数据从 CDH 迁移到 CDP 时，您必须使用 Kudu 备份工具来备份和恢复您的 Kudu 数据。

03

hudi HMS Catalog尝鲜指南

功能亮点：当flink和spark同时接入hive metastore时，用hive metastore对hudi的元数据进行管理，无论是使用flink还是spark引擎建表，另外一种引擎或者hive都可以直接查询。

02

Hortonworks正式发布HDP3.0

7月13日，Hortonworks在其官网宣布发布HDP3.0，包括Ambari2.7和SmartSense1.5。包括下载仓库与配套文档都正式GA。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭