Dataproc群集的数据融合资源调配失败_大使helm图表升级失败，因为资源已存在于群集中，并且未在以前的版本错误中定义_分配timestampLabel时，数据流作业的PubSub资源设置失败 - 腾讯云开发者社区

google-cloud-dataproc、google-cloud-data-fusion

我已经创建了一个简单的管道，它从SQL Server表中读取数据，然后写入到BigQuery表中。然后，我将其配置为使用Spark并部署和运行。它从提供dataproc集群开始，我可以看到它相对较快地创建了3个VM，一个master和两个worker。不过，在dataproc UI和Data Fusion UI中，主要的集群创建作业仍然是"provisioning“。大约17分钟后，它失败了。我在一个企业实例和一个基本实例中都尝试过。06-21 10:59:42,087 -

浏览 26提问于2019-06-21得票数 3

回答已采纳

1回答

GCP数据传输在执行管道时速度太慢

google-cloud-platform、google-cloud-data-fusion、cdap

我知道数据扩散是CDAP上的托管服务，但与CDAP OSS (在Google Market place中)相比，当前的6.1.1企业版太慢了。调配dataproc节点大约需要3分钟(无论计算配置文件是什么)，启动和运行模式大约需要1.5分钟，然后数据将开始流经节点。有什么方法可以优化这一点并提高速度吗？

浏览 18提问于2020-03-06得票数 1

回答已采纳

1回答

如何检查kubernetes集群是否有资源来部署我所有的软件

kubernetes

我有每个软件的配置信息，比如每个软件的pods数量、cpu和RAM的请求和限制。如何检查我的群集是否有足够的资源来调配所有软件，甚至在实际部署软件之前

浏览 0提问于2019-07-09得票数 0

1回答

我对GCP的数据融合的内部工作流程很好奇

apache-spark、google-cloud-platform、google-cloud-data-fusion

我在开发人员和企业模式下使用了Google Cloud platform的DataFusion产品。对于开发人员模式，没有数据过程设置(主节点、工作节点)。对于企业模式，有一个dataproc设置值。(主节点、工作节点) 我好奇的是企业模式的情况。我能够设置Master节点和Worker节点的值。详述 Enterprise - Master.- Master Cores: 2vcpu - Mas

浏览 14提问于2020-10-26得票数 0

回答已采纳

1回答

私有云数据融合能连接到互联网吗？

google-cloud-platform、google-cloud-data-fusion

我们的应用程序由通过“云运行”部署的spring应用服务器和“云sql postgres”数据库组成。我们希望定期向这个数据库提供“云数据融合”(CDF)。CDF应该从AWS S3中获取数据并将其推入我们的数据库。为此目的，我们设计并验证了一条管道，但我们面临着一个网络悖论：要么CDF是公

浏览 7提问于2020-12-28得票数 0

1回答

Google到Server(基于centos 7)连接错误？

sql-server、pyspark、database-connection、sqoop、google-cloud-dataproc

我陷入了一个已经浪费了3天时间的问题。我有一个dataproc集群1.5，我还在运行centos 7 OS的google上安装了SQL Server。但是，我无法通过dataproc集群中的pyspark连接Server。您可以在附件中找到错误快照。SQL服务器上禁用SSL加密。我可以通过sqlcmd(安装在dataproc集群上)访问SQL服务器，也可以从dataproc集群通过PYMSSQL库访问SQL服务器。但不是用火花放电。在尝试从Sqoop访问MSSQL时也会

浏览 1提问于2021-02-18得票数 3

回答已采纳

1回答

Dataproc中的Yarn队列示例(Spark v2)

apache-spark、hadoop-yarn、google-cloud-dataproc

有没有人能够在Dataproc的Spark 2.x上添加比默认队列更多的队列？创建群集时失败的尝试：此外，在上述任一配置前缀上设置yarn.scheduler.fair.allow-undeclared-pools=tru

浏览 0提问于2017-12-09得票数 2

回答已采纳

1回答

云数据融合与Dataproc

google-cloud-platform、etl、google-cloud-dataproc、google-cloud-data-fusion

云数据融合提供了使用图形管道UI表示创建ETL作业的能力，而Dataproc则允许我们运行以前创建的Spark/Hadoop/Hive作业。由于我在这两种服务方面的经验有限，我发现云数据融合在这两种服务中更容易使用和管理。我想知道在Dataproc中创建和运行作业比云数据融合更可取的用例。

浏览 0提问于2022-05-09得票数 3

回答已采纳

2回答

Data Fusion管道使用来自云NAT的外部IP，而不是将外部IP分配给Dataproc群集节点

google-cloud-data-fusion

我正在尝试从限制外部IP访问的客户端提取数据。我已经使用允许的IP配置并测试了云NAT。但是，当我部署我的Pipeline时，Data Fusion创建了Dataproc集群，并将其他临时外部IP分配给节点。我不想分配这些IP，这样节点就可以使用云NAt上定义的IP。我尝试过通过Data Fusion运行时参数将--no-address传递给Dataproc，但这不是正确的方式。此外，我还查找了一些在我的Data Fusion实例上配

浏览 0提问于2019-06-13得票数 1

1回答

在kubernetes中更新多个pod中的多个静态文件

kubernetes

在kubernetes中更新许多pod中的许多静态文件(css、js、图像)的最佳实践是什么？谢谢!

浏览 1提问于2021-06-10得票数 1

1回答

如何配置云数据融合管道以在现有Hadoop集群上运行

google-cloud-data-fusion

云数据融合为每次管道运行创建一个新的Dataproc集群。我已经有了一个运行24x7的Dataproc集群设置，我希望使用该集群来运行管道。

浏览 1提问于2019-07-03得票数 4

回答已采纳

1回答

调度启动/停止DataProc集群

google-cloud-platform、google-compute-engine、google-cloud-dataproc

从提供的数据处理文档中可以看出：在从提交群集创建请求时开始的指定期间之后。这样，我就可以避免额外的成本，而不必手动停止(或者更确切地

浏览 2提问于2021-09-07得票数 2

回答已采纳

1回答

不同帐户中的Data Fusion Dataproc计算教授

google-cloud-dataproc、google-cloud-data-fusion、cdap

我正在尝试通过部署Data Fusion实例的另一个项目中的Data Proc集群来执行管道，但我遇到了一些问题。数据过程实例似乎已正确创建，但作业启动失败。有没有办法解决这个问题？这里是错误的堆栈跟踪谢谢

浏览 10提问于2020-07-29得票数 1

回答已采纳

2回答

云数据融合-现有的Dataproc选项缺失

hadoop、google-cloud-platform、google-cloud-dataproc、google-cloud-data-fusion、cdap

根据，有一个选项可以使用6.2版本及以上版本的现有Dataproc集群。我们做错什么了？为什么没有显示所描述的选项？我们必须做一些额外的配置吗？更新1 更新2 当我们尝试使用远程Hadoop 时，我们在/log/Program.log文件中得到了以下错

浏览 0提问于2021-06-03得票数 2

1回答

我没有找到NodeInitializationAction的证据，因为Dataproc已经运行。

java、google-cloud-dataproc

("wide-isotope-147019");cluster.setClusterName("cat"); 就证据而言，我应该期待什么？(编辑:我在/etc

浏览 2提问于2016-12-22得票数 4

回答已采纳

1回答

使用kerberized集群时，8088上的资源管理器UI不工作

apache-spark、hadoop、kerberos、google-cloud-dataproc

嗨，我已经使用下面提到的gcloud命令创建了一个dataproc集群- gcloud dataproc clusters create spark-kerberos --region=us-central1-image-version 1.4-debian10 --scopes 'https://www.googleapis.com/auth/cloud-platform' --properties "dataproc:kerberos.beta.au

浏览 0提问于2020-11-21得票数 2

1回答

如何在数据流程中更新集群状态

google-cloud-dataproc

在为spark创建了一个包含2个工作节点的集群后，我更改了我的初始化脚本。然后我稍微修改了一下脚本，尝试用另外两个工作节点来更新集群。脚本失败是因为我只是在apt-get install之前忘记了apt-get update，所以dataproc报告错误，并且集群的状态更改为ERROR。当我再次尝试将大小减少到2个节点时，它不再工作，并显示以下消息 ERROR: (gcloud.dataproc.clusters.update) Cluster 'cluster-1'

浏览 2提问于2016-08-06得票数 1

1回答

GKE自动缩放

kubernetes、google-kubernetes-engine、autoscaling

我的集群中有三个节点池，每个池都启用了从1到100个节点的自动伸缩。最小节点数为1。我遇到了一些关于自动缩放的奇怪的事情。缩减适用于所有池。向上扩展似乎是创建一个新的节点池，而不是扩展相应的节点池，但由于该节点池缺少标签，我们不需要任何东西，因此不会进行任何调度，最终会被销毁。我发誓我缺少一些信息来使它能够扩展正确的节点池，有什么建议要看什么和在哪里更改？我不使用/不使用GCE自动伸缩

浏览 5提问于2021-09-29得票数 0

1回答

无法使用服务帐户创建Dataproc群集

google-cloud-platform、google-cloud-dataproc

我是Google云和评估Dataproc集群的新手，其核心需求之一是动态创建集群并处理作业。对于各种文档读取和，我尝试创建一个服务帐户并添加以"Dataproc“开头的角色。gcloud beta dataproc clusters create jill-cluster \ --subnet default不幸的是，我也无法从伐木中获得足够的线索。我想我在最初的问

浏览 4提问于2020-05-07得票数 2

回答已采纳

1回答