开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我正在使用Google Cloud dataproc集群运行Spark。数据集写入GCS时出现挂起的1个任务，该任务永远不会结束

Google Cloud dataproc是一种托管式的云计算服务，用于在Google Cloud上运行Apache Spark和Hadoop等大数据处理框架。它提供了一个灵活且可扩展的集群环境，用于处理大规模数据集。

在使用Google Cloud dataproc集群运行Spark时，如果在将数据集写入Google Cloud Storage（GCS）时出现挂起的任务，可能有以下几个可能的原因和解决方法：

网络连接问题：首先，检查集群和GCS之间的网络连接是否正常。确保网络连接稳定，并且没有任何防火墙或网络配置问题。可以尝试重新启动集群或检查网络设置。
数据集大小和网络带宽：如果数据集非常大，而网络带宽有限，可能会导致任务挂起。可以尝试将数据集分成较小的块，并使用并行处理的方式将它们写入GCS。这样可以减少单个任务的负载，提高写入速度。
GCS存储桶权限：确保你有足够的权限将数据写入目标GCS存储桶。检查存储桶的访问权限设置，并确保你具有适当的写入权限。
代码错误或逻辑问题：检查你的Spark代码是否存在错误或逻辑问题，可能导致任务挂起。确保你的代码正确处理数据集写入操作，并没有死循环或其他导致任务无法结束的问题。

如果以上方法都无法解决问题，建议查看Google Cloud dataproc的官方文档和支持论坛，以获取更详细的帮助和指导。以下是一些相关的腾讯云产品和文档链接，供参考：

腾讯云大数据计算服务：https://cloud.tencent.com/product/dc
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云人工智能服务：https://cloud.tencent.com/product/ai
腾讯云区块链服务：https://cloud.tencent.com/product/baas
腾讯云元宇宙服务：https://cloud.tencent.com/product/vr

请注意，以上链接仅供参考，具体产品选择应根据实际需求和情况进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

基于Apache Hudi在Google云平台构建数据湖

现在，由于我们正在 Google Cloud 上构建解决方案，因此最好的方法是使用 Google Cloud Dataproc[5]。...Google Cloud Dataproc 是一种托管服务，用于处理大型数据集，例如大数据计划中使用的数据集。...Dataproc 是 Google 的公共云产品 Google Cloud Platform 的一部分， Dataproc 帮助用户处理、转换和理解大量数据。...spark 作业，该作业从我们之前推送到的 Kafka 中获取数据并将其写入 Google Cloud Storage Bucket。...结论可以通过多种方式构建数据湖。我试图展示如何使用 Debezium[6]、Kafka[7]、Hudi[8]、Spark[9] 和 Google Cloud 构建数据湖。

1.7K1 0

Kaggle大神带你上榜单Top2%：点击预测大赛纪实（上）

用Google Cloud Dataproc（谷歌云数据处理）管理服务可以很容易地部署一个Spark集群。...Dataproc Spark集群利用谷歌云存储（Google Cloud Storage, GCS）作为分布式文件系统而非通常默认使用的HDFS。...作为一个管理存储(Managed storage)方式，它使得实例间的大型文件的传输和存储更加便利。Spark能够直接使用GCS中的数据做分布式处理。...完整的代码在Dataproc Spark集群中用8个工作节点能够在30秒内运行完。把训练数据 (click_trains.csv) 加载到一个Spark DataFrame内，并计算行数。...在下面的代码片段，你会看到这种分层抽样可以很简单的通过Spark SQL Dataframe实现（Spark集群是部署在Google Dataproc上面的）。

1.1K3 0

（译）Google 发布 Kubernetes Operator for Spark

他提供 Databricks 平台的支持，可用于内部部署的或者公有云的 Hadoop 服务，例如 Azure HDInsight、Amazon EMR、以及 Google Cloud Dataproc，...Spark Operator 让 Spark 可以原生运行在 Kubernetes 集群上。 Spark 应用（这些应用用于分析、数据工程或者机器学习）可以部署在这些集群上运行，像在其它集群上一样。...Google 声明，Spark Operator 是一个 Kubernetes 自定义控制器，其中使用自定义资源来声明 Spark 应用的元数据；它还支持自动重启动以及基于 cron 的计划任务。...今后，开发者、数据工程师以及数据科学家可以创建声明式的规范，来描述他们的 Spark 应用，并使用原生的 Kubernetes 工具（例如 Kubectl）来管理他们的应用。...Hadoop 怎么办很多非 Databricks 的 Spark 集群是运行在 Hadoop 上的。Spark Operators 的出现，是否意味着 Hadoop 的影响被削弱了？

1.3K1 0

2019年，Hadoop到底是怎么了？

从我第一次使用 Apache Hadoop 生态系统开始，围绕着“大数据”和“机器学习”两个术语，很多事情已经变得很不一样。...它使公司能够收集、存储和分析任何数据，并在公司的主要生产环境中被大量使用。很多其他工具也支持该框架——下面的表格给出了本文会提到的组件列表的基本信息。...这种方式可以进行更快的查询，同时仍可以让用户选择运行很多需要访问大量数据的作业，从而接近大型 RDMBS 集群如 Postgres 所能提供的功能。 ?...这点也存在争议，我很愿意研究其他 FOSS 工具，和存储组件（S3、GCS 等）一样，这些工具能给大型托管的、类似 SQL 的云服务提供类似的功能。...而且，Spark 框架从 Hadoop 剥离后，可以用在AWS EMR、Google Cloud Dataproc和 Azure HDInsights上，开发者可以直接把现有的 Spark 应用程序直接迁移到完全托管服务的云上

1.9K1 0

将Hadoop作为基于云的托管服务的优劣势分析

Apache Hadoop是一种开源软件框架，能够对分布式集群上的大数据集进行高吞吐量处理。Apache模块包括Hadoop Common，这是一组常见的实用工具，可以通过模块来运行。...这些模块还包括：Hadoop分布式文件系统(HDFS)、用于任务调度和集群资源管理的 Hadoop YARN以及Hadoop MapReduce，后者是一种基于YARN的系统，能够并行处理庞大的数据集。...而现在，活动进程出现在HDFS的内存中的缓存，Hadoop使用后写(write-behind)将数据存储在磁盘上。...Qubole与谷歌云(Google Cloud)达成了合作伙伴，使用谷歌的计算引擎(GCE)。...说到谷歌，面向Hadoop的谷歌云存储(GCS)连接件让用户可以直接对存储在GCS中的数据运行MapReduce任务，那样就没必要在内部写入数据、在本地Hadoop中运行。

2.1K1 0

UC Berkeley提出新型分布式执行框架Ray：有望取代Spark

随着该领域的成熟，机器学习应用需要更多地在动态环境下运行，响应环境中的变化，并且采用一系列的动作来完成既定目标。...当客户端写入 GCS 的一个碎片时，它将写入复制到所有副本。通过减少 GCS 的碎片数量，我们人为地使 GCS 成为工作负载的瓶颈，双向复制的开销小于 10%。...除此之外，每个任务的存储谱系需要执行垃圾回收策略，以在 GCS 中限制存储成本，这个功能目前正在开发中。当 GCS 的消耗成为瓶颈时，可以通过增加更多的碎片来扩展全局调度器。...Ray 太渺小了，我甚至怀疑，我们是不是连与使用系统编程语言 Rust（支持并发原语和线程安全）同等级的技术支持都得不到。...为了提供减载支持，Ray 可能会采用 SEDA 架构，这样当一次性提交太多任务时，系统就不会突然停转。

1.7K8 0

PXC状态参数与变量参数

--wsrep_commit_oooe：这个参数的值永远是0，如果出现别的值，请看官网资料 --wsrep_commit_oool：这个参数的值永远是0，如果出现别的值，请看官网资料 --wsrep_commit_window...，这个节点的活动也就越频繁； --wsrep_local_state：表示当前节点的状态，（有4个值： 1：表示正在请求加入集群，速度很快一般看不到这个状态；2：表示正在同步数据；3：表示当前节点已经加入集群...如果小于这个长度，则FC解除； ---gcs.fc_master_slave ：这个参数与上面两个参数是相关的，如果设置为yes，表示当前集群的使用方式为主从模式，也就是单点写入的模式，其他节点都是从节点...，如果接受任务队列的长度已经超过了fc.limit值，则这个从节点也不会发送flow control小心，整个集群的写入安然无恙，只是有可能从节点的数据不是最新的了，有一段时间的延迟，如果可以几首，那长期保持这样的状态也没什么不好的...；如果延迟问题没有了，那就不会再出现任务堆积的情况了，这是可以再讲这个参数值设置为OFF，整个集群又保持一致了，就变成了真真正正的galera cluster； --wsrep_cluster_address

1.5K2 0

什么是 Apache Spark？大数据分析平台如是说

非常好，Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...如果你追求一个有管理的解决方案，那么可以发现 Apache Spark 已作为 Amazon EMR、Google Cloud Dataproc, 和 Microsoft Azure HDInsight...Spark 的内存内数据引擎意味着在某些情况下，它执行任务的速度比 MapReduce 快一百倍，特别是与需要将状态写回到磁盘之间的多级作业相比时更是如此。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口（本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化）是推荐的开发方式。...提供深度学习管道的工作正在进行中。 Spark GraphX Spark GraphX 提供了一系列用于处理图形结构的分布式算法，包括 Google 的 PageRank 实现。

1.3K6 0

什么是 Apache Spark？大数据分析平台详解

非常好，Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...如果你追求一个有管理的解决方案，那么可以发现 Apache Spark 已作为 Amazon EMR、Google Cloud Dataproc, 和 Microsoft Azure HDInsight...Spark 的内存内数据引擎意味着在某些情况下，它执行任务的速度比 MapReduce 快一百倍，特别是与需要将状态写回到磁盘之间的多级作业相比时更是如此。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口(本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化)是推荐的开发方式。...提供深度学习管道的工作正在进行中。 Spark GraphX Spark GraphX 提供了一系列用于处理图形结构的分布式算法，包括 Google 的 PageRank 实现。

1.5K6 0

大数据分析平台 Apache Spark详解

[图片] 非常好，Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。...如果你追求一个有管理的解决方案，那么可以发现 Apache Spark 已作为 Amazon EMR、Google Cloud Dataproc, 和 Microsoft Azure HDInsight...Spark 的内存内数据引擎意味着在某些情况下，它执行任务的速度比 MapReduce 快一百倍，特别是与需要将状态写回到磁盘之间的多级作业相比时更是如此。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口（本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化）是推荐的开发方式。...提供深度学习管道的工作正在进行中。 Spark GraphX Spark GraphX 提供了一系列用于处理图形结构的分布式算法，包括 Google 的 PageRank 实现。

2.8K0 0

什么是 Apache Spark？大数据分析平台详解

Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...如果你追求一个有管理的解决方案，那么可以发现 Apache Spark 已作为 Amazon EMR、Google Cloud Dataproc, 和 Microsoft Azure HDInsight...Spark 的内存内数据引擎意味着在某些情况下，它执行任务的速度比 MapReduce 快一百倍，特别是与需要将状态写回到磁盘之间的多级作业相比时更是如此。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口(本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化)是推荐的开发方式。...提供深度学习管道的工作正在进行中。 ■Spark GraphX Spark GraphX 提供了一系列用于处理图形结构的分布式算法，包括 Google 的 PageRank 实现。

1.2K3 0

GCP 上的人工智能实用指南：第一、二部分

Cloud Dataproc Cloud Dataproc 是一个完全托管的 Hadoop 和 Spark 集群，可以在几秒钟内旋转。...Cloud Dataproc 是一个自动扩展集群，可用于非常有效地运行 Hadoop，Spark 以及 AI 和 ML 应用。...这使得群集的使用非常容易且安全。在 Dataproc 集群下，Google 实际上运行计算实例。...因此，在这种情况下，即使抢占式实例发生故障，该作业也将转移到另一个节点，并且不会产生任何影响。 Cloud Dataproc 集群的定价随实例而异，但是具有非常有竞争力的定价。...将 Dataproc 视为完全托管的云 Hadoop 和 Spark 集群。

17K1 0

为什么我会被 Kubernetes“洗脑”？

一个新出现的模式是将基础设施分布于AWS（用于用户流量）和Google Cloud（用于数据工程）上。...Thumbtack[8]公司正在使用此模式：在Thumbtack，位于AWS的生产基础设施负责处理用户请求。事务日志将从AWS推送到Google Cloud，并在那里进行数据工程。...这些机器学习任务是在Cloud Dataproc中运行的，Cloud Dataproc是一个运行Apache Spark的服务。...我们需要一种方法来锁定一个变量，这样两个节点便不能以非确定性的方式写入该变量。我们需要一种方法来做主选举，以便在主节点死亡时，其他节点可以选择一个新节点来编排系统。...当你把一个功能作为服务调用时，你的集群将负责调度和运行该功能。你不必考虑启动一台新机器并监控该机器，或者在机器闲置时停机。你只需告诉集群你想要运行一个功能，然后集群将执行它并返回结果。

1.4K6 0

为什么我会被Kubernetes“洗脑”？

一个新出现的模式是将基础设施分布于 AWS（用于用户流量）和 Google Cloud（用于数据工程）上。Thumbtack[8] 公司正在使用此模式。...这些事务会从队列里被抽出，并存储在 BigQuery 中，BigQuery 是一个存储和查询大量数据的系统。 BigQuery 充当编排机器学习任务时的数据池，以便人们从中抽取数据。...这些机器学习任务是在 Cloud Dataproc 中运行的，Cloud Dataproc 是一个运行 Apache Spark 的服务。...我们需要一种方法来锁定一个变量，这样两个节点便不能以非确定性的方式写入该变量。我们需要一种方法来做主选举，以便在主节点死亡时，其他节点可以选择一个新节点来编排系统。...当你把一个功能作为服务调用时，你的集群将负责调度和运行该功能。你不必考虑启动一台新机器并监控该机器，或者在机器闲置时停机。你只需告诉集群你想要运行一个功能，然后集群将执行它并返回结果。

1.4K9 0

Spark的调度系统

二，App之间的调度在以集群的方式运行Spark App时，每个Spark App会包含一些列独立资源的Executor JVMs，这些JVMs仅仅运行该App的tasks，缓存该App的数据。...当有多个应用或者多个程序在你的集群中运行时，这就牵涉到如何在集群中给这些Spark App分配资源。最简单的方式是提供静态资源分配。也即给运行程序分配固定资源，资源数在该程序运行期间都不会有变动。...当你需要运行大量不活跃的Spark App时，此模式是有用的。但是此模式，是有一定风险的，因为当Spark App需要恢复使用这些cores的时候，需要等待一些时间才能使用这些core去执行任务。...当有spark.dynamicAllocation.schedulerBacklogTimeout秒的挂起任务时触发实际的请求，然后如果挂起的任务队列仍然存在，则每隔spark.dynamicAllocation.sustainedSchedulerBacklogTimeout...除了写shuffle文件之外，执行程序还可以在磁盘或内存中缓存数据。但是，当执行器被删除时，所有缓存的数据将不再可访问。为了避免这种情况，默认的包含缓存数据的executors 永远不会被删除。

1.6K8 0

为什么我会被 Kubernetes “洗脑”？

一个新出现的模式是将基础设施分布于AWS（用于用户流量）和Google Cloud（用于数据工程）上。...Thumbtack[8]公司正在使用此模式：在Thumbtack，位于AWS的生产基础设施负责处理用户请求。事务日志将从AWS推送到Google Cloud，并在那里进行数据工程。...这些机器学习任务是在Cloud Dataproc中运行的，Cloud Dataproc是一个运行Apache Spark的服务。...我们需要一种方法来锁定一个变量，这样两个节点便不能以非确定性的方式写入该变量。我们需要一种方法来做主选举，以便在主节点死亡时，其他节点可以选择一个新节点来编排系统。...当你把一个功能作为服务调用时，你的集群将负责调度和运行该功能。你不必考虑启动一台新机器并监控该机器，或者在机器闲置时停机。你只需告诉集群你想要运行一个功能，然后集群将执行它并返回结果。

8614 0

没有三年实战经验，我是如何在谷歌云专业数据工程师认证中通关的

在此之前，将由Google Cloud从业者讲授如何使用Google BigQuery、Cloud Dataproc、Dataflow和Bigtable等不同的项目。...，我会做大量模拟练习，找到自己的短板 • 帮助记忆Dataproc的打油诗：「Dataproc the croc and Hadoop the elephant plan to Spark a fire...但是，在浏览课程概述页面后，我发现这个资源很不错，可以将你在Google Cloud上学习的数据工程内容综合起来，并发现你的短板。我把这门课程作为参考资料发给了一位正在准备认证考试的同事。...可视化数据和提议策略 7. 考虑安全性和合理性 Google Cloud Professional数据工程师考试的不同部分（第2版） 1. 设计数据处理系统 2. 构建和运行数据处理系统 3....考试结束后完成考试后，你只会收到通过或失败两种结果。我建议考试成绩至少达到70，因此我练习考试时的目标至少是90。

3.9K5 0

一文读懂Apache Spark

Spark支持在一个独立的集群中运行，只需在集群中的每台机器上使用Apache Spark框架和JVM。然而，你可能更希望利用资源或集群管理系统来负责分配任务。...如果你使用托管解决方案，那么Apache Spark可以在Amazon EMR、谷歌Cloud Dataproc和Microsoft Azure HDInsight上使用。...第一个优点是速度，Spark的内存数据引擎意味着在某些情况下，它可以比MapReduce执行任务的速度快100倍，特别是回写磁盘的多级任务时。...Spark RDD Apache Spark的核心是弹性分布式数据集Resilient Distributed Dataset(RDD)的概念，它是一种编程抽象，它表示可以跨计算集群拆分的不可变集合。...Spark以一种分布式方式运行，它将一个驱动程序核心流程组合在一起，将一个Spark应用程序分割成任务，并将其分发给执行该工作的许多执行程序。这些执行器可以按应用程序的需要按比例放大或缩小。

1.7K0 0

Docker Swarm 已死，Kubernetes 永生

一个新出现的模式是将基础设施分布于AWS（用于用户流量）和Google Cloud（用于数据工程）上。Thumbtack[8]公司正在使用此模式。...这些事务会从队列里被抽出，并存储在BigQuery中，BigQuery是一个存储和查询大量数据的系统。 BigQuery充当编排机器学习任务时的数据池，以便人们从中抽取数据。...这些机器学习任务是在Cloud Dataproc中运行的，Cloud Dataproc是一个运行Apache Spark的服务。...我们需要一种方法来锁定一个变量，这样两个节点便不能以非确定性的方式写入该变量。我们需要一种方法来做主选举，以便在主节点死亡时，其他节点可以选择一个新节点来编排系统。...当你把一个功能作为服务调用时，你的集群将负责调度和运行该功能。你不必考虑启动一台新机器并监控该机器，或者在机器闲置时停机。你只需告诉集群你想要运行一个功能，然后集群将执行它并返回结果。

6.6K13 0

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

有了GCP账户和支付信息之后，就可以使用服务了。首先需要的Google Cloud Storage (GCS)：用来存储SavedModels，训练数据，等等。...如果一个notebook写入了文件，其它notebook就能读取这个文件。如果运行黑客的文件，可能读取隐私数据。密码也会泄露给黑客。...这么设置后，TensorFlow不会释放获取的内存（避免内存碎片化），直到程序结束。这种方法无法保证确定的行为（比如，一个程序内存超标会导致另一个程序崩溃），所以在生产中，最好使用前面的方法。...要启动任务，你需要命令行工具gcloud，它属于Google Cloud SDK。可以在自己的机器上安装SDK，或在GCP上使用Google Cloud Shell。...这些数据集依赖包tf.io.gfile访问文件：支持本地文件和GCS文件（要保证服务账号可以使用GCS）。如果想探索几个超参数的值，可以用参数指定超参数值，执行多个任务。

6.6K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭