开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

我正在使用Google Cloud dataproc集群运行Spark。数据集写入GCS时出现挂起的1个任务，该任务永远不会结束

Google Cloud dataproc是一种托管式的云计算服务，用于在Google Cloud上运行Apache Spark和Hadoop等大数据处理框架。它提供了一个灵活且可扩展的集群环境，用于处理大规模数据集。

在使用Google Cloud dataproc集群运行Spark时，如果在将数据集写入Google Cloud Storage（GCS）时出现挂起的任务，可能有以下几个可能的原因和解决方法：

网络连接问题：首先，检查集群和GCS之间的网络连接是否正常。确保网络连接稳定，并且没有任何防火墙或网络配置问题。可以尝试重新启动集群或检查网络设置。
数据集大小和网络带宽：如果数据集非常大，而网络带宽有限，可能会导致任务挂起。可以尝试将数据集分成较小的块，并使用并行处理的方式将它们写入GCS。这样可以减少单个任务的负载，提高写入速度。
GCS存储桶权限：确保你有足够的权限将数据写入目标GCS存储桶。检查存储桶的访问权限设置，并确保你具有适当的写入权限。
代码错误或逻辑问题：检查你的Spark代码是否存在错误或逻辑问题，可能导致任务挂起。确保你的代码正确处理数据集写入操作，并没有死循环或其他导致任务无法结束的问题。

如果以上方法都无法解决问题，建议查看Google Cloud dataproc的官方文档和支持论坛，以获取更详细的帮助和指导。以下是一些相关的腾讯云产品和文档链接，供参考：

腾讯云大数据计算服务：https://cloud.tencent.com/product/dc
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云人工智能服务：https://cloud.tencent.com/product/ai
腾讯云区块链服务：https://cloud.tencent.com/product/baas
腾讯云元宇宙服务：https://cloud.tencent.com/product/vr

请注意，以上链接仅供参考，具体产品选择应根据实际需求和情况进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

基于Apache Hudi在Google云平台构建数据湖

自从计算机出现以来，我们一直在尝试寻找计算机存储一些信息的方法，存储在计算机上的信息（也称为数据）有多种形式，数据变得如此重要，以至于信息现在已成为触手可及的商品。多年来数据以多种方式存储在计算机中，包括数据库、blob存储和其他方法，为了进行有效的业务分析，必须对现代应用程序创建的数据进行处理和分析，并且产生的数据量非常巨大！有效地存储数PB数据并拥有必要的工具来查询它以便使用它至关重要，只有这样对该数据的分析才能产生有意义的结果。

01

Kaggle大神带你上榜单Top2%：点击预测大赛纪实（上）

大数据文摘作品作者：Gabriel Moreira 编译：朝夕、Katherine Hou、党晓芊、Niki、元元、钱天培作为全世界最知名的数据挖掘、机器学习竞赛平台，Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场。那么，参加Kaggle比赛到底是怎样一种体验呢？Kaggle比赛的爱好者们不计其数，很显然这些比赛不会是简单枯燥的模型调参。更进一步地问，Kaggle比赛的优胜者们又是如何取得优异的成绩的呢？优质的算法对大多数Kaggle竞赛来说显然不是制胜法宝——SVM、随机森林

03

Cloud Dataproc已完成测试，谷歌云平台生态更加完善

去年9月份，谷歌为Hadoop和Spark推出了Cloud Dataproc服务的beta版本，如今半年过去了，Cloud Dataproc服务已完成测试，现在可以被广泛使用。谷歌在旧金山的一次活

05

谷歌发布 Hive-BigQuery 开源连接器，加强跨平台数据集成能力

最近，谷歌宣布正式发布 Hive-BigQuery Connector，简化 Apache Hive 和 Google BigQuery 之间的集成和迁移。这个开源连接器是一个 Hive 存储处理程序，它使 Hive 能够与 BigQuery 的存储层进行交互。

02

Flink与Spark读写parquet文件全解析

Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它以其高性能的数据压缩和处理各种编码类型的能力而闻名。与基于行的文件（如 CSV 或 TSV 文件）相比，Apache Parquet 旨在实现高效且高性能的平面列式数据存储格式。

07

优步使用谷歌云平台实现大数据基础设施的现代化

最近，优步在其官方工程博客上发布了一篇文章，阐述了将批数据分析和机器学习（ML）训练的技术栈迁移到谷歌云平台（GCP）的战略。优步运行着世界上最大的 Hadoop 装置之一，在两个区域的数万台服务器上管理着超过上艾字节（exabyte）的数据。开源数据生态系统，尤其是 Hadoop，一直是数据平台的基石。

01

将Hadoop作为基于云的托管服务的优劣势分析

Apache Hadoop是一种开源软件框架，能够对分布式集群上的大数据集进行高吞吐量处理。Apache模块包括Hadoop Common，这是一组常见的实用工具，可以通过模块来运行。这些模块还包括：Hadoop分布式文件系统(HDFS)、用于任务调度和集群资源管理的 Hadoop YARN以及Hadoop MapReduce，后者是一种基于YARN的系统，能够并行处理庞大的数据集。　　Apache还提供了另外的开源软件，可以在Hadoop上运行，比如分析引擎Spark(它也能独立运行)和编程语言Pig。　　Hadoop 之所以广受欢迎，就是因为它为使用大众化硬件处理大数据提供了一种几乎没有限制的环境。添加节点是个简单的过程，对这个框架没有任何负面影响。 Hadoop具有高扩展性，能够从单单一台服务器灵活扩展到成千上万台服务器，每个集群运行自己的计算和存储资源。Hadoop在应用程序层面提供了高可用性，所以集群硬件可以是现成的。　　实际的使用场合包括：在线旅游(Hadoop声称它是80%的网上旅游预订业务的可靠的大数据平台)、批量分析、社交媒体应用程序提供和分析、供应链优化、移动数据管理、医疗保健及更多场合。　　它有什么缺点吗？ Hadoop很复杂，需要大量的员工时间和扎实的专业知识，这就阻碍了它在缺少专业IT人员的公司企业的采用速度。由于需要专家级管理员，加上广泛分布的集群方面需要庞大的成本支出，从中获得商业价值也可能是个挑战。I 　　集群管理也可能颇为棘手。虽然Hadoop统一了分布式计算，但是配备和管理另外的数据中心、更不用说与远程员工打交道，增添了复杂性和成本。结果就是，Hadoop集群可能显得过于孤立。

01

2019年，Hadoop到底是怎么了？

目前云驱动数据处理和分析呈上升趋势，我们在本文中来分析下，Apache Hadoop 在 2019 年是否还是一个可选方案。

01

什么是 Apache Spark？大数据分析平台详解

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署，它为 Java、Scala、Python，和 R 编程语言提供了本地绑定，并且支持 SQL、流数据、机器学习，和图处理。你将会发现它被银行、电信公司、游戏公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨头公司使用。 📷 非常好，Spark 可以运行在一个只需要在你集群中的

06

（译）Google 发布 Kubernetes Operator for Spark

Apache Spark是一个流行的执行框架，用于执行数据工程和机器学习方面的工作负载。他提供 Databricks 平台的支持，可用于内部部署的或者公有云的 Hadoop 服务，例如 Azure HDInsight、Amazon EMR、以及 Google Cloud Dataproc，也可以在 Mesos 集群上运行。

01

什么是 Apache Spark？大数据分析平台详解

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署，它为 Java、Scala、Python，和 R 编程语言提供了本地绑定，并且支持 SQL、流数据、机器学习，和图处理。你将会发现它被银行、电信公司、游戏公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨头公司使用。

03

1年将超过15PB数据迁移到谷歌BigQuery，PayPal的经验有哪些可借鉴之处？

作者 | Romit Mehta、Vaishali Walia 和 Bala Natarajan

02

大数据分析平台 Apache Spark详解

本文介绍了Apache Spark的四个主要应用场景，包括大数据处理、机器学习、图计算和流处理。Spark可以处理批量数据和流数据，并且提供了简单易用的API。同时，Spark还支持多种编程语言，包括Python、Java和Scala等，使得开发人员可以更加便捷地开发复杂的数据处理应用。

00

什么是 Apache Spark？大数据分析平台如是说

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署，它为 Java、Scala、Python，和 R 编程语言提供了本地绑定，并且支持 SQL、流数据、机器学习，和图处理。你将会发现它被银行、电信公司、游戏公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨头公司使用。非常好，Spark 可以运行在一个只需要在你集群中的

06

GCP 上的人工智能实用指南：第一、二部分

在本节中，我们将介绍 Google Cloud Platform（GCP）上的无服务器计算基础。我们还将概述 GCP 上可用的 AI 组件，并向您介绍 GCP 上的各种计算和处理选项。

01

一文读懂Apache Spark

本文介绍了Apache Spark的四个主要版本，包括Spark 1.x、Spark 2.x、Spark 3.x和Spark 4.x，以及每个版本所包含的特性和改进。同时，文章还介绍了Spark在大数据处理、机器学习、图计算和流处理等领域的应用情况。最后，文章展望了Spark未来的发展方向，包括结构化流处理和深度学习的支持等。

00

1美元训练BERT，教你如何薅谷歌TPU羊毛 | 附Colab代码

BERT是谷歌去年推出的NLP模型，一经推出就在各项测试中碾压竞争对手，而且BERT是开源的。只可惜训练BERT的价格实在太高，让人望而却步。

02

TensorFlow：使用Cloud TPU在30分钟内训练出实时移动对象检测器

是否能够更快地训练和提供对象检测模型？我们已经听到了这种的反馈，在今天我们很高兴地宣布支持训练Cloud TPU上的对象检测模型，模型量化以及并添加了包括RetinaNet和MobileNet改编的RetinaNet在内的新模型。本文将引导你使用迁移学习在Cloud TPU上训练量化的宠物品种检测器。

05

没有三年实战经验，我是如何在谷歌云专业数据工程师认证中通关的

注：本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新，放在了Extras的部分。

05

Hadoop，凉了？那还需要它吗？

近日，Hadoop 领域发生几件不太美好的事情，先是 MapR 宣布如果无法获得新的投资，就必须要裁员百余人，并关闭硅谷总部，再是 Cloudera 股价暴跌 43%，估值缩水。

02

Running Solr on Kubernetes

我们将为搜索工程师介绍在Kubernetes（k8s）上运行Solr的基础知识。具体来说，我们涵盖以下主题：

00

《Scikit-Learn、Keras与TensorFlow机器学习实用指南（第二版）》第19章规模化训练和部署TensorFlow模型

有了能做出惊人预测的模型之后，要做什么呢？当然是部署生产了。这只要用模型运行一批数据就成，可能需要写一个脚本让模型每夜都跑着。但是，现实通常会更复杂。系统基础组件都可能需要这个模型用于实时数据，这种情况需要将模型包装成网络服务：这样的话，任何组件都可以通过REST API询问模型。随着时间的推移，你需要用新数据重新训练模型，更新生产版本。必须处理好模型版本，平稳地过渡到新版本，碰到问题的话需要回滚，也许要并行运行多个版本做AB测试。如果产品很成功，你的服务可能每秒会有大量查询，系统必须提升负载能力。提升负载能力的方法之一，是使用TF Serving，通过自己的硬件或通过云服务，比如Google Cloud API平台。TF Serving能高效服务化模型，优雅处理模型过渡，等等。如果使用云平台，还能获得其它功能，比如强大的监督工具。

02

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new sources for Deltastreamer等。虽然此版本不需要表版本升级，但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大更改和行为更改的操作。

01

Beam-介绍

Beam提供了一套统一的API来处理两种数据处理模式（批和流），让我们只需要将注意力专注于在数据处理的算法上，而不用再花时间去对两种数据处理模式上的差异进行维护。

02

【推荐阅读】系统性解读大数据处理框架

微信后台回复：“框架”，获取高清图片前言说起大数据处理，一切都起源于Google公司的经典论文：《MapReduce:Simplied Data Processing on Large Clusters》。在当时（2000年左右），由于网页数量急剧增加，Google公司内部平时要编写很多的程序来处理大量的原始数据：爬虫爬到的网页、网页请求日志；计算各种类型的派生数据：倒排索引、网页的各种图结构等等。这些计算在概念上很容易理解，但由于输入数据量很大，单机难以处理。所以需要利用分布式的方式完成计算，并且

08

tekton入门-细数tekton用到的那些images

tekton中以pod为Task的运行单元，而Task中的step实际就是一个个容器 ,其中用到了许多容器用于进行初始化动作，本文将分析各个容器在tekton task运行时起到的作用

02

Hadoop与Spark等大数据框架介绍[通俗易懂]

海量数据的存储问题很早就已经出现了，一些行业或者部门因为历史的积累，数据量也达到了一定的级别。很早以前，当一台电脑无法存储这么庞大的数据时，采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无法充分利用多台计算机同时进行分析数据。

01

Spark学习笔记

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。[1]Spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。

01

独家 | 一文读懂大数据处理框架

前言说起大数据处理，一切都起源于Google公司的经典论文：《MapReduce:Simplied Data Processing on Large Clusters》。在当时（2000年左右），由于网页数量急剧增加，Google公司内部平时要编写很多的程序来处理大量的原始数据：爬虫爬到的网页、网页请求日志；计算各种类型的派生数据：倒排索引、网页的各种图结构等等。这些计算在概念上很容易理解，但由于输入数据量很大，单机难以处理。所以需要利用分布式的方式完成计算，并且需要考虑如何进行并行计算、分配数据

AutoML – 用于构建机器学习模型的无代码解决方案

2018年，谷歌推出了云AutoML，引起了广泛关注，是机器学习和人工智能领域最重要的工具之一。在本文中，你将学习“AutoML”，这是一种借助 Google 云 AutoML 构建机器学习模型的无代码解决方案。

02

Elastic Searchable snapshot功能初探三（frozen tier）

3月23号，Elastic又发布了最新的7.12版本。在这个版本中，最重要的一个更新是frozen tier的发布。相比于之前版本的cold tier（关于cold tier的细节，可以查看之前的博文：Elastic Searchable snapshot功能初探、Elastic Searchable snapshot功能初探二（hot phase）），其最大的不同是我们可以直接在对象存储里面进行数据的搜索，即我们能够保持对象存储里面的快照数据一直在线可查，通过构建一个小规模的，只带基础存储的计算集群，就可以查阅保存在快照中的海量数据！做到真正的计算和存储分离，并且极大的降低查阅庞大的历史冷冻数据的所需的成本和提高查询效能。（可参考官方博客：使用新的冻结层直接搜索S3）

05

Spark：超越Hadoop MapReduce

大数据对一些数据科学团队来说是主要的挑战，因为在要求的可扩展性方面单机没有能力和容量来运行大规模数据处理。此外，即使专为大数据设计的系统，如 Hadoop，由于一些数据的属性问题也很难有效地处理图数据，我们将在本章的其他部分看到这方面的内容。

02

Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载

问题导读 1.什么是Kubernetes？ 2.在Kubernetes集群尝试新功能，该如何实现？ 3.观看群集上创建的Spark资源，该如何操作？在开始之前我们需要知道什么是Kubernetes Kubernetes（通常写成“k8s”）是最开始由google设计开发最后贡献给Cloud Native Computing Foundation的开源容器集群管理项目。它的设计目标是在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台。Kubernetes通常结合docker容器工具工

04

使用AutoML Vision进行音频分类

对于给定的音频数据集，可以使用Spectrogram进行音频分类吗？尝试使用Google AutoML Vision。把音频文件转换成各自的频谱图，并使用频谱图作为分类问题的图像。

03

Google Earth Engine（GEE）—有JS和python为什么GEE还要使用rgee？

谷歌地球引擎是一个计算平台，允许用户在谷歌的基础设施上运行地理空间分析。与平台交互的方式有以下几种：

01

LinkedIn 使用 Apache Beam 统一流和批处理

翻译自 LinkedIn Unifies Stream and Batch Processing with Apache Beam 。

01

PXC状态参数与变量参数

表示的是当前节点最新提交的事务号，也是最新galera GTID的后半部分，前半部分是参数wsrep_local_state_uuid的值，在每次执行提交、DDL执行完成或APPLY之后，都会更新这个值；

02

HADOOP生态圈知识概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。

03

Spark 与 Hadoop 学习笔记介绍及对比

这篇博客将会简单记录Hadoop与Spark对比，HDFS，MapReduce的基本概念，及Spark架构设计，RDD，运行模式。整理起来一起阅读方便我们理解整个大数据处理框架全局和发展。

03

为什么我会被Kubernetes“洗脑”？

文 | Jeff Meyerson Kubernetes 已在容器编排之战中取胜，未来很可能会成为“多云”之上的标准层，进而为分布式系统的分发和运行带来根本性的改变，而其自身则会慢慢变得像 Linux Kernel 一样，成为一种系统底层的支撑，不再引人注目。本文金句：通过 Kubernetes，分布式系统工具将拥有网络效应。每当人们为 Kubernetes 制作出的新的工具，都会让所有其他工具更完善。因此，这进一步巩固了 Kubernetes 的标准地位。云提供商并非可替换的商品。不同的云提

09

对比Hadoop和 Spark，看大数据框架进化之路

说到大数据，就不得不说Hadoop和 Spark，Hadoop和 Spark作为大数据当前使用最广泛的两种框架，是如何发展的，今天我们就追根溯源，和大家一起了解一下Hadoop和 Spark的过去和未来；在Hadoop出现之前，人们采用的是典型的高性能 HPC workflow，它有专门负责计算的compute cluster，cluster memory很小，所以计算产生的任何数据会存储在storage中，最后在Tape里进行备份，这种workflow主要适用高速大规模复杂计算，像核物理模拟中会用到。

02

出一套高端大数据开发面试题

一千个读者眼中有一千个哈姆雷特，一千名大数据程序员心目中就有一千套大数据面试题。本文就是笔者认为可以用来面试大数据程序员的面试题。

03

为什么我会被 Kubernetes“洗脑”？

Kubernetes已在容器编排之战中取胜，未来很可能会成为“多云”之上的标准层，进而为分布式系统的分发和运行带来根本性的改变。

06

Parquet

Parquet是可用于Hadoop生态系统中任何项目的开源文件格式。与基于行的文件（例如CSV或TSV文件）相比，Apache Parquet旨在提供高效且高性能的扁平列式数据存储格式。

02

大数据Hadoop生态圈各个组件介绍（详情）

-coordination and management（协调与管理） -query（查询） -data piping（数据管道） -core hadoop（核心hadoop） -machine learning（机器学习） -nosql database（nosql数据库）

02

初识 Spark - 7000字+15张图解，学习 Spark 入门基础知识

Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架，目前已成为 Apache 软件基金会的顶级开源项目。

03

为什么我会被 Kubernetes “洗脑”？

普元云计算架构师宋潇男点评： Kubernetes已在容器编排之战中取胜，未来很可能会成为“多云”之上的标准层，进而为分布式系统的分发和运行带来根本性的改变，而其自身则会慢慢变得像Linux Kernel一样，成为一种系统底层的支撑，不再引人注目。原文的标题是The Gravity of Kuberrnetes，但是从内容上看，更像是近些年流行的“XXX is dead. Long live XXX.”的风格，所以在翻译标题的时候我们恶搞了一下。本文金句：通过Kubernetes，分布式系统工具将拥有

04

ApacheHudi常见问题汇总

如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。另外，如果你的ETL /hive/spark作业很慢或占用大量资源，那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。

02

后Hadoop时代的大数据架构

提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。背景篇 Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件。 HDFS：提供

08

Docker Swarm 已死，Kubernetes 永生

转载声明：本文转载自「EAWorld」，搜索「eaworld」即可关注。原文标题：The Gravity of Kubernetes 原文作者：Jeff Meyerson 普元云计算架构师宋潇男点评： Kubernetes已在容器编排之战中取胜，未来很可能会成为“多云”之上的标准层，进而为分布式系统的分发和运行带来根本性的改变，而其自身则会慢慢变得像Linux Kernel一样，成为一种系统底层的支撑，不再引人注目。原文的标题是The Gravity of Kuberrnetes，但是从内容上看，更

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭