从Pyspark加载进程从GCS加载，转换并保存到不同的GCS不工作

、、

我正在尝试利用Dataproc (使用Pyspark)从GCS加载一个大型数据集，使用地理空间丰富对其进行转换，然后保存为PartitionBy格式。import SparkSessionfrom pyspark import StorageLevelfrom pyspark.sql.funct

浏览 78提问于2021-11-03得票数 3

1回答

无法在Google函数中加载带有魔杖/图像的PDF

、、、、

尝试从本地文件系统加载PDF并获得“未授权”错误。中引发e wand.exceptions.PolicyError: not‘/tmp/tmp_iq12nws’@ error/constitute.c/ReadImage/412 PDF文件成功地从GCS保存到本地“服务器”，但不会被Wand加载。将映像加载到OpenCV不是问题，只是在尝试使用Wand/ImageMagick加载

浏览 1提问于2019-04-02得票数 3

回答已采纳

1回答

如何使气流达格在完成下一个任务之前等待VM完成其工作

、

我的工作流程的高级描述我的守护进程目前所做的--启动vm >>，停止vm >>，完成其余的数据转换工作。我想让我的守护程序等待vm完成它的工作。注意: k

浏览 2提问于2022-09-13得票数 0

回答已采纳

1回答

Pyspark和BigQuery在Google Dataproc中使用两个不同的项目ids

、、、

我想使用Google Dataproc和不同的项目Ids运行一些pyspark作业，但到目前为止还没有成功。我是pyspark和Google Cloud的新手，但是我已经遵循了的例子，并且运行良好(如果BigQuery数据集是公开的，或者属于我的ProjectA项目)。projectB','mapre

浏览 1提问于2016-12-09得票数 1

2回答

波束数据流流水线表创建Sink作为来自GCS的Bigquery

、、、

我想创建beam数据流作业来从GCS加载数据到Bigquery，我将在GCS的不同文件夹中有100s的文件，可以在GCS的不同文件夹中加载文件，是否可以在beam代码中创建源数据集和表。我的最终目标是创建管道，将数据从GCS加载到Bigquery，谢谢。

浏览 10提问于2021-02-23得票数 0

回答已采纳

1回答

如何使用数据融合/Cloud Composer在GCP上调度数据处理PySpark作业

、、、、

我最近开始学习GCP，我正在做一个POC，它要求我创建一个能够调度用PySpark编写的Dataproc作业的管道。目前，我已经在我的Dataproc集群上创建了一个Jupiter笔记本，它从GCS读取数据并将其写入BigQuery，它在Jupyter上工作得很好，但我想在流水线中使用该笔记本。我的目标是调度多个Dataproc作业的运行。

浏览 33提问于2021-08-16得票数 2

回答已采纳

2回答

从中提取JSON，转换成熊猫DF，并写信给Google BigQuery

、、、、

对于BigQuery中有1K行的表，我将首先创建/保存1K单独的对象，保存到GCS中的桶中，每个对象都是一个API调用的结果。# load libraries, connect to googleimport但是，对于一些J

浏览 8提问于2020-07-20得票数 2

回答已采纳

1回答

将私有数据从GCS流式传输到google collab TPU

、、、、

但是当我试着从我的桶里装上dsFromGcs = tfds.load("pokemons",data_dir = "gs://dataset-7000")- abstract_reasoning- aeslc- ag_news_subset- ai2_arc_with_ir - ama

浏览 3提问于2021-04-18得票数 0

2回答

在云功能中，GCS的文件大小可以处理多大？

、、、

我希望使用GCP中的云函数将GCS中的>=4 GB数据传输到BigQuery。有可能这样做吗？我尝试使用mkfile命令创建一个临时的5 gb数据文件，并尝试上传到GCS。这需要很长的时间，但仍然没有上传。这是否意味着GCS不能处理超过特定文件大小的文件。在我所引用的文档：中，我了解到GCS处理多达5 TiB的数据。那么为什么上传5GB的数据需要很长时间。

浏览 3提问于2021-08-12得票数 0

回答已采纳

2回答

从外部表读取与在Bigquery中加载和读取数据

、

我需要从GCS获取数据(csv格式)到Bigquery，然后对其执行ETL以生成结果。csv的格式可能不是固定的，可能会随着每个文件而微妙地改变。创建临时外部表以直接从GCS读取数据然后进行处理是更好，还是将数据加载到bigquery中的临时表中然后从中进行处理会更好。我正在尝试理解在执行效率方面什么是更好的设计。这些方法有什么缺点吗？

浏览 1提问于2019-12-05得票数 0

2回答

具有本地文件大小限制的加载数据

、

使用API的本地文件是否对加载数据有任何限制？正如Google文档提到的Web，本地文件大小比<=10 MB和16,000行还要大。同样的限制也适用于API吗？

浏览 0提问于2018-05-03得票数 1

回答已采纳

1回答

我正在计划一个项目，在这个项目中，我将使用(速率限制的) Reddit API，并将数据存储在GCS和BigQuery中。最初，可以选择Cloud Functions，但我必须创建一个Datastore实现来管理cron作业的请求和GAE的“伪”队列。在Dataflow中做每件事都没有意义，因为不建议进行外部请求(例如，访问Reddit API)并永久运行单个作业。我可以使用Cloud Composer从谷歌工作表中读取字段，然后基于谷歌工作<

浏览 1提问于2018-09-25得票数 0

1回答

如何从GCS中的文件中自动检测模式并加载到BigQuery？

、

我正在尝试将一个文件从GCS加载到BigQuery，它的模式是从GCS中的文件自动生成的。我使用Apache气流来做同样的事情，我遇到的问题是当我使用自动从文件中检测模式时，BigQuery根据大约100个初始值创建模式。例如，在我的例子中有一个列，比如X，X中的值大多是Integer类型，但是有一些值是String类型的，所以bq load会因

浏览 2提问于2019-12-27得票数 0

1回答

BigqueryIO文件加载:仅在需要时使用附加碎片

、、

我有一个数据流作业，从pubsub读取，将PubsubMessage转换为TableRow，并使用FILE_LOAD-method (每10分钟，1片)将该行写到BQ。这份工作有时会抛出一个ByteString would be too long-exception。当将这些行连接到( GCS )临时文件时，应该引发此异常，因为您不能附加到GCS文件中。如果我正确地理解了它，就可以让这个异常发生，因为稍后将使用“大型”临时文件加载到BQ，并且附加到一个应该成功的

浏览 2提问于2020-06-09得票数 0

3回答

如何将PySpark中的数据帧/RDD作为CSV/Parquet文件快速保存到磁盘？

、、、、

我有一个正在运行的Google Dataproc集群，并且正在向它提交一个PySpark作业，该作业从Google Cloud Storage (945MB CSV文件，400万行-->总共需要48秒才能读入)读取一个文件到PySpark dataframe，并对该数据帧应用一个函数(parsed_dataframe = raw_dataframe.rdd.map(parse_user_agents).toDF然后，我必须将这些修改后的结果作为GZIP的CSV或P

浏览 8提问于2017-08-01得票数 4

3回答

google云上的存储

、

我有以下用例:需要使用PySpark分析大量结构化数据。数据当前为CSV格式。我正在尝试找出在谷歌云上存储数据的最佳方式。我的理解是HDFS不会工作，因为每次集群关闭，HDFS数据都会消失，所以我每次都必须从CSV转换到HDFS，这很耗时。似乎正确的策略是使用BigQuery，但是我不能确定BigQuery是否是持久性的？

浏览 20提问于2017-06-28得票数 0

回答已采纳

1回答

将源文件存储在与Google云存储( google )中

、、、、

为了测试我的PySpark映射函数，我设置了集群(仅测试一个JSON文件的一个主5名工作人员)。这里的最佳做法是什么？我应该复制主节点中的所有文件(利用Dataproc中的Hadoop分布式文件系统)，还是如果我将文件保存在GCS桶中并将文件位置指向我的Pyspark中，那么它是否同样有效？另外，我的代码导入了相当多的外部模块，我已经将这些模块复制到我的主模块中

浏览 1提问于2019-06-04得票数 1

回答已采纳

2回答

将公共http csv数据读入Apache束

、、、

如果文件托管在google存储'gs://bucket/source.csv'上，但无法从'https://github.com/../source.csv'获取文件，一切都能正常工作。

浏览 14提问于2022-11-15得票数 0

回答已采纳

1回答

从云函数导入GCS* CSV到云SQL*

、、、、

我想使用Google Cloud函数将数据从GCS中的CSV文件快速传输到Cloud SQL中的Postgres表。理想情况下，我会使用GCP SDK来执行此操作，但官方documentation建议执行导入的唯一方法是1)控制台、2) gcloud命令或3) curl。我在下面写的代码(我省略了Cloud Function请求包装器)可以在我的笔记本电脑上运行，但在Cloud Function中不能运行。云函数在不确认错误的情况下完

浏览 24提问于2019-09-08得票数 3

2回答

在Tensorflow中使用TPU时，是否有适当的方法来保存本地驱动器中的检查点？

、、、

关于这一问题的后续行动：我正在为那些不希望使用GCS的人找到解决办法。然后将保存变量设置为每个变量的“init”值。对于Keras，权重似乎是从TPU保存到本地的。信息:tensorflow:将TPU权重复制到CPU 所以我想也有一个通用的</

浏览 0提问于2018-10-26得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法在Google函数中加载带有魔杖/图像的PDF

如何使气流达格在完成下一个任务之前等待VM完成其工作

Pyspark和BigQuery在Google Dataproc中使用两个不同的项目ids

波束数据流流水线表创建Sink作为来自GCS的Bigquery

如何使用数据融合/Cloud Composer在GCP上调度数据处理PySpark作业

从中提取JSON，转换成熊猫DF，并写信给Google BigQuery

将私有数据从GCS流式传输到google collab TPU

在云功能中，GCS的文件大小可以处理多大？

从外部表读取与在Bigquery中加载和读取数据

具有本地文件大小限制的加载数据

Cloud Composer中的限速API请求

如何从GCS中的文件中自动检测模式并加载到BigQuery？

BigqueryIO文件加载:仅在需要时使用附加碎片

如何将PySpark中的数据帧/RDD作为CSV/Parquet文件快速保存到磁盘？

google云上的存储

将源文件存储在与Google云存储( google )中

将公共http csv数据读入Apache束

从云函数导入GCS* CSV到云SQL*

在Tensorflow中使用TPU时，是否有适当的方法来保存本地驱动器中的检查点？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐