使用Spark Local从GCS加载数据_JSON LOCAL :无法从LISTTILE颤动加载数据_从GCS读取数据并加载到云SQL中 - 腾讯云开发者社区

python-3.x、intellij-idea、pyspark、google-cloud-platform、python-unittest

出于测试目的，我正在尝试从本地计算机上的GCS存储桶中读取数据。我想在云中采样一些我已经下载的GCS Hadoop Connector JAR数据。并按如下方式设置sparkConf： conf = SparkConf() \ .setAppName("Test") \ .set("spark.jars", "path/

浏览 30提问于2019-03-08得票数 1

1回答

读取和处理存储在GCP中的拼花文件的最佳方法

python、pyspark、gcs

我刚开始使用GCS。我正在使用它来存储一些拼花数据文件。在GCS之前，我在我的机器上本地存储了所有的拼板文件，以测试一些代码，以便使用Spark将所有的拼板文件读入数据帧。中本地工作的设置的示例： master = "

浏览 7提问于2022-10-25得票数 0

2回答

Google Cloud Dataproc OOM问题

python、google-cloud-platform、google-cloud-dataproc

在Spark cluster (Dataproc)上执行代码时，我遇到了OOM问题。环境:2节点集群，每节点6G内存。测试文件大小为20 is。"sftp://user:pass@54.23.12.100/data/tmp/test_tile.csv.gz") data.saveAsTextFile("gs://data/tmp") 是否可以使用Spark集群将数据流式传输到GCS，并

浏览 12提问于2019-02-12得票数 3

1回答

通过Spark提交作业写入Google云存储(scala)

apache-spark、hadoop、google-cloud-storage、hadoop-yarn

还有其他一些文章描述了如何设置spark类的配置(spark和hadoop)以便能够写入GCS bucket。如果我从IntelliJ运行以下代码import java.util /usr/local/bin/spark<

浏览 1提问于2021-07-08得票数 1

2回答

验证Hadoop-GCS连接器时出现"java.lang.IllegalArgumentException:未发现有效凭据配置“错误

apache-spark、google-cloud-platform、pyspark、google-cloud-storage

我正在尝试使用Spark从GCP外部(从我们的一个本地集群)将数据加载到GCP中。为此，我编写了以下代码。getOrCreate()spark.conf.set("parentProject", "true") spark</e

浏览 0提问于2021-04-30得票数 3

2回答

从以下位置的元数据服务器获取访问令牌时出错: http://metadata/computeMetadata/v1/instance/service-accounts/default/token

google-cloud-storage、google-cloud-intellij

我已经尝试过p12密钥文件，它成功地工作了，并且我能够从gcs存储桶中获取数据。但是使用json keyfile时，sparksession没有获得json配置值。取而代之的是默认的元数据。我正在使用maven和IntelliJ进行开发。hadoop/") SparkSession.builder() .master("<e

浏览 2提问于2020-12-17得票数 1

1回答

在Dataproc上使用Spark访问跨帐户GCS

apache-spark、google-cloud-platform、google-bigquery、google-cloud-storage、google-cloud-dataproc

我试图在帐户A到帐户B的BigQuery的GCS中使用运行在帐户B中的Dataproc上的Spark来摄取数据。但是，如果启动spark-shell，则会出现以下错误。Error accessing Bucket dataproc-40222d04-2c40-42f9-a5de-413a123f949d-asia-south1 根据我的理解，设置环境变量是将访问权限从帐户$ spark-shell --conf spark.hadoop.fs.gs.a

浏览 1提问于2019-08-11得票数 5

1回答

在Spark上发布连接器

apache-spark、google-hadoop

我正试图在Mac上安装，以便在本地测试我的Spark应用程序。我读过以下文件()。我已经将“gcs-连接器-最新的-hadoop2.jar”添加到我的星星之火/lib文件夹中。我还将core-data.xml文件添加到spark/conf目录中。collect. : java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSyste

浏览 5提问于2014-10-02得票数 1

回答已采纳

1回答

将字典作为json文件从Jupyter Notebook on Data Proc转储到Google云存储

json、jupyter-notebook、google-cloud-storage、google-cloud-dataproc

我在Google dataproc集群上使用spark。我已经在Jupyter notebook中创建了一个字典，我想将其转储到我的GCS存储桶中。然而，通常使用fopen()转储到json的方法在gcp情况下似乎不起作用。那么，如何将我的字典作为.json文件写入GCS呢？或者，有没有其他方法可以得到字典？有趣的是，我可以毫不费力地将spark数据帧写入gcs，但显然，我无法在gcs上加载JSON，除非我在本地系统

浏览 24提问于2020-08-02得票数 1

3回答

以高效的方式从BigQuery读取到Spark？

apache-spark、google-bigquery、google-cloud-dataproc、google-hadoop

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。复制阶段

浏览 6提问于2017-01-04得票数 7

回答已采纳

2回答

Google Colab TPU中未实现文件系统方案'[local]‘

python、tensorflow、google-colaboratory、tpu、google-cloud-tpu

我在Google Colab中使用TPU运行时，但在读取文件时遇到问题(不确定)。我使用以下命令初始化TPU： import tensorflow as tfimport tensorflow_datasets as tfds 6 return img, image_path &

浏览 38提问于2020-07-13得票数 9

回答已采纳

1回答

线程"main“java.lang.NoSuchMethodError异常: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C

java、apache-spark、hadoop、google-cloud-platform

问题陈述:当使用以下版本的jar/lib从本地spark java代码创建位于bucket(GCP)的文件的数据集时，然后出现异常。java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C“”spark-core_2.11

浏览 1提问于2021-11-01得票数 0

1回答

scala应用程序中的异常"com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurrent/Executor“

scala、apache-spark、google-cloud-platform、google-cloud-storage

我使用影子jar制作了一个scala应用程序，用于从Mysql到GCS的数据移动过程。所使用的等级依赖性： compile groupversion: '0.2.0' compile group: 'com.microsoft.

浏览 4提问于2020-07-29得票数 2

回答已采纳

1回答

如何在本地环境中正确配置gcs-连接器

scala、apache-spark、hadoop2、google-cloud-dataproc

： .set("spark.executor.memory", "4g") .config(sparkConf) .master("spark://spark-master:7077"&

浏览 6提问于2021-06-22得票数 1

回答已采纳

1回答

无法在Google函数中加载带有魔杖/图像的PDF

python-3.x、pdf、imagemagick、google-cloud-functions、wand

尝试从本地文件系统加载PDF并获得“未授权”错误。: not‘/tmp/tmp_iq12nws’@ error/constitute.c/ReadImage/412 将PDF从GCS<em

浏览 1提问于2019-04-02得票数 3

回答已采纳

1回答

GCP Dataproc -来自GCS的慢读取速度

apache-spark、google-cloud-platform、google-cloud-dataproc

我的工作只是地图操作df.withColumn("a", lit("b")).write.save我启用了桶访问日志并查看了统计数据，我惊讶地发现每个部件文件都获得了85倍的访问。我可以看到，只有10个请求发送实际数据，其他请求要么以0字节作为回报，要么发送一些很小的数据。此外，还必须有一些元

浏览 1提问于2018-11-12得票数 2

1回答

分级或分区row_num函数在数据融合中的应用

google-cloud-data-fusion、cdap

我想在数据融合中对我的数据实现秩或分区的row_num函数，但是我找不到这样做的插件。假设我有上面的数据，现在我想基于AccountNumber对数据进行分组，并将最近的记录发送到一个接收器中，然后将rest发送给其他的接收器。所以根据上面的数据， Sink2，我计划通过AccountNumber应用秩或AccountNumber分区并按Record_date desc之类的功能进行排序

浏览 1提问于2020-09-20得票数 0

回答已采纳

2回答

如何计算将数据从蔚蓝数据转移到google BigQuery时的成本

azure、google-cloud-platform、google-bigquery

我们在Azure中有一个数据存储管道，可以将一个前提下的SQL表移动到Azure blob存储的Gen2中。我认为大部分费用都来自Azure仓库，对吧？现在，我们希望将这些数据移动到BigQuery。由于我们的安全策略，我们仍然需要数据表管道从SQL表中读取。因此，我们创建了一个数据库笔记本，以读取拼花文件，并移动到BigQuery使用火花BigQuery连接器。现在我需要估计总成本。在Azure存储的顶部，我们是否需要支付某种出口成本才能将数据从Az

浏览 5提问于2021-01-21得票数 0

回答已采纳

2回答

google dataproc - image版本2.0.x如何将pyspark版本降级到3.0.1

apache-spark、pyspark、google-cloud-dataproc、delta-lake

在google云中使用dataproc镜像版本2.0.x，因为在这个dataproc镜像版本中提供了delta0.7.0。然而，这个dataproc实例附带了pyspark 3.1.1的默认版本，Apache Spark 3.1.1还没有正式发布。因此，没有与3.1兼容的Delta Lake版本，因此建议降级。

浏览 1提问于2021-02-09得票数 1

1回答

获取令牌:从元数据服务器获取访问令牌时出错: http://169.254.169.254/computeMetadata/v1/instance/ java.io.IOException

apache-spark、google-cloud-platform、google-bigquery

我可以使用gcs-connector和spark- Bigquery -in Spark应用程序从bigquery获取数据。但是在尝试使用spark应用程序将数据加载到GCP中的Bigquery时出现以下错误。

浏览 0提问于2021-07-29得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云