腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Spark
Local
从
GCS
加载
数据
python-3.x
、
intellij-idea
、
pyspark
、
google-cloud-platform
、
python-unittest
出于测试目的,我正在尝试
从
本地计算机上的
GCS
存储桶中读取
数据
。我想在云中采样一些我已经下载的
GCS
Hadoop Connector JAR
数据
。并按如下方式设置sparkConf: conf = SparkConf() \ .setAppName("Test") \ .set("
spark
.jars", "path/
浏览 30
提问于2019-03-08
得票数 1
1
回答
读取和处理存储在GCP中的拼花文件的最佳方法
python
、
pyspark
、
gcs
我刚开始
使用
GCS
。我正在
使用
它来存储一些拼花
数据
文件。在
GCS
之前,我在我的机器上本地存储了所有的拼板文件,以测试一些代码,以便
使用
Spark
将所有的拼板文件读入
数据
帧。中本地工作的设置的示例: master = "
浏览 7
提问于2022-10-25
得票数 0
2
回答
Google Cloud Dataproc OOM问题
python
、
google-cloud-platform
、
google-cloud-dataproc
在
Spark
cluster (Dataproc)上执行代码时,我遇到了OOM问题。 环境:2节点集群,每节点6G内存。测试文件大小为20 is。"sftp://user:pass@54.23.12.100/data/tmp/test_tile.csv.gz") data.saveAsTextFile("gs://data/tmp") 是否可以
使用
Spark
集群将
数据
流式传输到
GCS
,并
浏览 12
提问于2019-02-12
得票数 3
1
回答
通过
Spark
提交作业写入Google云存储(scala)
apache-spark
、
hadoop
、
google-cloud-storage
、
hadoop-yarn
还有其他一些文章描述了如何设置
spark
类的配置(
spark
和hadoop)以便能够写入
GCS
bucket。如果我
从
IntelliJ运行以下代码import java.util /usr/
local
/bin/
spark<
浏览 1
提问于2021-07-08
得票数 1
2
回答
验证Hadoop-
GCS
连接器时出现"java.lang.IllegalArgumentException:未发现有效凭据配置“错误
apache-spark
、
google-cloud-platform
、
pyspark
、
google-cloud-storage
我正在尝试
使用
Spark
从
GCP外部(
从
我们的一个本地集群)将
数据
加载
到GCP中。为此,我编写了以下代码。getOrCreate()
spark
.conf.set("parentProject", "true")
spark</e
浏览 0
提问于2021-04-30
得票数 3
2
回答
从
以下位置的元
数据
服务器获取访问令牌时出错: http://metadata/computeMetadata/v1/instance/service-accounts/default/token
google-cloud-storage
、
google-cloud-intellij
我已经尝试过p12密钥文件,它成功地工作了,并且我能够
从
gcs
存储桶中获取
数据
。但是
使用
json keyfile时,sparksession没有获得json配置值。取而代之的是默认的元
数据
。我正在
使用
maven和IntelliJ进行开发。hadoop/") SparkSession.builder() .master("<e
浏览 2
提问于2020-12-17
得票数 1
1
回答
在Dataproc上
使用
Spark
访问跨帐户
GCS
apache-spark
、
google-cloud-platform
、
google-bigquery
、
google-cloud-storage
、
google-cloud-dataproc
我试图在帐户A到帐户B的BigQuery的
GCS
中
使用
运行在帐户B中的Dataproc上的
Spark
来摄取
数据
。但是,如果启动
spark
-shell,则会出现以下错误。Error accessing Bucket dataproc-40222d04-2c40-42f9-a5de-413a123f949d-asia-south1 根据我的理解,设置环境变量是将访问权限
从
帐户$
spark
-shell --conf
spark
.hadoop.fs.gs.a
浏览 1
提问于2019-08-11
得票数 5
1
回答
在
Spark
上发布连接器
apache-spark
、
google-hadoop
我正试图在Mac上安装,以便在本地测试我的
Spark
应用程序。我读过以下文件()。我已经将“
gcs
-连接器-最新的-hadoop2.jar”添加到我的星星之火/lib文件夹中。我还将core-data.xml文件添加到
spark
/conf目录中。collect. : java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.
gcs
.GoogleHadoopFileSyste
浏览 5
提问于2014-10-02
得票数 1
回答已采纳
1
回答
将字典作为json文件
从
Jupyter Notebook on Data Proc转储到Google云存储
json
、
jupyter-notebook
、
google-cloud-storage
、
google-cloud-dataproc
我在Google dataproc集群上
使用
spark
。我已经在Jupyter notebook中创建了一个字典,我想将其转储到我的
GCS
存储桶中。然而,通常
使用
fopen()转储到json的方法在gcp情况下似乎不起作用。那么,如何将我的字典作为.json文件写入
GCS
呢?或者,有没有其他方法可以得到字典?有趣的是,我可以毫不费力地将
spark
数据
帧写入
gcs
,但显然,我无法在
gcs
上
加载
JSON,除非我在本地系统
浏览 24
提问于2020-08-02
得票数 1
3
回答
以高效的方式
从
BigQuery读取到
Spark
?
apache-spark
、
google-bigquery
、
google-cloud-dataproc
、
google-hadoop
当
使用
从
BigQuery读取
数据
时,我发现它首先将所有
数据
复制到Google Cloud Storage。然后将这些
数据
并行读取到
Spark
中,但当读取大表时,复制
数据
阶段需要很长时间。那么有没有更有效的方法将
数据
从
BigQuery读取到
Spark
中呢? 另一个问题:
从
BigQuery阅读由2个阶段组成(复制到
GCS
,
从
GCS
并行阅读)。复制阶段
浏览 6
提问于2017-01-04
得票数 7
回答已采纳
2
回答
Google Colab TPU中未实现文件系统方案'[
local
]‘
python
、
tensorflow
、
google-colaboratory
、
tpu
、
google-cloud-tpu
我在Google Colab中
使用
TPU运行时,但在读取文件时遇到问题(不确定)。我
使用
以下命令初始化TPU: import tensorflow as tfimport tensorflow_datasets as tfds 6 return img, image_path &
浏览 38
提问于2020-07-13
得票数 9
回答已采纳
1
回答
线程"main“java.lang.NoSuchMethodError异常: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C
java
、
apache-spark
、
hadoop
、
google-cloud-platform
问题陈述:当
使用
以下版本的jar/lib
从
本地
spark
java代码创建位于bucket(GCP)的文件的
数据
集时,然后出现异常。java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String;)[C“”
spark
-core_2.11
浏览 1
提问于2021-11-01
得票数 0
1
回答
scala应用程序中的异常"com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurrent/Executor“
scala
、
apache-spark
、
google-cloud-platform
、
google-cloud-storage
我
使用
影子jar制作了一个scala应用程序,用于
从
Mysql到
GCS
的
数据
移动过程。所
使用
的等级依赖性: compile groupversion: '0.2.0' compile group: 'com.microsoft.
浏览 4
提问于2020-07-29
得票数 2
回答已采纳
1
回答
如何在本地环境中正确配置
gcs
-连接器
scala
、
apache-spark
、
hadoop2
、
google-cloud-dataproc
: .set("
spark
.executor.memory", "4g") .config(sparkConf) .master("
spark
://
spark
-master:7077"&
浏览 6
提问于2021-06-22
得票数 1
回答已采纳
1
回答
无法在Google函数中
加载
带有魔杖/图像的PDF
python-3.x
、
pdf
、
imagemagick
、
google-cloud-functions
、
wand
尝试
从
本地文件系统
加载
PDF并获得“未授权”错误。: not‘/tmp/tmp_iq12nws’@ error/constitute.c/ReadImage/412 将PDF
从
GCS
<em
浏览 1
提问于2019-04-02
得票数 3
回答已采纳
1
回答
GCP Dataproc -来自
GCS
的慢读取速度
apache-spark
、
google-cloud-platform
、
google-cloud-dataproc
我的工作只是地图操作df.withColumn("a", lit("b")).write.save我启用了桶访问日志并查看了统计
数据
,我惊讶地发现每个部件文件都获得了85倍的访问。我可以看到,只有10个请求发送实际
数据
,其他请求要么以0字节作为回报,要么发送一些很小的
数据
。此外,还必须有一些元
浏览 1
提问于2018-11-12
得票数 2
1
回答
分级或分区row_num函数在
数据
融合中的应用
google-cloud-data-fusion
、
cdap
我想在
数据
融合中对我的
数据
实现秩或分区的row_num函数,但是我找不到这样做的插件。 假设我有上面的
数据
,现在我想基于AccountNumber对
数据
进行分组,并将最近的记录发送到一个接收器中,然后将rest发送给其他的接收器。所以根据上面的
数据
, Sink2,我计划通过AccountNumber应用秩或AccountNumber分区并按Record_date desc之类的功能进行排序
浏览 1
提问于2020-09-20
得票数 0
回答已采纳
2
回答
如何计算将
数据
从
蔚蓝
数据
转移到google BigQuery时的成本
azure
、
google-cloud-platform
、
google-bigquery
我们在Azure中有一个
数据
存储管道,可以将一个前提下的SQL表移动到Azure blob存储的Gen2中。我认为大部分费用都来自Azure仓库,对吧?现在,我们希望将这些
数据
移动到BigQuery。由于我们的安全策略,我们仍然需要
数据
表管道
从
SQL表中读取。因此,我们创建了一个
数据
库笔记本,以读取拼花文件,并移动到BigQuery
使用
火花BigQuery连接器。现在我需要估计总成本。在Azure存储的顶部,我们是否需要支付某种出口成本才能将
数据
从
Az
浏览 5
提问于2021-01-21
得票数 0
回答已采纳
2
回答
google dataproc - image版本2.0.x如何将pyspark版本降级到3.0.1
apache-spark
、
pyspark
、
google-cloud-dataproc
、
delta-lake
在google云中
使用
dataproc镜像版本2.0.x,因为在这个dataproc镜像版本中提供了delta0.7.0。然而,这个dataproc实例附带了pyspark 3.1.1的默认版本,Apache
Spark
3.1.1还没有正式发布。因此,没有与3.1兼容的Delta Lake版本,因此建议降级。
浏览 1
提问于2021-02-09
得票数 1
1
回答
获取令牌:
从
元
数据
服务器获取访问令牌时出错: http://169.254.169.254/computeMetadata/v1/instance/ java.io.IOException
apache-spark
、
google-cloud-platform
、
google-bigquery
我可以
使用
gcs
-connector和
spark
- Bigquery -in
Spark
应用程序
从
bigquery获取
数据
。但是在尝试
使用
spark
应用程序将
数据
加载
到GCP中的Bigquery时出现以下错误。
浏览 0
提问于2021-07-29
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 RxJava 从多种来源中加载数据
Ray 分布式计算框架详解
UC Berkeley提出新型分布式执行框架Ray:有望取代Spark
Spark如何读取一些大数据集到本地机器上
Hadoop及Spark 分布式HA运行环境搭建
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券