腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
从
Spark
中
的
Google
bucket
读取
文件
、
、
、
我正在尝试
从
google
bucket
中
读取
文件
,尽管我可以通过
spark
-shell
读取
它,因为我在进入
spark
shell时包含了gcs jar。当通过
spark
-submit提交它时,它抛出下面的错误。(RDD.scala:1157) at c
浏览 0
提问于2017-01-06
得票数 1
2
回答
使用Seq(路径)
从
S3
读取
多个
文件
、
、
、
我有一个scala程序,它使用"s3n://
bucket
/filepath/*. json“这样
的
文件
模式来指定
文件
,使用DataFrameReader将json
文件
读入DataFrameReader。由于当前
的
方法使用通配符,如下所示:我想同时阅读json
浏览 0
提问于2021-01-22
得票数 1
1
回答
在数据流程
中
运行PySpark时
的
ModuleNotFoundError
、
、
在GCP上运行pyspark作业(使用dataproc 1.4),我正在尝试
从
GCP存储
中
读取
数据。获取以下错误: from
google
.cloud import storageModuleNotFound
浏览 30
提问于2019-07-03
得票数 1
3
回答
为什么我在Dataproc上
的
initialization_action脚本无法设置环境变量?
、
、
我正在尝试设置一个包含Dataproc集群
的
存储桶
的
环境变量。基本上,我将这些行添加到我
的
初始化操作脚本
中
:
BUCKET
=$(/usr/share/
google
/get_metadata_value attributes/dataproc-
bucket
) export
BUCKET
=${
B
浏览 14
提问于2019-02-17
得票数 1
1
回答
从
谷歌云存储
读取
.txt
文件
、
、
、
、
我是谷歌云平台和
Spark
的
新手。我正在尝试
从
谷歌云存储
中
读取
.txt
文件
。但在将其作为blob对象下载后,我无法对其进行迭代。我
的
要求是将该
文件
作为简单
的
txt
文件
逐行
读取
。请参考以下代码: import pysparkfrom
google
.cloud import storageimpo
浏览 26
提问于2021-06-22
得票数 0
3
回答
从
Google
云存储
读取
Dataproc
、
、
我正在尝试
从
Dataproc pyspark应用程序
中
的
GCS
读取
csv或txt
文件
。我试过很多东西。到目前为止最有希望
的
是:或者:s_df = sql_sc.createDataFrame(pandas_df)data = sc.textFile('gs://{<em
浏览 2
提问于2018-08-09
得票数 3
1
回答
如何将.sql
文件
传递到
spark
.sql,并且.sql
文件
在谷歌存储
中
、
、
、
我是
Spark
的
新手,正在使用pySpark版本3.0.1,
spark
使用
的
Python版是3.6.x。我有合并SQL
的
SQL
文件
,并存储在
google
存储
中
。我正在尝试将这些SQL
文件
传递给
spark
.sql,可以帮助我如何使用SparkSession来实现这一点吗?from pyspark.sql import SparkSession
spark
= SparkSession.builder
浏览 0
提问于2021-03-29
得票数 0
1
回答
如何修复pyspark
中
的
"No FileSystem for scheme: gs“?
、
、
、
我正在尝试将一个json
文件
从
google
bucket
读取
到本地
spark
机器上
的
pyspark dataframe
中
。testspark =
spark
.read.json(
bucket
_path + blob.name).cache() theframes.append(testspark) 它可以很好地
从
存储桶
中
读取
文件
, in
浏览 218
提问于2019-04-09
得票数 4
回答已采纳
1
回答
如何在PySpark中使用两个AWS凭据
、
、
、
我正在从使用特定凭据
的
桶
中
读取
多个
文件
,我需要将这些
文件
写入其他aws帐户
中
的
另一个桶
中
。我正在每个函数
中
更改aws凭据,但在执行写函数期间,它会给我函数1
的
读取
带来错误,就好像凭证被更改了,但
spark
仍然在
读取
这些
文件
一样。
浏览 4
提问于2022-09-09
得票数 0
回答已采纳
1
回答
火花保存数据元数据并重用它
、
当我
读取
一个包含大量
文件
的
数据集(在我
的
例子
中
是来自
google
的
数据集)时,
spark
.read在第一次操作之前会工作很长时间。我不知道它能做什么,但我猜它映射了
文件
并对它们进行了示例,以推断模式。数据排列如下: gs:/
浏览 1
提问于2017-08-21
得票数 0
1
回答
用apache
读取
bigQuery
中
的
分区表或视图
、
、
、
我正在使用dataproc连接器来
读取
一个分区表,它包含超过300‘t
的
数据并按日期进行分区,但我所需要
的
只是从今天开始用火花连接器
读取
数据,我试着用bigquery已经分区
的
视图
读取
它,但这不起作用,有什么方法可以
从
带有apache S火星
的
bigquery表
中
读取
分区吗?{NaiveBayes, NaiveBayesModel} import org.apache.
spark
.mllib
浏览 1
提问于2017-10-03
得票数 0
1
回答
PySpark
从
具有两种不同
文件
类型
的
s3压缩
文件
中
读取
csv
、
、
、
我有一个包含CSV和json映射
文件
的
zip
文件
。我希望将csv
读取
到
spark
数据帧
中
,并将json映射
文件
读取
到字典
中
。我已经完成了后半部分
的
工作: z = zipfile.ZipFile(io.BytesIO<e
浏览 9
提问于2021-05-25
得票数 2
1
回答
如何使用Glue
读取
多个S3存储桶?
、
、
、
、
使用
Spark
时,我可以在前缀中使用*
从
多个存储桶
中
读取
数据。例如,我
的
文件
夹结构如下: s3://
bucket
/folder/computation_date=2020-11-01/ s3://
bucket
/folder/computation_date=2020使用PySpark,如果我想
读取
11个月
的
所有数据,我可以这样做
浏览 20
提问于2020-12-01
得票数 0
回答已采纳
1
回答
如何使用pyspark
从
s3存储桶
中
读取
csv
文件
、
、
、
我使用
的
是Apache
Spark
3.1.0和Python 3.9.6。我正在尝试
从
亚马逊网络服务
的
S3存储桶
中
读取
csv
文件
,如下所示:
spark
= SparkSession.builder.getOrCreate() .csv(file)\ .cou
浏览 167
提问于2021-08-25
得票数 2
回答已采纳
1
回答
AWS作业create_dynamic_frame_from_options()打开特定
的
文件
?
、
、
、
如果使用create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,
从
Glue爬虫
中
创建,这实际上是命名特定
的
输入
文件
。我希望能够在没有爬虫和数据库
的
情况下完成同样
的
操作(指定一个特定
的
输入
文件
)。我尝试过使用create_dynamic_frame_from_options(),但“路径”连接选项显然不允许我命名该
文件
。有办法这样做吗?
浏览 1
提问于2020-07-15
得票数 1
2
回答
Spark
bucketing
读取
性能
、
、
、
Spark
版本- 2.2.1。我已经创建了一个包含64个存储桶
的
存储器表,我正在执行一个聚合函数select t1.ifa,count(*) from $tblName t1 where t1.date_ = '2018-01-01我可以看到
Spark
UI中有64个任务,它们只使用了20个
中
的
4个executor (每个executor有16个核心)。有没有一种方法可以扩展任务
的
数量,或者这就是存储桶查询应该如何运行(正在运行
的
核心数量相当于存储桶
的
浏览 24
提问于2018-01-19
得票数 2
1
回答
将python数据对象保存到
google
存储
中
,
从
dataproc
中
运行
的
pyspark作业中保存
文件
。
、
、
、
我在使用dataproc运行pyspark作业时收集度量,并且无法在
google
存储
中
持久化它们(只使用python函数,而不是使用
Spark
)。关键是我可以保存它们,在执行过程
中
,我成功地
读取
和修改了它们,但是当作业结束时,我
的
google
存储
文件
夹
中
什么都没有。# Python import pand
浏览 0
提问于2018-02-08
得票数 2
1
回答
从新位置进行
Spark
读取
保持输出目录不变
、
我有一个
spark
作业,它从源s3://
bucket
/ source -1
文件
夹
读取
(使用结构化流式API),并写入s3://
bucket
/destination-1
文件
夹。检查点保存在s3://
bucket
/checkpoint-1。现在,我希望
从
s3://
bucket
/source-2
读取
具有相
浏览 0
提问于2021-05-01
得票数 1
2
回答
使用
Spark
读取
AWS_PROFILE
文件
时提供S3
、
、
、
、
我希望我
的
Spark
(Scala)能够
读取
S3
文件
在我
的
dev机器上,我可以使用awscli访问S3
文件
,这是~/.aws/config或~/.aws/credentials
中
预先配置
的
配置
文件
,
浏览 9
提问于2021-04-26
得票数 1
1
回答
如何使PySpark在集群上工作
、
、
、
我有一系列问题(很抱歉,
Google
文档太糟糕了,而且不方便用户使用): 您可以将ssh放入头计算机并在整个集群
中
运行星火,还是使用
Google
的
gcloud dataproc jobs submit ...命令?当我在本地运行
Spark
作业并尝试访问时,我这样做是没有问题
的
。当我尝试使用Dataproc时,它会崩溃。我在我
的
浏览 3
提问于2019-01-18
得票数 3
点击加载更多
相关
资讯
Python文件读取技巧:从文件读取数据到内存缓存的高效方法
使用Spark将本地文件读取并封装为DataFrame的完整指南
在Python程序中读取和写入文件的方法
python如何读取CSV文件中的特定行数据
Spark SQL在字节跳动数据仓库领域的优化实践
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券