腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
在
Spark
中
读取
大型
gz
文件
、
我有两个gzip
文件
,每个
文件
大约30 to大小,并编写了
spark
代码来分析它们。
spark
集群有4个工作节点(28 has,每个节点4个核心)和2个头节点(64 Has)。我正在使用sc.textFile(histfile,20)来
读取
这两个gzip
文件
并对它们进行并行化。因为有2个
文件
,所以到目前为止只有2个工人在使用。 已经花了4个多小时,第一阶段还没有完成。当每个gzip
文件
的大小为100 in 200 in时,运行
spark</em
浏览 6
提问于2017-11-23
得票数 3
回答已采纳
0
回答
用scala
读取
spark
中
的压缩
文件
、
我正在尝试使用以下代码
在
dataframe/rdd
中
读取
spark
/scala
中
.
gz
文件
的内容 val sc = new SparkContext(conf) data.collect().foreach(println); .
gz</
浏览 1
提问于2017-06-17
得票数 0
2
回答
将tar.
gz
压缩的多个
文件
读入
Spark
、
、
、
我正在尝试从几个压缩成tar的json
文件
创建一个
Spark
。例如,我有3个
文件
file2.json这些都包含在archive.tar.
gz
中
。我想从json
文件
中
创建一个dataframe。问题是
Spark
没有正确
读取
json
文件
。使用sqlContext.read.json("archive.tar.
gz
")或sc.textFi
浏览 3
提问于2016-07-28
得票数 9
回答已采纳
0
回答
过滤`input_file_name`上的火花路径
、
有没有一种有效的方法,可以
在
不
读取
所有
文件
内容的情况下,将输入
文件
过滤到基于input_file_name的
spark
数据帧
中
?我
在
S3上有一条路径,里面有许多我正在通过
spark
.read.csv("path/to/csvs/*")阅读的
大型
压缩csvs (xx.csv.
gz
)。我想根据
文件
名过滤输入,而不是求助于glob模式。但是,当我使用wit
浏览 2
提问于2017-06-13
得票数 0
1
回答
如何在
Spark
中
处理多个csv.
gz
文件
?
、
、
、
、
我有一个包含多个表的
大型
数据集。每个表被分成数百个csv.
gz
文件
,我需要通过PySpark将它们导入到
Spark
中
。有关于如何将"csv.
gz
“
文件
导入到
Spark
的想法吗?SparkSQL的SparkContext或SparkSession是否提供了导入此类
文件
的功能?
浏览 22
提问于2017-07-06
得票数 1
1
回答
如何使用
spark
DF或DS
读取
".
gz
“压缩
文件
?
、
、
、
我有一个.
gz
格式的压缩
文件
,是否可以使用
spark
DF/DS直接
读取
该
文件
? 详细信息:
文件
是以制表符分隔的csv格式。
浏览 1
提问于2018-03-26
得票数 11
回答已采纳
3
回答
如何用pyspark
读取
gz
压缩
文件
、
、
我有.
gz
压缩格式的行数据。我不得不用pyspark来读它,下面是代码片段但我无法成功
读取
上述
文件
。如何
读取
gz
压缩
文件
?我发现了一个类似的问题,但我当前版本的
spark
与该问题中的版本不同。我希望
在
hadoop
中
应该有一些内置的函数。
浏览 0
提问于2017-03-13
得票数 12
回答已采纳
1
回答
在
阅读tar.
gz
存档时使用特定模式过滤
文件
、
、
、
、
我的
文件
夹myfolder.tar.
gz
中有多个CSV
文件
。我以这种方式创建了它:首先将所有
文件
放在
文件
夹名myfolder
中
,然后准备一个tar
文件
夹。然后准备这个tar
文件
夹的.
gz
。就像我们想一起
读取
所有的abc
文件
一样。 这不应该给我们def的结果,反之亦然。目前,我可以通过使用
spark
.read.csv()函数一起
读取
所有的CSV
文件
浏览 1
提问于2021-02-04
得票数 1
回答已采纳
1
回答
如何在
Spark
/Scala
中
不带(.
gz
)扩展的Azure上
读取
Gzipped
文件
、
我有一个
在
Azure上没有.
gz
扩展名的Gzipped
文件
。路径:
spark
.read.option("header","true").option("inferSchema","true").textFile(newFollowersStartDatePath).show() 我相信
浏览 8
提问于2019-07-15
得票数 0
回答已采纳
3
回答
PySpark3从https url
读取
文件
、
、
PySpark
中
是否有从.tsv.
gz
中
读取
.tsv.
gz
的方法?("wikipediaClickstream").getOrCreate() url = "https://dumps.wikimedia.org/other/clickstream/2017-11/clickstream-jawiki-2017-11.
浏览 7
提问于2021-09-25
得票数 1
回答已采纳
1
回答
在
Databricks中将gzip
文件
另存为表
、
、
、
我想通过以下PySpark命令将gzip
文件
保存为Databricks
中
的配置单元表: df =
spark
.read.csv(".../Papers.txt.
gz
", sep="\t") df.write.saveAsTable("...") gzip
文件
Papers.txt.
gz
解压后重约60 it (这是一个很大的.txt
文件
,实际上取自here),而
Spark
集群相当大(85
浏览 17
提问于2021-10-26
得票数 1
回答已采纳
2
回答
使用Seq(路径)从S3
读取
多个
文件
、
、
、
现在,我需要将".json“和".json.
gz
”(gzip)
文件
读入dataframe。[SparkSession]val df: DataFrame =
spark
.read.json(path:String)val df: DataFrame =
spark
.read.json(paths: String*) 我需要
读取
浏览 0
提问于2021-01-22
得票数 1
1
回答
如何在pyspark
中
读取
大型
zip
文件
、
、
我
在
s3上有n个.zip
文件
,我想要处理这些
文件
并从中提取一些数据。zip
文件
包含单个json
文件
。
在
Spark
中
,我们可以
读取
.
gz
文件
,但我没有找到任何方法来
读取
.zip
文件
中
的数据。有没有人能帮帮我,我该如何使用python
在
spark
上处理
大型
zip
文件
。我遇到了一些
浏览 1
提问于2019-03-28
得票数 4
1
回答
如何在
Spark
中
处理
大型
gz
文件
、
、
我正在尝试
读取
大的
gz
文件
,然后插入到表
中
。这花了这么长时间。sparkSession.read.format("csv").option("header", "true").load("file-about-5gb-size.
gz
").repartition(
浏览 2
提问于2018-10-20
得票数 0
2
回答
在
多个
文件
夹
中
压缩相同压缩
文件
名的多个
gz
文件
、
、
、
、
我有一个目录,其中有多个
文件
夹,每个
文件
夹包含多个具有相同压缩
文件
名的.
gz
文件
"
spark
.log“。我如何一次解压缩所有这些
文件
并将它们重命名为
gz
文件
?我的数据是这样的AC在其中的每一个
文件
中
,
spark
.log.
gz
spa
浏览 0
提问于2022-10-07
得票数 3
回答已采纳
1
回答
在
Databricks上使用Scala加载Z压缩
文件
、
、
、
有没有办法用
Spark
直接
读取
.Z (大写)
文件
扩展名?我知道带有
spark
的Scala可以直接
读取
gzip
文件
(.
gz
),但当我尝试将压缩的Z
文件
(.Z)加载到Dataframe
中
时,它不起作用。
浏览 0
提问于2020-05-06
得票数 2
1
回答
读取
pyspark数据帧
中
tar.
gz
文件
中
的特定csv
文件
、
、
、
、
我有这三个
文件
file_1.csv,file_2.csv,file_3.json里面的tar.
gz
文件
。我想在
spark
数据帧
中
读取
file_1.csvdf =
spark
.read.csv("s3://my_bucket/key/my_file_.tar.
gz
/file_1.csv")
浏览 0
提问于2019-06-07
得票数 0
1
回答
如何在scala中使用星火流从
文件
夹
中
读取
所有
文件
(包括子
文件
夹)?
、
、
我有一些
文件
,我想要使用火花结构化流。├── fileFour.
gz
├── fileSix.
gz
val df =
spark
.option("maxFilesPerTrigger", 1) .json("/myFolder/subFolderOne/") <-------
浏览 4
提问于2021-02-25
得票数 0
1
回答
使用
Spark
从Hadoop
读取
JSON
文件
、
、
、
我
在
树
中
的一些HDFS目录中有几个JSON
文件
(以.
gz
格式压缩),如下所示: /dir2/file2.
gz
...我需要从路径/master/
中
读取
这些
文件
,并在Java中使用
Spark
将它们连
浏览 0
提问于2016-04-29
得票数 0
2
回答
如何在并行
spark
中
运行转换
、
、
、
我正在尝试
读取
text.
gz
文件
,对其进行重新分区并进行一些转换,但是当我看到DAG时,stag1正在
读取
数据并仅在1个任务上执行转换,因此需要花费一些时间。 df1 =
spark
.read.text("text-04-14.log.
gz
")text_to_json_udf = udf(tex
浏览 2
提问于2021-04-30
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券