腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
spark
python
读取
多个
csv
到
dataframe
、
、
我在一个数据记录上有
多个
csv
文件。我可以连接到datalake,甚至可以列出文件。但我需要将这些文件放在一个数据帧中,以便可以将此数据帧加载到SQL中。加载到SQL也没有问题。问题是,只有datalakefolder中的最后一个文件的内容被读写到SQL中(因此也在
dataframe
中)。可能是因为每次都会覆盖数据帧。但我不知道如何在每个周期中将数据附加到数据帧中。filename = file.name tablename = "Obelix"
浏览 53
提问于2020-01-24
得票数 0
回答已采纳
3
回答
利用火花放电在循环中添加火花DataFrames的有效方法
、
、
、
、
低效方式( 2)在循环中,
读取
文本文件以激发
dataframe
df1,并将其附加到空中。df =
spark
.createDataFrame([],schema) filepath = '{}/{}'.format(textfiles_dir,x)
浏览 7
提问于2020-03-27
得票数 2
回答已采纳
1
回答
如何在
Spark
中处理
多个
csv
.gz文件?
、
、
、
、
我有一个包含
多个
表的大型数据集。每个表被分成数百个
csv
.gz文件,我需要通过PySpark将它们导入
到
Spark
中。有关于如何将"
csv
.gz“文件导入
到
Spark
的想法吗?
浏览 22
提问于2017-07-06
得票数 1
1
回答
在
spark
中从HDFS加载文件
、
我尝试从HDFS运行这个
spark
程序,因为当我在本地运行它时,我的pc上没有足够的内存来处理它。有人可以告诉我如何从HDFS加载
csv
文件,而不是在本地加载吗?下面是我的代码:import org.apache.
spark
.sql.Row;import org.apache.
spark
.sql.SparkSession; import
浏览 0
提问于2018-04-19
得票数 0
2
回答
数据砖.从文件夹中
读取
CSV
文件
、
从dbfs:/FileStore/shared_uploads/prasanth/Company.
csv
中选择* 我试图在蔚蓝数据砖中从文件夹中选择记录,但我面临以下错误:SQL语句: AnalysisException
浏览 3
提问于2022-10-21
得票数 0
3
回答
PySpark序列化EOFError
、
、
、
我正在以火花
DataFrame
的形式
读取
CSV
,并在其上执行机器学习操作。我一直得到一个
Python
序列化EOFError --知道为什么吗?conf)df = sqlContext.read.format('com.databricks.
spark
.
csv
').options(header='tru
浏览 5
提问于2016-04-12
得票数 34
1
回答
使用架构更改pyspark
dataframe
标头名称
、
、
我有10列左右的
csv
,我从不同的源获得数据,头名也不同。我试图使用模式更改标题名称,如下所示。True), return df_transform df = transform(
spark
.read.
csv</em
浏览 1
提问于2021-03-11
得票数 0
回答已采纳
2
回答
使用
spark
dataFrame
从HDFS加载数据
、
我们可以在从硬盘文件系统中
读取
数据时使用
DataFrame
吗?我在HDFS中有一个制表符分隔的数据。 我用谷歌搜索了一下,但我发现它可以用于NoSQL数据
浏览 1
提问于2016-06-05
得票数 5
回答已采纳
2
回答
Spark
错误地
读取
CSV
、
、
、
我想在
spark
中
读取
train.
csv
,但似乎
spark
不知何故无法正确
读取
该文件。我使用
python
将
csv
读取
到pandas中,它显示了正确的值1作为project_is_approved中的第一个条目。当我使用
spark
(scala)
读取
csv
时,我得到一个字符串,该字符串可能来自数据集中的其他地方。 为什么会发生这种情况?大多数示例使用我用来
读取
csv
浏览 0
提问于2018-06-08
得票数 0
1
回答
PySpark
DataFrame
写入空(零字节)文件
、
、
我正在使用
Spark
3.1.1版本的PySpark
DataFrame
API进行本地设置。在
读取
数据、执行一些转换等之后,我将
DataFrame
保存到磁盘。我试着用parquet和
csv
格式编写它,结果是一样的。在编写之前,我调用了df.show()以确保
DataFrame
中有数据。= SparkSession.builder.appName('My
Spark
App').getOrCreate() data =
spark
.r
浏览 8
提问于2022-05-11
得票数 1
2
回答
是否会在每次操作中从外部源
读取
数据?
、
、
在星火外壳上,我使用下面的代码从
csv
文件中
读取
val df =
spark
.read.format("org.apache.
spark
.
csv
").option("header", "true").option("mode", "DROPMALFORMED").
csv
("/opt/person.
csv
") //
浏览 5
提问于2016-12-05
得票数 1
回答已采纳
1
回答
将
python
数据对象保存到google存储中,从dataproc中运行的pyspark作业中保存文件。
、
、
、
我在使用dataproc运行pyspark作业时收集度量,并且无法在google存储中持久化它们(只使用
python
函数,而不是使用
Spark
)。关键是我可以保存它们,在执行过程中,我成功地
读取
和修改了它们,但是当作业结束时,我的google存储文件夹中什么都没有。pdf = pd
浏览 0
提问于2018-02-08
得票数 2
1
回答
读取
Spark
中的
多个
CSV
文件并生成
DataFrame
、
、
、
我使用下面的代码
读取
多个
csv
文件,并将它们转换为熊猫df,然后将其作为一个单独的熊猫df连接起来。最后再一次转换为星火
DataFrame
。我想跳过转换到熊猫df部分,只是想有火花
DataFrame
。=1/dayofmonth=1/hour=2/*.
csv
spark
_df =
spark
.read.format("<
浏览 1
提问于2021-04-14
得票数 1
回答已采纳
1
回答
将星星之火转换为熊猫的
dataframe
有例外:在使用基于文件的收集时不支持箭头。
、
、
、
、
我已经使用链接:尝试了引用代码#read file# Convert the
Spark
DataFrame
to a Pandas
DataFrame
pandas_df = df1.select
浏览 0
提问于2019-08-26
得票数 1
回答已采纳
1
回答
Azure Blob存储错误无法解析
spark
中的日期
、
、
我正在尝试使用
python
将azure datalake gen2中分配的文件
读取
到
spark
dataframe
中。代码是from pyspark.sql import SparkSession key =appName) \ .set("fs.azure.account.key.myaccount.dfs.core.wind
浏览 2
提问于2021-09-13
得票数 0
1
回答
Scala无法解析符号AnalysisException
在使用
spark
从S3
读取
文件时,我试图捕获一些异常,如果Path does not exist异常发生,我希望我的代码什么也不做。为此,我有如下代码:if (fileType == "
csv
"){
浏览 2
提问于2021-09-02
得票数 0
回答已采纳
1
回答
Pyspark从路径存储桶中
读取
csv
文件: AnalysisException: S3不存在
、
在Google Colab中,我正在尝试让PySpark从S3存储桶中
读取
csv
。"df =
spark
.read.
csv
(SparkFiles.get("filename.
csv
"), sep=",", header"----> 6 df =
spa
浏览 32
提问于2021-10-15
得票数 0
1
回答
AWS作业create_dynamic_frame_from_options()打开特定的文件?
、
、
、
如果使用create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,从Glue爬虫中创建,这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。
浏览 1
提问于2020-07-15
得票数 1
2
回答
在同一目录中创建具有和不具有标头的
多个
文件的PySpark
DataFrame
、
我正在尝试从包含
多个
文件的目录创建数据帧。在这些文件中,只有一个文件有头。我想使用infer schema选项从头部创建模式。但是,当我
读取
目录中的所有文件时flights =
spark
.read.
浏览 0
提问于2018-04-26
得票数 1
1
回答
PySpark如何将
CSV
读入数据帧,并对其进行操作
、
、
、
、
我对pyspark非常陌生,正在尝试使用它来处理一个保存为
csv
文件的大型数据集。我想将
CSV
文件读入
spark
dataframe
,删除一些列,然后添加新列。我该怎么做呢?这是我目前所学内容的精简版本: fields = data_portion.split(",")a, b: a.union(b)) .format(&q
浏览 2
提问于2016-10-30
得票数 7
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券