如何在读取pyspark时读取没有头部的csv，并使用名称命名它们？

dataframe、pyspark

100000,20160216,1896542100000,20160216,77273616 100000,20160507,1303015 我想读取第一行没有列名的csv文件。如何同时读取并命名具有我指定名称的列？现在，我只是用我指定的名称重命名了原始列，如下所示： df = spark.read.c

浏览 177提问于2017-06-15得票数 26

回答已采纳

1回答

在pyspark中读取TSV文件

python、file、apache-spark、pyspark

什么是最好的方式读取.tsv文件的头部在pyspark和存储它在一个火花数据帧。谢谢。

浏览 25提问于2020-05-14得票数 2

回答已采纳

1回答

从本地计算机读取数据时出现(PySpark)问题

apache-spark、pyspark

当我使用pyspark从我的计算机读取数据(DAT文件-4 Gb)时，一切正常，但当我使用pyspark从本地计算机(我公司的其他计算机通过LAN连接)读取数据时，出现以下错误： '‘Py4JJavaError:调用o304.csv时出错。用法: java.io.IOException:方案没有FileSystem : null '‘ Erro

浏览 26提问于2020-10-28得票数 0

1回答

pyspark合并覆盖为一个具有固定名称的文件

apache-spark、pyspark、amazon-emr

我们有一个自动化管道的需求。我的需求是使用具有固定名称的pyspark生成/覆盖一个文件但是，我现在的命令是- final_df.coalesce(1).write.option("header", "true").csv("s3://finalop/" , mode="overwrite") 这确保目录(finalop)是相同<e

浏览 25提问于2020-10-14得票数 0

回答已采纳

1回答

如何在读取pyspark* dataframe中的csv文件时读取选定的列？*

csv、pyspark、apache-spark-sql、pyspark-dataframes

在读取csv文件时，我正在尝试读取选定的列。假设csv文件有10列，但我只想读取5列。有没有办法做到这一点？Pyspark： ?

浏览 6提问于2021-03-04得票数 1

3回答

PySpark:如何将逗号指定为十进制

csv、pyspark、number-formatting

我正在使用PySpark并加载一个csv文件。我有一个带有欧洲格式数字的列，这意味着逗号代替了点，反之亦然。例如:我使用2.416,67而不是2,416.67。选项中指定pd.read_csv()来读取欧洲格式，可以轻松地读取这样的文件。我不知道如何在PySpark中做到这一点。("filepath/revenues.csv",se

浏览 0提问于2018-10-08得票数 13

回答已采纳

1回答

如何在PySpark中读取DBF文件

python、apache-spark、pyspark、redis、dbf

我需要在.DBF中读取和处理PySpark文件，但是我没有得到任何库，我怎么能像读取CSV、JSON、Parquet或其他文件那样读取它。from pysp

浏览 9提问于2022-01-29得票数 0

1回答

我的程序的map/zipmap部分会占用太多内存吗？

map、clojure、sequence、lazy-evaluation

我的问题是，如果.csv文件足够大，那么map/zipmap步骤(如下所示)是否存在消耗太多内存的风险？(defn fetch-csv-data "This function accepts a csv file name, and r

浏览 0提问于2012-08-10得票数 2

回答已采纳

1回答

是否有可能用火花放电中的UDF进行基于文件的处理？

python、apache-spark、pyspark、azure-blob-storage

我定义了一个UDF，它使用dataframe执行以下操作，其中列包含azure存储中的zip文件的位置(我测试了不带火花的UDF，并得到了解决)：从blob下载定义的文件，并将其放在Excutor有了这个UDF，我体验到了同样的速度，就好像我只是在python中循环文件一样。那么，是否有可能在火花中完成这样的任务呢？我想要使用火花并行下载和解压缩，以加快它。我通过ssh连接到执行器和驱动程序(它是一个测试集群，因此它只有一个)，

浏览 1提问于2020-07-31得票数 0

1回答

pyspark不支持大于127的分隔符

pyspark

我在AWS EMR上使用pyspark，其中我使用Spark 2.4.3读取CSV文件，并将分隔符作为命令行参数传递。如果self.d

浏览 7提问于2020-11-17得票数 1

2回答

在Pandas中将多个csv读取到单独的数据帧中

python、pandas、dataframe

我有一个很长的csv文件列表，我想以数据帧的形式读取这些文件，并按文件名命名它们。例如，我想读入文件status.csv，并为其数据帧指定名称status。有没有办法可以使用Pandas有效地做到这一点？查看this，我仍然需要在循环中写出每个csv的名称。我想避免这种情况。看看this，它允许我将多个csv读取到一个数据帧

浏览 38提问于2019-03-20得票数 1

回答已采纳

1回答

PySpark使用自定义记录分隔符读取CSV文件

python、python-3.x、pyspark、apache-spark-sql

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

1回答

使用for list指定变量名

python、pandas

这是一个简单的问题。我想遍历两个列表，第一个列表命名变量，第二个列表读取csv。我希望根据列表遍历的名称将csv赋值给变量。以下是我编写的代码示例：for i i

浏览 15提问于2019-11-11得票数 1

1回答

如何使用Databricks Community将从Kaggle下载的数据导入DBFS？

databricks、kaggle、databricks-community-edition

我使用Kaggle从Kaggle下载了数据集。数据存储在/databricks/driver目录下。my_key%sh unzip ncaaw-march-mania-2021.zip 问题是:如何在DBFS中使用它们？下面是我读取数据的方式，以及当我试图使用pyspark读取c

浏览 2提问于2021-08-07得票数 4

回答已采纳

2回答

从Azure存储资源管理器读取databricks中的zip文件

pyspark、azure-storage、unzip、zip、azure-databricks

我想读取具有csv文件的zip文件。我尝试过许多方法，但没有成功。在我的例子中，我应该读取文件的路径在中。例如，当我必须在databricks中读取csv时，我使用以下代码： dfDemandaBilletesCmbinad = spark.read.csv("/mnt/data/myCSVfile.<em

浏览 4提问于2021-05-04得票数 0

3回答

如何避免熊猫在使用CSV文件时在数据中添加索引

python、pandas、dataframe、indexing

我使用dataframes和CSV文件来操作数据。大多数情况下，我的数据文件，或者我使用的API提供的数据，都没有索引。如果它们有索引，特别是在编写和读取CSV文件时，我只需使用列的名称"unnamed:0“来删除它们。但是这一次，to_CSV在我的CSV

浏览 3提问于2020-01-22得票数 0

回答已采纳

1回答

PySpark拼花数据类型

python-3.x、pyspark

我使用PySpark读取一个相对较大的csv文件(~10 to )：所有列都有数据类型string。例如，在更改column_a的数据类型后，我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中，并读取这个拼图文件，我会注意到所有的列都有数据类型strin

浏览 4提问于2018-06-01得票数 0

0回答

读取pyspark中的JSON文件以创建python中的schema struct类型

python、json、azure、pyspark、azure-databricks

我正在尝试读取一个不是我创建的JSON文件，该文件具有我可以读取的CSV的模式、名称和类型信息，但在CSV中没有标头。我想要的是可以用来读取CSV文件的Struct Schema。我还不能获得定义数组的数据帧，这样我就可以循环并创建结构元素。如果我尝试使用普通的python3读取</e

浏览 7提问于2021-10-25得票数 0

2回答

如何从给定文件夹读取多个csv文件时获得命名列表？

r、list、csv

假设我在给定的文件夹中有几个csv文件，当我读取它们时，我可以有一个未命名的列表，其中每个list元素都有默认的数字索引。我怎样才能把它们作为名字列表来阅读呢？下面是我所做的代码：

浏览 0提问于2016-09-18得票数 2

回答已采纳

2回答

使用循环或lapply读取和命名文件

r、for-loop、import、lapply

我目前有诸如"ALTable.csv“、"DETable.csv”等标题的文件。我想将这些文件读取到程序中，并将内容保存在一个命名的数据框中。然后，我想继续对这些数据帧执行操作，并使用它们来构造由旧数据帧填充的计算填充的新数据帧。我能够找到如何告诉R创建相关文件的列表以及如何加载它们，但我不知道如何

浏览 6提问于2019-01-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pyspark中读取TSV文件

从本地计算机读取数据时出现(PySpark)问题

pyspark合并覆盖为一个具有固定名称的文件

如何在读取pyspark* dataframe中的csv文件时读取选定的列？*

PySpark:如何将逗号指定为十进制

如何在PySpark中读取DBF文件

我的程序的map/zipmap部分会占用太多内存吗？

是否有可能用火花放电中的UDF进行基于文件的处理？

pyspark不支持大于127的分隔符

在Pandas中将多个csv读取到单独的数据帧中

PySpark使用自定义记录分隔符读取CSV文件

使用for list指定变量名

如何使用Databricks Community将从Kaggle下载的数据导入DBFS？

从Azure存储资源管理器读取databricks中的zip文件

如何避免熊猫在使用CSV文件时在数据中添加索引

PySpark拼花数据类型

读取pyspark中的JSON文件以创建python中的schema struct类型

如何从给定文件夹读取多个csv文件时获得命名列表？

使用循环或lapply读取和命名文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐