Pyspark dataframe:从csv加载，然后删除第一行

文章/答案/技术大牛

发布

1回答

、、、、

我能够将csv文件从Azure datalake加载到pyspark dataframe中。如何删除第一行，并使第二行作为我的标题？我见过一些RDD解决方案。但我无法加载该文件，并且使用以下代码时出现错误"RDD is file“ items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core

浏览 30提问于2020-03-20得票数 0

回答已采纳

4回答

DataFrame.to_csv抛出错误'[Errno 2]没有这样的文件或目录‘

、、、

我正在尝试将一个DataFrame写入一个.csv文件：date = now.strftime("%Y-%m-%d") enrichedDataFile = enrichedDataDir + "/marketData_optam_" + date + ".csv" db

浏览 1提问于2018-10-12得票数 1

回答已采纳

1回答

PySpark-如何从这个数据中过滤行

、

我正在尝试从一个文件中读取第一行，然后从dataframe中过滤它。from pyspark.sql.session import SparkSession sc = SparkContext(appName

浏览 4提问于2020-07-09得票数 1

回答已采纳

1回答

使用pyspark如何拒绝csv文件中的坏(格式错误)记录，并将这些被拒绝的记录保存到新文件中

、、

我正在使用pyspark将数据从csv文件加载到dataframe中，并且我能够在删除格式错误的记录的同时加载数据，但是我如何才能拒绝csv文件中的这些错误(错误格式)记录，并将这些被拒绝的记录保存在新文件中

浏览 11提问于2019-01-15得票数 2

回答已采纳

1回答

在Azure数据库中将csv文件加载到Apache数据帧时跳过第一行

、、

在我的笔记本中，下面的代码正确地将以下数据加载到 DataFrame中。HD|20211210 DT|D-|12/22/20

浏览 4提问于2022-01-14得票数 0

1回答

如何使用spark dataframe(python/pyspark)跳过csv文件中不需要的标头

、

如何跳过csv中的第一行，并将第二行视为pyspark dataframe中的头部： prod,daily,impress01,manish,USA03,willson,Africa 如何跳过第一行(prod daily impress)，并使用spark dataframe将(id，name，country)视为标题。

浏览 12提问于2019-04-08得票数 0

1回答

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

、、、、

我有一个很大的csv文件(5 5GB)，其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv文件。我尝试了下面的方法来分块，但花了很多时间来执行分块：data = dask.dataframe.read_csv('test.csv') data.t

浏览 1提问于2020-09-02得票数 0

1回答

下面的代码将数据从csv文件加载到dataframe df中。与此myTable.myTable对应的SQL表myTable已经存在，数据将从这个df导入到df中，其中有几个列。但是在下面的代码的最后一行.withColumn("Column6", newFunction2(df.Column5))上抛出以下错误. 问题：我这里可能做错了什么。我们怎样才能纠正错误。注意:如果我从Column6中删除myTable，并删除下面代码的最

浏览 8提问于2022-05-29得票数 0

回答已采纳

1回答

Pyspark:从blob存储加载一个zip文件

、、、

我正在使用Pyspark尝试从blob存储区读取zip文件。我想在加载文件后将其解压缩，然后将解压缩的CSV写回blob存储。我遵循这个指南，它解释了如何解压缩文件一次读：df = sqlContext.read.format("file_location").load 我希望这样可以以df的形式将zip加载到data

浏览 3提问于2020-04-21得票数 1

2回答

PySpark用浮动TypeError创建DataFrame

、、、

我有如下数据集：我正在使用PySpark解析数据，然后使用下面的代码创建一个DataFrame：from pyspark.sqlimport Row fields = line.split(','SparkSession.builder.appName

浏览 2提问于2020-07-11得票数 0

回答已采纳

1回答

使用PySpark有效地将多个小的csv文件(130,000个，每个列有2列)合并成一个大框架

、、、、

在主目录中列出了它们的子目录，因此第一个单元可能是A/AAAAA，文件位于/data/A/AAA.csv。但是所有的列都被命名为VALUE，框架变

浏览 4提问于2020-02-18得票数 0

回答已采纳

1回答

如何将pandas dataframe导出到文件中，以便可以使用pandas dan pyspark打开？

、、、

我读过pandas.read_csv和pyspark.sql.DataFrameReader.csv文档，似乎PySpark端没有doublequote参数，所以字段内的引号字符使用转义字符和pandas可以通过在pandas.to_csv中设置参数doubleqoute=False和escapechar='\\'，在pyspark.sql.DataFrameReader.csv中设置参数multiLine但是，在我将这些参数设置为pandas.to

浏览 22提问于2019-06-17得票数 3

3回答

如何将PySpark中的数据帧/RDD作为CSV/Parquet文件快速保存到磁盘？

、、、、

我有一个正在运行的Google Dataproc集群，并且正在向它提交一个PySpark作业，该作业从Google Cloud Storage (945MB CSV文件，400万行-->总共需要48秒才能读入)读取一个文件到PySpark dataframe，并对该数据帧应用一个函数(parsed_dataframe = raw_dataframe.rdd.map(parse_user_agents).toDF然后，我必须将这些

浏览 8提问于2017-08-01得票数 4

1回答

如何删除熊猫数据的最后一列中的第一个值，然后删除剩下的最后一行？

、

下面我用熊猫来阅读我的csv文件，格式如下：dataset = dataframe.values 如何删除dataframe中最后一列中的第一个值，然后删除dataframe中的最后一行？

浏览 6提问于2017-08-22得票数 0

回答已采纳

1回答

Spark (Databricks)来自SQL的非托管表不处理标头

、、

正在尝试使用SQL API从CSV文件在Spark (Databricks)中创建非托管表。但是第一行没有被用作标题。图2显示了使用Dataframe API创建非托管表时第一行是正确的。该Dataframe是从同一csv文件加载的。但是，图1显示，从SQL中的CSV文件数据源创建非托管表时，不会将第一行作为标题处理。我是否

浏览 26提问于2021-07-15得票数 1

回答已采纳

1回答

如何使用Databricks将PySpark数据保存到个人计算机？

、、

我在Databricks环境中有一个dataframe。我需要把这个数据下载到我的个人电脑上。此dataframe包含10,000行。因此，请尝试执行以下操作： df_test.coalesce(1).write.csv("dbfs:/FileStore/tables/df_test", header=True, mode='overwrite

浏览 4提问于2022-07-08得票数 0

回答已采纳

4回答

PySpark java.io.IOException:方案没有FileSystem : https

、、

我正在使用本地窗口，并试图用python上的以下代码加载XML文件，我遇到了这个错误，有人知道如何解决它吗？990.s3.amazonaws.com/201611339349202661_public.xml") 1135 for temp_arg in temp_args: C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\python\pyspark</

浏览 87提问于2017-11-17得票数 4

回答已采纳

1回答

火花放电数据的模糊搜索

、、

我有一个大型csv文件(>9600万行)和七列。我想对其中一个列进行模糊搜索，并检索与输入字符串相似程度最高的记录。这个文件是由spark管理的，我通过pyspark将它加载到一些dataframe中。现在，我想使用像fuzzywuzzy这样的方法来提取与最佳匹配的行。函数提取返回一些我无法使用的内容：结果：[(Co

浏览 9提问于2022-09-27得票数 0

2回答

在Spark / PySpark中使用文件名连接数据

、、、

我正在从PySpark中的许多PySpark文件中读取数据。S3键包含创建文件的日历日期，我希望在数据和该日期之间进行连接。是否有任何方法在文件和文件名中的数据行之间进行连接？

浏览 2提问于2015-10-16得票数 0

回答已采纳

2回答

如何在pyspark.sql中作为select创建表

、、、

我做以下几件事findspark.init()from pyspark.sql import SQLContext sc = pyspark.SparkContext17/01/21 17:19:43警告NativeCodeLoader:无法为平台加载本机-hadoop库.在适当的情况下使用内置-java类(最近一次调用)：文件"/Users/user/spark-2.0.2-bin-hadoo

浏览 5提问于2017-01-21得票数 6

回答已采纳

点击加载更多