调整Pyspark dataframe中CSV文件数据的错误数据

文章/答案/技术大牛

发布

1回答

、、

我试图在Pyspark中将CSV文件读取到dataframe中，但我有一个包含混合数据的CSV文件。它的部分数据属于它的相邻列。有没有办法修改python中的dataframe以获得预期的输出dataframe？示例CSV ID , Name '1'

浏览 22提问于2020-01-26得票数 0

回答已采纳

1回答

使用pyspark如何拒绝csv文件中的坏(格式错误)记录，并将这些被拒绝的记录保存到新文件中

、、

我正在使用pyspark将数据从csv文件加载到dataframe中，并且我能够在删除格式错误的记录的同时加载数据，但是我如何才能拒绝csv文件中的这些错误(错误格式)记录，并将这些被拒绝的记录保存在新文件中

浏览 11提问于2019-01-15得票数 2

回答已采纳

1回答

如何使用Databricks将PySpark数据保存到个人计算机？

、、

我在Databricks环境中有一个dataframe。我需要把这个数据下载到我的个人电脑上。此dataframe包含10,000行。因此，请尝试执行以下操作：org.apache.spark.SparkException:

浏览 4提问于2022-07-08得票数 0

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为Labele

浏览 4提问于2016-09-08得票数 6

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

如何从pyspark dataframe中更快地保存csv文件？

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。(1).write.format('com.databricks.spark.c

浏览 126提问于2019-08-01得票数 5

1回答

星火中的CSV文件分析格式不正确

、、、

我是新来的数据科学，我是使用星火与PySpark的API。我想要创建一个DataFrame文件的.CSV文件。当我这样做时，这些列被移动到一个列中，如下所示。我用来创建CSV文件的DataFrame的注释是 spark = SparkS

浏览 3提问于2021-07-04得票数 0

回答已采纳

1回答

如何对PySpark* DataFrame的每一列中的数据进行混洗？*

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。df = (spark.read .option("inferSchema", "t

浏览 16提问于2020-05-11得票数 0

1回答

Pyspark不能将大型数据输出到csv。会话设置不正确？

、、、

我在火星雨2.3中的演讲： .builder\ .config('spark.executor.instances会话，并处理大约包含数据的数据。这些数据由int、float和str数据组成。我的程序应该连接几个表，格式化一些数据，描述最终的结果表并以csv格

浏览 10提问于2022-11-30得票数 0

1回答

在两个函数python之间传递数据

、

from varname import nameof df.coalesce(1).write.option("header", "true")\ .csv(dataframe_abc) spark.stop

浏览 10提问于2022-05-11得票数 0

回答已采纳

4回答

PySpark java.io.IOException:方案没有FileSystem : https

、、

我正在使用本地窗口，并试图用python上的以下代码加载XML文件，我遇到了这个错误，有人知道如何解决它吗？options(rowTag="IRS990EZ").load("https://irs-form-990.s3.amazonaws.com/201611339349202661_public.xml") 这就是错误990.s3.amazonaws.com/201611339349202661_public.xml") C:\

浏览 87提问于2017-11-17得票数 4

回答已采纳

1回答

我们是否可以在湖人库中的dataframe和table之间执行合并/重新插入操作？

、、

我已经将数据从存储存储到sdf数据，将数据从Lake存储到另一个dataframe，并希望执行合并/更新。." + key_column1).whenMatchedUpdateAll().whenNotMatchedInsertAll().execute() AttributeError：“DataFrame”对象没有属性“Merge”错误

浏览 2提问于2022-08-01得票数 0

2回答

火花聚结和收集，哪一个更快？

、、

我使用pyspark来处理50 15的数据，使用15 m4的AWS。fo

浏览 0提问于2016-09-15得票数 4

回答已采纳

1回答

模块pyspark_csv没有属性“csvToDataframe”

、、

我是新的火花和面临一个错误，同时将.csv文件转换为数据。我使用pyspark_csv模块进行转换，但是错误地说“模块'pyspark_csv‘没有属性’csvToDataframe‘”。这是我的代码：import findsparkfindspark.find()sc=pyspark</e

浏览 2提问于2016-05-02得票数 1

回答已采纳

2回答

Pyspark dataframe到pandas的转换会丢弃数据吗？

、

我有一个相当复杂的过程来创建pyspark dataframe，将其转换为pandas dataframe，并将结果输出到平面文件。我不确定错误是在哪一点引入的，所以我将描述整个过程。开始时，我有一个pyspark dataframe，其中包含ids集的成对相似性。EuclideanDistance']) result = (df.withColumn('row_num', row_nu

浏览 1提问于2018-05-02得票数 0

1回答

如何使用postgreSQL表插入csv文件内容？

、、、

我希望将数据从csv文件插入到postgreSQL表中。我编写了从csv文件中获取数据的代码，如下所示我得到了'myData‘变量中

浏览 0提问于2018-09-19得票数 1

回答已采纳

1回答

如何修复'DataFrame‘对象没有属性’聚结‘？

、、、、

在一个PySpark应用程序中，我试图将数据转换成熊猫，然后将结果写入csv文件。我就是这样做的：df.coalesce(1).write.option("header", True).option("delimiter", ",").csv('dataframe

浏览 2提问于2017-09-28得票数 5

回答已采纳

1回答

PySpark: AttributeError：“DataFrame”对象没有属性“forEach”

、、

我试图从hdfs中获取数据，并对每个数据进行迭代，以便对列_c1进行分析。import findsparkimport pysparksc= SparkContext()sql = SQLContext(sc) df = sql.read.

浏览 3提问于2022-04-07得票数 0

回答已采纳

1回答

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

、、、、

我正在尝试将星火数据转换为Azure数据库中的熊猫数据。但我得到了以下错误：首先，我使用以下行读取csv文件：df1 = spark.read.csv('/mnt/test/sample.csv', header = True但是，在

浏览 0提问于2019-08-26得票数 1

回答已采纳

点击加载更多