使用自定义列和记录删除器读取pyspark中的文件

文章/答案/技术大牛

发布

1回答

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？我的列分隔符也是';‘下面的代码正确地获取了列

浏览 11提问于2021-05-26得票数 0

1回答

PySpark使用自定义记录分隔符读取CSV文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

3回答

如何从Scala Spark DataFrameReader csv中记录格式错误的行

、、、

的文档表明，spark可以记录在读取.csv文件时检测到的错误行。如何记录格式错误的行？是否可以获得包含格式错误的行的val或var？链接文档中的选项是: maxMalformedLogPerPartition (默认值为10)：设置Spark将为每个分区记录的最大格式错误行数。超过此数目的错误记录将被忽略

浏览 1提问于2017-01-27得票数 6

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。我正在使用下面的查询读取JSON文件，但得到重复的列错误，即使没有重复的列。我可以使用其他工具和JSON验证器来读取它，也可以使用数据流，但不能在PySpark中读取。"/

浏览 3提问于2021-11-25得票数 0

1回答

数据库中从堆栈交换数据转储到数据帧的XML PostHistory.xml解析

、、

我是非常初级的水平，我试着做一些数据处理。我有来自Stack Exchange转储集的数据集。我想通过使用pyspark将xml文件转换为csv。我在Databricks笔记本中执行了以下步骤，但是我有空的表傻瓜。我是PostHistory.xml <?xml version="1.0" encoding="UTF-8"?PostId="2" PostHistoryTypeId="2"

浏览 2提问于2021-11-25得票数 1

回答已采纳

1回答

如何使用PySpark更新hive表中的记录？

、

我们正在使用spark来处理大型数据，并且最近获得了新的用例，我们需要使用spark更新Hive表中的数据。下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。例如：加5 Add 30 32000 应用程序可以通过剥离Action列并附加到表

浏览 1提问于2019-03-29得票数 2

1回答

使用StringBuffer值向CSV文件添加列(Java)

、、

假设我有一个值为"1 \n 2 \n 3 StringBuffer“的StringBuffer，其中\n是一个换行符。如何使用Java将这些值作为列添加到现有的CSV文件中？在使用该方法将列添加到csv文件后，输出应该如下所示：2, 3, 1, 2..提前谢谢。编

浏览 0提问于2014-04-27得票数 3

回答已采纳

1回答

Parquet文件中groupby的最佳实践

、、、

我们有一个1.5BM记录分散在几个csv文件。为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：读取Parquet文件(Dask或pyspark)，并在data

浏览 2提问于2017-07-09得票数 3

1回答

如何在处理过程中收集火花放电中的坏行/记录？

、

你好，我刚接触过Pyspark，当我将test.csv文件中的字符串列“道布”转换为Date格式时，我遇到了一个问题，在这个问题中，Pyspark将坏记录转换为空值。我知道pyspark在处理坏数据方面的方法，比如允许模式、FAILFAST模式、BadRecordPaths，它们在读取文件/输入时收集坏数据，但是在运行函数时有可能收集坏记录吗？出生日期列 NAME3和名称

浏览 4提问于2022-06-01得票数 1

1回答

读取csv文件的multiLine选项不适用于具有新行闪烁2.3和闪烁2.2的记录。

、、、

我正在尝试使用pyspark读取器读取dat文件，它包含换行符("\n")作为数据的一部分。Spark无法将此文件读入单个列，而只能将其视为新行。我试着在阅读时使用"multiLine“选项，但它仍然不起作用。spark.read.csv(file_path, schema=schema, sep=delimiter,multiLine=True) 数据就是这样的。这里

浏览 0提问于2018-04-02得票数 1

回答已采纳

1回答

如何将自定义停止词列表添加到StopWordsRemover

、、、、

我在我的pyspark上使用pyspark.ml.feature.StopWordsRemover类。它有ID和文本列。除了提供默认的停止词列表外，我还想添加自己的自定义列表，以从字符串中删除所有数值。我可以看到为这个类提供了一个添加setStopWords的方法。我想我很难找到合适的语法来使用这个方法。from pyspark.sql.fun

浏览 0提问于2017-04-26得票数 9

回答已采纳

1回答

如何在读取pyspark* dataframe中的csv文件时读取选定的列？*

、、、

在读取csv文件时，我正在尝试读取选定的列。假设csv文件有10列，但我只想读取5列。有没有办法做到这一点？Pyspark： ?

浏览 6提问于2021-03-04得票数 1

1回答

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

、、、、

我有一个带有一条记录的输入csv文件。当我在pyspark中读取文件时，dataframe分别有三列a、b、c。A和c有数据，b有4个空格的数据。将文件写入csv时，4个空格的数据丢失，它将以空字符串的形式写入文件。aaaa, , bbbbaaaa,"",

浏览 19提问于2020-02-20得票数 0

2回答

Spark流处理二进制数据文件

、

我使用的是pyspark 1.6.0。我有现有的pyspark代码从亚马逊网络服务的S3桶读取二进制数据文件。其他Spark/Python代码将解析数据中的位，将其转换为int、string、boolean等。每个二进制文件都有一条数据记录。在PYSPARK中，我使用: sc.binaryFiles("s3n:/&

浏览 3提问于2016-06-29得票数 6

1回答

从另一个DataFrame向Pyspark* DataFrame添加列*

、、

两个Pyspark Dataframe都从csv文件中读取。如何在df_e中创建一个名为" amount“的新列，它从df_e中引用每条记录的名称和年值，并从df_p中获取相应的金额？使用Pyspark。编辑：下面是我读取文件的方式： from pysp

浏览 14提问于2020-12-05得票数 0

回答已采纳

2回答

Spark增量表更新

、

我使用sparksql和pyspark在Microsoft Azure Databricks环境中工作。所以我在一个湖上有一个增量表，其中的数据是按file_date分区的。从这些文件中，每天(因此是file_date的分区)，下游作业提取所有有效记录并将其发送以进行进一步处理，忽略这100-200条错误记录，等待接收到正确的映射文件。除了有效的

浏览 42提问于2020-05-26得票数 1

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functionsdatafr

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

Pyspark删除包含10个空值的列

、

我是PySpark的新手。我只想保留至少有10个值的列现在如何提取值小于10的列名，然后在写入新文件之前删除这些列 df = spark.read.parquet(file

浏览 1提问于2019-09-28得票数 1

1回答

使用csv文件中的pyspark数据绘制RDD数据

、、、、

我刚刚开始在非常大的csv文件上使用pyspark。我使用的是Spark版本2.1.0。我希望从一个.csv文件中读取数据，并将其加载到中，然后在过滤特定的行之后，使用matplotlib绘制2列(纬度和经度)，将其可视化。这就是我到目前为止所做的：from pyspark.sql import

浏览 0提问于2017-06-28得票数 1

1回答

验证CSV文件PySpark

、、、

我正在尝试验证csv文件(每条记录的列数)。根据下面的链接，在Databricks 3.0中有处理它的选项。df = spark.read .parquet("/input/parquetFile") 但是，我使用的是2.3版本的spar

浏览 1提问于2018-11-21得票数 1

点击加载更多