使用跳过行在Spark中读取csv

、、、

我正在尝试将数据从csv文件加载到DataFrame。我必须使用spark.read.csv()函数，因为rdd sc.fileText()不能处理文件中的特定数据( csv数据中有不可见的逗号字符，rdd sc.fileText()会将它们拆分)。csv文件在开始时有几行要跳过： Report <- to skipSessions <- to skip <

浏览 13提问于2019-06-11得票数 1

1回答

带验证的Spark read csv

、、

我正在使用spark的读取功能读取csv文件sparkSession.read.option("delimiter",",").schema(schema).csv("test.csv").as[Customclass] 问题是，当某一<e

浏览 14提问于2018-02-06得票数 0

回答已采纳

1回答

Spark忽略字符串中的逗号

尝试通过spark会话加载csv，但遇到在.i.e中包含双引号和逗号的字符串问题。SOLUTIONS LIMITED""""A"" STAR ACCOUNTING 通过spark会话读取csv读取csv

浏览 19提问于2018-02-07得票数 1

回答已采纳

2回答

如何读取火花放电中的特定列？

、、

我想从输入文件中读取特定的列。我知道如何在熊猫身上这样做。但是是否有类似于火花放电操作的任何功能呢？

浏览 11提问于2017-05-29得票数 3

回答已采纳

1回答

使用pyspark从S3读取csv作为spark数据帧(Spark2.4)

、、、、

我想从s3 (s3://test-bucket/testkey.csv)读取一个csv文件，作为使用pyspark的spark数据帧。我的集群运行在spark 2.4上。并且csv文件不会作为粘合表被爬行。你可以粘贴你的pyspark代码，这是基于spark会话，并转换为csv到spark数据帧在这里？在此先致谢并致以最良好的问候

浏览 16提问于2019-10-07得票数 3

1回答

PySpark和Pandas读取从S3中分离的csv文件跳过空文件

、、、、

使用PySpark，我有一些代码可以运行在一系列查询中。for index, query in enumerate(query_map): query).write.csv('s3://OutputBucket所以我的代码花了很多时间试图读取一个空的csv文件，结果却抛出了一个异常。据我所知，df_spark.toPandas()函数克服了spa

浏览 3提问于2018-02-07得票数 1

1回答

数据帧: pd.read_csv错误

、、

我有一个很大的文本文件，我用pd.read_csv读取了它。但它不能读取数据帧中的特殊行并返回该行的NAN值。我知道，如果我在行中添加一个空格，一切都会正常工作。

浏览 11提问于2021-04-14得票数 0

2回答

Spark文件格式转义\n正在加载CSV

、、

我正在使用spark读取CSV管道分隔的数据文件。这是有资格引用的。一个文本块中有一个/n，它会导致读取损坏。我不明白的是，它是引用限定文本，所以它肯定应该跳过它！？行本身是CR+LN分隔的。这就是我用来加载数据的代码val df = spark.read .s

浏览 2提问于2018-08-10得票数 0

回答已采纳

1回答

过滤火花数据

、、、、

我创建了一个dataframe，如下所示：在执行ratings.show()时，如下面所示，我可以看到imdbRating字段具有混合类型的数据，如随机字符串、电影标题、电影url和实际评级。所以脏数据看上去如下：| imdbRating||Mary

浏览 4提问于2018-12-10得票数 0

回答已采纳

2回答

在Pyspark (Spark* 2.1.1)中，将数据帧写入磁盘花费了不现实的长时间*

、、

除了写入磁盘之外，所有其他操作(读取、联接、过滤、自定义UDF)都可以快速执行。我尝试保存的数据帧的大小约为400 gb，具有200个分区。sc.getConf().getAll()我正在尝试使用以下命令进行保存：当我的意思是其他操作被快速执行时，在转换之后总是有一个操作，在我的例子中它们是行数。所以所有的操作都执行的非常快。我仍然不明白

浏览 1提问于2017-11-28得票数 1

1回答

从CSV文件的第n行加载数据

、、

我想处理一个巨大的命令CSV文件(5GB)，在文件的开头有一些元数据行。头列在第4行中表示(以"h，“开头)，后面是另一个元数据行，描述可选性。,Val100 .format("csv") .option("header", "

浏览 3提问于2017-03-26得票数 2

回答已采纳

1回答

在python中读取csv文件时跳过几行

、、

我有一个CSV文件，在实际的CSV启动之前有一些头信息。我希望跳过1-19中的所有行，然后从20行(以黄色突出显示)开始读取CSV，然后跳过第21和22行以及最后一行第30，然后开始处理文件的其余部分。 import pandas as pd df=pd.read_csv("C:\\Users\\xyz\\Downloads\\Spark\\avltest.csv</e

浏览 0提问于2019-09-13得票数 2

1回答

读取Spark中的多个CSV文件并生成DataFrame

、、、

我使用下面的代码读取多个csv文件，并将它们转换为熊猫df，然后将其作为一个单独的熊猫df连接起来。最后再一次转换为星火DataFrame。我想跳过转换到熊猫df部分，只是想有火花DataFrame。=1/dayofmonth=1/hour=2/*.csv spark_df = spark.read.format("csv</e

浏览 1提问于2021-04-14得票数 1

回答已采纳

2回答

在我的星火作业(星火2.4.1)中，我在S3上读取CSV文件。这些文件包含日本characters.Also，它们可以具有^M字符(u000D)，所以我需要将它们解析为多行。首先，我使用以下代码读取CSV文件： implicit class DataFrameReadImplicits (dataFrameReader: DataFrameReader) {在做了一些测试之后，我发现如果我使用"spark.sparkContext.tex

浏览 2提问于2020-05-18得票数 1

1回答

Pyspark在docker中找不到csv

、、

我有一个docker镜像，运行在python3.7上--阿尔卑斯山。现在，我只想将csv文件读入spark数据帧 spark = SparkSession. \ master("spark://spark-master:7077"). \Crimes_2001_to_Pre

浏览 25提问于2020-12-21得票数 1

回答已采纳

1回答

从dbfs (> 2gb )复制和读取文件的databricks错误

、、

我有6GB大小的csv。到目前为止，我使用的是下面一行，在使用java之后在dbfs上检查它的大小时，它仍然显示为6GB，所以我假设它是正确的。但是，当我做一个spark.read.csv(samplePath)时，它只读取1800万行，而不是6600万行。dbutils.fs.cp("file:" + _outputFile, _outputFile) Databricks自动假定，当您执行spark.read.csv( path

浏览 1提问于2019-07-19得票数 1

回答已采纳

4回答

如何在python中使用pandas read_csv自动跳过具有非浮点值的行？

、、

我有数以千计的.csv文件，其中包含大量的感官数据，都是浮点数。但在一些文件中也有一些行显示日期和时间信息，这些信息出现在文件中的不同位置，如下图所示： ? 使用pandas read_csv函数读取文件时，应跳过此类非浮点行，以免出错。我使用skiprows函数在常量的行索引处跳过特定的行，但问题是不需要的行在文件中的位置是可变的。all_list)): path = os

浏览 142提问于2021-02-01得票数 1

回答已采纳

1回答

在Spark中进一步处理之前，将CSV文件转换为Parquet是否有好处？

、、、、

我有一个ETL任务加载了很多CSV文件。其中一些CSV文件包含相同类型的数据，例如，60个文件包含一个初始数据帧的数据，另外30个文件包含另一个初始数据帧的数据，依此类推。然后使用Dataframe API连接和聚合这些数据帧，最终将最终的数据帧保存到一个Parquet文件中。在读取这些拼图文件和进一步处理之前，首先将所有CSV文件组转换成单个拼图文件对我是否有好处？它会让事情变得更快吗(考虑到这个转换步骤在我的工作中每次都会运行)？Spark<em

浏览 0提问于2018-07-12得票数 1

1回答

如何从excel工作表中加载特定的行和列，通过吡火花加载到单元表？

、

我的目标在下面2) ignore the first 3 rows, and read the data from 4th rowThe file has more than 2000 rows. 3) convert all the worksheets from the excel to separate CSV, and我可以创建一个Df来读取单个文件并将其加载到HIVE中。但我想我的要求还不止这些。

浏览 3提问于2018-09-11得票数 0

回答已采纳

1回答

火花:如何递归读取目录中所有扩展名不同的文件？

、、

└── f2.parquet ├── a └── b是否有一种方法可以跳过一些文件(有一些未知的扩展名)，而使用火花阅读。我可以读取目录中的所有文件吗？

浏览 0提问于2021-08-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

带验证的Spark read csv

Spark忽略字符串中的逗号

如何读取火花放电中的特定列？

使用pyspark从S3读取csv作为spark数据帧(Spark2.4)

PySpark和Pandas读取从S3中分离的csv文件跳过空文件

数据帧: pd.read_csv错误

Spark文件格式转义\n正在加载CSV

过滤火花数据

在Pyspark (Spark* 2.1.1)中，将数据帧写入磁盘花费了不现实的长时间*

从CSV文件的第n行加载数据

在python中读取csv文件时跳过几行

读取Spark中的多个CSV文件并生成DataFrame

火花CSV阅读器:混淆日语文本和处理多行

Pyspark在docker中找不到csv

从dbfs (> 2gb )复制和读取文件的databricks错误

如何在python中使用pandas read_csv自动跳过具有非浮点值的行？

在Spark中进一步处理之前，将CSV文件转换为Parquet是否有好处？

如何从excel工作表中加载特定的行和列，通过吡火花加载到单元表？

火花:如何递归读取目录中所有扩展名不同的文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐