如何在Spark (Scala)中读取带有新行和新列的自定义分隔符的文件

、、

读取新行分隔符为"^*~"、列分隔符为"^|&"的文本文件的最佳方法是什么？我有一个有很多列的文件，比如超过100列。请建议一下有效的方法。下面是包含少量字段的文件。我有一个像这样的文件 abcd^|&cdef^|&am

浏览 18提问于2017-01-13得票数 2

回答已采纳

1回答

在Apache Spark CSV中，我们为字段指定了分隔符，但是如何为行指定分隔符呢？

我们有不同类型的CSV文件，其中一些是换行符作为行分隔符，还有一些是其他自定义分隔符，如|，!..etc是行分隔符。那么如何在spark CSV数据读取中提供行分隔符。

浏览 4提问于2017-10-04得票数 1

1回答

如何在scala中处理文本限定符分隔文件

、、

我有很多带有文本限定符的分隔文件(每一列开始和结束都有双引号)。分隔是不一致的，即可以有任何分隔符，如逗号(，)、管道(\)、~、制表符(\t)。我需要用文本(单列)读取这个文件，然后考虑文本限定符来检查分隔符的no。如果任何记录的列数少于或多于定义，则应拒绝该记录并将其加载到不同的路径。下面是具有3列ID、

浏览 1提问于2017-10-03得票数 1

回答已采纳

2回答

在星火中向DataFrame添加一个新列

、、、、

我希望向DataFrame中的Spark(Scala)中添加一个带有行id的新列。这就是我所采取的方法。我正在创建一个带有索引id的新行和一个包含了另一个StructType的新StructField。$$anonfun$6.apply(SQLContext.scal

浏览 4提问于2016-05-02得票数 0

回答已采纳

1回答

读取csv文件的multiLine选项不适用于具有新行闪烁2.3和闪烁2.2的记录。

、、、

我正在尝试使用pyspark读取器读取dat文件，它包含换行符("\n")作为数据的一部分。Spark无法将此文件读入单个列，而只能将其视为新行。spark.read.csv(file_path, schema=schema, sep=delimiter,multiLine=True) 数据就是这样的。这里$是CRLF的换行符，如vim所示。如

浏览 0提问于2018-04-02得票数 1

回答已采纳

1回答

如何读取多行文本文件(分隔符换行符)作为不同csv数据文件的标题？

、

我有单独的头文件和正文文件。正文文件是具有自定义分隔符的csv文件。头文件是一个多行文件，每个列名都在一行中。我想知道如何读取头文件。已尝试使用多行选项和换行符作为分隔符 .opti

浏览 12提问于2019-07-19得票数 0

2回答

使用Scala将Spark中的所有新行转换为新列

、、、

我有一个数据帧，它有固定的列，如m1_amt to m4_amt，包含以下格式的数据： +------+----------+----------+----------+-----------++------+----------+----------+----------+-----------+ 我尝试将每个新行转换为一个新列3 | 7 | 1

浏览 22提问于2020-01-01得票数 1

回答已采纳

2回答

如何使用ascii控制字符作为分隔符在excel中导出电子表格(csv)？

、、

我有这个csv文件，我想用Ruby进行解析。该文件的数据是一个集群，字段中有逗号和新行，但Excel仍然正确地读取它。如果可以使用单元和记录分隔符作为列和行的分隔符从excel导出文件，我将是金色的。有人知道如何在excel中指定这些字符吗？谢谢!

浏览 8提问于2014-08-16得票数 1

回答已采纳

1回答

从avro文件中获取火花dataframe列中每一行的数据

、、

我正在尝试处理我的dataframe中的一个列，并从每个条目对应的avro文件中检索一个度量。基本上，我想做以下几点：读取路径列的每一行，这是作为数据读取到avro文件中的avro文件的路径&获取精度度量，它以Struct的形式创建一个名为的<em

浏览 4提问于2022-07-01得票数 0

1回答

如果实际数据嵌入了相同的分隔符，如何使用Spark读取分隔文件

、、、

我正在尝试将文本文件读取到rdd中。"1" "Hai How are you!""56"带有Tab分隔符的3列。我的数据也被嵌入相同的分隔符(你好\tHow！)。有人能帮我在这里正确的解

浏览 1提问于2020-12-10得票数 0

回答已采纳

1回答

如何查看Delta Lake中特定版本的数据的具体变化

、、、、

现在，我有一个测试数据，其中有一个分区，在该分区中有两个parquet文件val df = spark.read.format("delta").load("./test1510/table@v1")val df = spark.read.format("delta").load("./test1510/

浏览 12提问于2020-02-03得票数 2

2回答

读取CSV时，最后一列在Spark中为Null，Scala

、、、、

当我尝试使用Spark和scala读取管道分隔的文件时，如下所示：2|Marketing|102|val part = spark.read.format("com.databricks.spark.csv") .load("file_

浏览 7提问于2020-09-13得票数 2

2回答

Spark 2.0 Scala -使用转义分隔符读取csv文件

、

我正在尝试读取一个CSV文件，该文件使用反斜杠来转义分隔符，而不是使用引号。我尝试过在不使用qoutes和使用转义字符的情况下构建DataFrameReader，但它不起作用。除了创建自定义输入格式之外，还有什么方法可以解决这个问题吗？下面是我现在使用的选项： "sep" -> ",", "encoding&qu

浏览 17提问于2016-09-12得票数 3

1回答

将当前行与下一行合并，直到当前行长达到x为止。

、、

背景：我目前有大型文件被上传到AWS S3，这些文件在某些列中包含新的行字符，导致它们被错误地读取。但是，这些文件确实有一个非常特定的列分隔符~#~。为了删除不正确的换行符，我目前正在通过aws胶水流文件，如果当前行没有应有的列数，则将每一行与下一行合并。我尝试过map、flatMap<em

浏览 2提问于2018-12-19得票数 1

回答已采纳

1回答

SparkContext.newAPIHadoopFile应用编程接口是否并行读入和处理单个文件？

、

我需要使用Spark将一个巨大的未压缩文本文件(>20 to )读取到RDD中。文件中的每条记录都跨越多行(每条记录不超过20行)，所以我不能使用sc.textFile。我正在考虑使用带有自定义分隔符的SparkContext.newAPIHadoopFile。然而，由于文件相当大，我很好奇读取和解析是分布在多个S

浏览 29提问于2019-08-06得票数 0

2回答

如何让hadoop忽略输入文件中的字符？

、、、、

我正在使用Hadoop的map还原函数编写一个倒排索引创建者。我输入文件中的一些行将字符\n写成实际字符(不是ASCII 10，而是两个实际字符'\‘和'n')。由于某些原因，我不明白，这似乎导致map函数将我的行分割成两行。 32155:韦德伍德广播:行动将于5月1日星期五开始，按原计划进行！(locations.

浏览 5提问于2015-05-28得票数 0

1回答

如何在C#流中模拟Java Scanner的next()方法？

、、、、

Java Scanner有一个方法，它从流中读取下一个令牌，其中令牌是由分隔符分隔的东西(缺省情况下，分隔符是任何空白字符，包括制表符和新行)。我如何在C#/.NET中做到这一点？C#中的流有Read()和ReadLine()，但它们没有空格或自定义分隔符的概念。我可以读取整个<e

浏览 0提问于2011-05-28得票数 3

回答已采纳

1回答

圆星火DataFrame现场

、

我读取了一个.csv文件到。对于DoubleType列，是否有一种方法可以在文件时指定此列应四舍五入至小数点2位？我还为DataFrameReader API调用提供了一个自定义模式。下面是我的模式和API调用：#spark<

浏览 0提问于2018-05-01得票数 0

回答已采纳

1回答

Spark Dataframe:行对象分隔符

、、

你好，我正在使用spark dataframe和scala进行一些数据处理，我有一个需求，我需要读取多个具有相同数据类型的列，即从拼图文件中读取结构类型，以处理和创建具有与结构类型字段相同的模式的新数据帧，即field1，field2和field3，并使用下面示例中显示的所有列的</e

浏览 3提问于2016-04-08得票数 0

1回答

如何在不使用数据帧的情况下将一行分解为多行？

、

我已经创建了数据帧，用于根据分隔符将一行分解为多行。我已经使用了explode函数来做同样的事情。我想知道我是否可以跳过这里的数据帧的使用，只使用SparkSQL来执行这个操作。

浏览 1提问于2019-04-13得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Apache Spark CSV中，我们为字段指定了分隔符，但是如何为行指定分隔符呢？

如何在scala中处理文本限定符分隔文件

在星火中向DataFrame添加一个新列

读取csv文件的multiLine选项不适用于具有新行闪烁2.3和闪烁2.2的记录。

如何读取多行文本文件(分隔符换行符)作为不同csv数据文件的标题？

使用Scala将Spark中的所有新行转换为新列

如何使用ascii控制字符作为分隔符在excel中导出电子表格(csv)？

从avro文件中获取火花dataframe列中每一行的数据

如果实际数据嵌入了相同的分隔符，如何使用Spark读取分隔文件

如何查看Delta Lake中特定版本的数据的具体变化

读取CSV时，最后一列在Spark中为Null，Scala

Spark 2.0 Scala -使用转义分隔符读取csv文件

将当前行与下一行合并，直到当前行长达到x为止。

SparkContext.newAPIHadoopFile应用编程接口是否并行读入和处理单个文件？

如何让hadoop忽略输入文件中的字符？

如何在C#流中模拟Java Scanner的next()方法？

圆星火DataFrame现场

Spark Dataframe:行对象分隔符

如何在不使用数据帧的情况下将一行分解为多行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐