在Spark中读取不同的csv文件_在不同列的spark中读取csv文件_在spark中读取csv文件时的ArrayIndexOutOfBoundsException - 腾讯云开发者社区

、、

我在HDFS中有这样一个目录结构：├── sub1│ │ └── f1.txt│ └── f2.parquet │ └── f3.jpg └── f4.unknown 是否有一种方法可以跳过一些文件(有一些未知的扩展名)，而使用火花阅读。我可以读取目录中的所有文件吗？

浏览 0提问于2021-08-03得票数 1

回答已采纳

1回答

如何将PySpark RDD转换为具有未知列的Dataframe？

、、、

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。\file1.csv")#注释1:我不知道列的原因是因为我试图创建一个通用脚本，该脚本可以从从任意数量的列读取</e

浏览 9提问于2017-04-07得票数 2

1回答

在_spark_metadata中什么也没有发现

、、

我试图从一个特定的文件夹中读取CSV文件，并将相同的内容写入到本地pc上不同位置的其他CSV文件中，以供学习。我可以读取文件并在控制台上显示内容。但是，如果我想将它写入指定输出目录下的另一个CSV文件，则会得到一个名为"_spark_metadata“的</

浏览 3提问于2018-06-09得票数 0

回答已采纳

1回答

pyspark一次读取多个csv文件

、、

我正在使用SPARK读取hdfs中的文件。有一个场景，我们以csv格式从遗留系统中获取文件块。ID1_FILENAMEA_1.csvID1_FILENAMEA_3.csvID2_FILENAMEA_1.csvID2_FIL

浏览 228提问于2021-09-27得票数 1

回答已采纳

1回答

在虚拟机的ubuntu下使用jupyter中的pyspark时，pandas功能不起作用

、、、、

='notebook' 然后我就可以在jupyter中使用pyspark了。=SparkSession.builder.getOrCreate() df = spark.read.csv("/home/feng/Downloads/spark-2.4.0-bin-hadoop2.7函数show()具有不同的结果。对于filter()函数，第二个有错误，但第一个是正确的。我认为这两个示例之间

浏览 23提问于2019-02-08得票数 0

回答已采纳

2回答

如何将两个csv文件导入相同的数据文件(文件的目录不同)

、、、

我想从两个csv文件中创建数据格式，但是文件夹路径与另一个文件不同。

浏览 2提问于2018-02-28得票数 0

回答已采纳

2回答

如何摄入多个csv文件到一个火花数据？

、、、、

我正在尝试摄取2个csv文件到一个单一的火花数据。然而，这两个数据集的模式非常不同，当我执行下面的操作时，我只返回第二个csv的模式，就好像第一个不存在一样。我怎么才能解决这个问题？我的最后一个目标是统计单词的总数。paths = "abfss://lmne.dfs.core.windows.net/csvs/MachineLearning_reddit.csv&qu

浏览 12提问于2022-10-27得票数 0

1回答

如何从火花中具有不同格式的多个文件创建一个DataFrame？

、

我知道我可以使用spark.read.csv()或spark.read.json()将CSV文件或JSON文件作为一个DataFrame加载，但是如果我的源文件实际上是不同格式的，例如，我的一些原始数据在CSV文件中，而另一些在JSON文件中呢？我是否可以创建一个包含来自<e

浏览 0提问于2021-08-14得票数 0

回答已采纳

1回答

Spark忽略字符串中的逗号

尝试通过spark会话加载csv，但遇到在.i.e中包含双引号和逗号的字符串问题。"""A"" STAR ACCOUNTING,& TRAINING SOLUTIONS LIMITED""""A"" STAR ACCOUNTING& TRAINING SOLUTIONS LIMITED&q

浏览 19提问于2018-02-07得票数 1

回答已采纳

6回答

如何在一次加载中导入多个csv文件？

、

假设我有一个定义的模式，用于在文件夹中加载10个csv文件。是否有一种使用Spark自动加载表的方法。我知道这可以通过对下面给出的每个文件使用一个单独的数据rather来执行，但是它是否可以通过一个命令来实现自动化，而不是指向一个文件，我可以指向一个文件夹吗？df = sqlContext.read .format("com.databricks.s

浏览 11提问于2016-06-05得票数 63

回答已采纳

3回答

火花加载文件:路径不存在

、、、、

我是星火的新手。我试图在EMR集群中读取本地csv文件。该文件位于: /home/hadoop/。://，这样它就可以在本地读取该文件： df = spark.read.csv('file:///home/hadoop/observations_temp.csv</

浏览 13提问于2017-02-07得票数 21

回答已采纳

1回答

scala的hdfs连接错误

、、、、

我是hadoop的新手，刚刚开始尝试使用scala和spark连接到hdfs，但不知道配置有什么问题。请帮我解决和理解它。Hadoop Version is 2.7.3Spark Version is 2.1.1 <dependency> <artifactId

浏览 6提问于2017-06-14得票数 0

1回答

在Spark中读取不同的csv文件

、

我在同一存储位置目录中有两个csv文件。第一个csv文件： id name age2 Hello 21 第二个csv文件： id name age country 3 hi1 20 India 当我读到spark的时候 spark.read.format("csv").option("inferschema","tr

浏览 40提问于2021-02-12得票数 0

回答已采纳

2回答

在apache中使用模式解析文件

、、

下面是我的spark/SCALA程序来读取我的源文件。(CSV文件) .format("com.databricks.spark.csv") .option("header", "true") //reading"); //.<em

浏览 3提问于2017-04-15得票数 0

回答已采纳

1回答

如何使用Apache spark* java api读取csv文件并将其保存到多个表中。*

、

我需要读取具有多个列的csv文件，并使用Apache spark java api将其保存到多个表中。如果有人能帮上忙请帮帮忙。

浏览 4提问于2021-09-24得票数 0

1回答

可以使用相同的代码读取csv或parquet文件。

、、

是否有人知道是否可以使用相同的代码将csv或拼花文件读入火花中。spark.read().schema(schema).load(path);file.csv is not a Parquet file.expected magic number at tail [80, 6

浏览 5提问于2020-08-09得票数 2

回答已采纳

3回答

创建数据架构的有效方法是什么？

我是个新手，我发现有两种方法可以创建数据框架的模式。--+------+-----+ val empData = empFile.map(e => e.split(",")) 创建模式的第一种方法是使用但我不知道在实际的行业项目中推荐哪种方式。有人能告诉我最喜欢的方法吗？

浏览 9提问于2017-06-22得票数 0

回答已采纳

1回答

Spark 2.0:绝对URI中的相对路径(火花-仓库)

、、、、

我正试图从Spark1.6.1迁移到Spark2.0.0，并且在试图将csv文件读取到SparkSQL时出现了一个奇怪的错误。以前，当我从本地磁盘上读取一个文件时，我会这样做：df = sqlContext.read \在最新

浏览 2提问于2016-07-30得票数 16

回答已采纳

2回答

用火花放电中的断线读取CSV

、、、

读CSV中的断行符，我想用电火花读一个“合法”(它遵循) CSV，它在某些行中有断线(CRLF)。下一个代码示例展示了用Notepad++打开它时的样子：我尝试用sqlCtx.read.load使用format =‘com.databricks.sck.csv.读取它，结果数据集在这些特定情况下显示两行而不是一行，我使用的是Spark2.1.0.2版本。是否有任何读取csv的</

浏览 2提问于2017-09-14得票数 6

回答已采纳

1回答

Spark csv读取器的RDD字符串

、

我想用spark CSV阅读器来阅读RDD[String]。我这样做的原因是，在使用CSV阅读器之前，我需要过滤一些记录。val fileRDD: RDD[String] = spark.sparkContext.textFile("file") 我需要使用spark CSV阅读器来读取fileRDD。我不希望提交该文件，因为它会增加HDFS的IO。我已经研究了我们在</

浏览 12提问于2019-05-30得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花:如何递归读取目录中所有扩展名不同的文件？

如何将PySpark RDD转换为具有未知列的Dataframe？

在_spark_metadata中什么也没有发现

pyspark一次读取多个csv文件

在虚拟机的ubuntu下使用jupyter中的pyspark时，pandas功能不起作用

如何将两个csv文件导入相同的数据文件(文件的目录不同)

如何摄入多个csv文件到一个火花数据？

如何从火花中具有不同格式的多个文件创建一个DataFrame？

Spark忽略字符串中的逗号

如何在一次加载中导入多个csv文件？

火花加载文件:路径不存在

scala的hdfs连接错误

在Spark中读取不同的csv文件

在apache中使用模式解析文件

如何使用Apache spark* java api读取csv文件并将其保存到多个表中。*

可以使用相同的代码读取csv或parquet文件。

创建数据架构的有效方法是什么？

Spark 2.0:绝对URI中的相对路径(火花-仓库)

用火花放电中的断线读取CSV

Spark csv读取器的RDD字符串

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐