从spark scala中的txt或csv文件读取时，从csv中删除标题

文章/答案/技术大牛

发布

1回答

、

我正在尝试从给定的输入文件中删除头文件。但是我来不了了。这就是我所写的。有人能帮我从txt或csv文件中删除标题吗？ import org.apache.spark.

浏览 14提问于2019-11-04得票数 0

回答已采纳

1回答

从dbfs (> 2gb )复制和读取文件的databricks错误

、、

但是，当我做一个spark.read.csv(samplePath)时，它只读取1800万行，而不是6600万行。我更新了maven dbutil依赖项，并在我调用该行的对象中导入了相同的依赖项。还有其他地方可以让我在scala代码中使用dbutils在databricks上运行吗？dbutils.fs.cp("file:" + _outputFile, _outputFile) Databricks自动假定，当您执行spark.r

浏览 1提问于2019-07-19得票数 1

回答已采纳

2回答

将csv文件作为spark数据帧读取

、、

我有一个CSV文件和一个头文件，它必须作为数据帧通过Spark(2.0.0和Scala 2.11.8)读取。当我尝试将spark中的csv数据作为数据帧读取时，我遇到了问题，因为标题包含列(No.指项目)具有特殊字符“。我尝试用来读取csv数据的代码是： val spark = SparkSe

浏览 0提问于2017-09-06得票数 3

2回答

Spark Dataset加载多个CSV文件，如果所有文件中的标头不相同，则报告不匹配

、、、、

我正在尝试使用spark 2.1.0 API将多个csv文件从hdfs目录加载到Spark DataSet中： val csvData = spark.read.option("header", "trueSpark只从第一个文件中选取头部，并将其生成为DataSet的架构，忽略其余csv文件的头部。但我的<

浏览 0提问于2017-11-06得票数 1

1回答

如何在pyspark中将第一行作为标题读取文本文件作为spark* context*

、

在spark context中读取文本文件后得到的数据帧| _1| _2| _3||name|age|salary|| sai| 25| 1000|| che| 40| null|我需要的数据帧是|name+---+------+| bum| 30|

浏览 0提问于2020-10-24得票数 1

1回答

scala的hdfs连接错误

、、、、

我是hadoop的新手，刚刚开始尝试使用scala和spark连接到hdfs，但不知道配置有什么问题。请帮我解决和理解它。Hadoop Version is 2.7.3Spark Version is 2.1.1 <dependency>

浏览 6提问于2017-06-14得票数 0

1回答

导入多个文件的sparklyr

、、

我的问题我试过的我试着使用lapply()和spark_read_csv，就像我在sparklyr外所做的那样。= sc, name = "name", de

浏览 0提问于2018-03-31得票数 5

回答已采纳

1回答

星火重命名Dataframe列

、、

我在HDFS中有两个文件-一个是没有头的csv文件，另一个是列名列表。我想知道是否可以将列名分配给其他数据帧，而不必像描述的那样实际输入它们。我在找这样的东西： val df = sqlContext.read.format("com.databricks.spark.csv").option("delimiter", "\t").load("/user/trai

浏览 2提问于2017-01-13得票数 1

3回答

星星之火: HiveContext不要忽略标头

、、、

我有一个火花作业，它从外部蜂巢表读取数据，并在另一个内部蜂巢表中进行一些转换和重新保存数据。orc.compress","SNAPPY").saveAsTable("my_internal_table")我的问题是，我在my_internal_table表<

浏览 17提问于2016-07-25得票数 3

回答已采纳

2回答

火花org.apache.hadoop.mapred.InvalidInputException S3 CSV读取返回

、、

我在这里看到了几个帖子和谷歌搜索的org.apache.hadoop.mapred.InvalidInputException，但大多数涉及HDFS文件或陷阱错误。我的问题是，虽然我可以从spark读取CSV文件，但是从编译的JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子的粗糙过

浏览 4提问于2017-02-03得票数 0

1回答

在spark中从HDFS加载文件

、

我尝试从HDFS运行这个spark程序，因为当我在本地运行它时，我的pc上没有足够的内存来处理它。有人可以告诉我如何从HDFS加载csv文件，而不是在本地加载吗？下面是我的代码：import org.apache.spark.sql.Row; import org.apache.spark.sql.Save

浏览 0提问于2018-04-19得票数 0

2回答

在Windows上可以使用Scala语言的SparkSession对象读取文件吗？

、、、

我一直试图通过多种方式从.csv文件中读取数据，使用SparkContext对象。我发现它可以通过scala.io.Source.fromFile函数，但我想使用火花对象。每次我为textfile运行函数org.apache.spark.SparkContext时，都会得到相同的错误： scala> sparkSession.read.csv("file:/

浏览 9提问于2021-12-29得票数 0

回答已采纳

2回答

是否可以在创建DataFrame时指定列名

我的数据在csv文件中。该文件没有任何标题列United States Croatia 1Egypt Unitedscala> val data = spark.read.csv(".... 1 more field] 如果我不想使用_c0，_c1，是否可以在读取文件</e

浏览 0提问于2019-02-03得票数 0

2回答

更改数据类型拆分后的星火RDD如何在不更改数据类型的情况下拆分

、、

我已经将数据从文本文件加载到Spark，在数据类型拆分更改之后。如何在不更改数据类型的情况下拆分数据，或者如何将拆分的数据转换为原始数据类型？我的代码conf = SparkConf().setMaster("local").setAppName("Movie") movies = sc.te

浏览 2提问于2020-10-22得票数 0

1回答

如何处理PySpark和Spark中多个分隔符的csv文件？

、

在PySpark中，我要处理以下场景。"Name1"@|#34@|#Male我需要清理数据并得到如下所示的数据| Name2

浏览 1提问于2021-07-21得票数 2

回答已采纳

12回答

如何将csv文件转换为rdd

、

我是新来的。我想对CSV记录中的特定数据执行一些操作。final JavaRDD<String> File = sc.textFile(Filename).cache(); final J

浏览 6提问于2014-06-19得票数 50

回答已采纳

2回答

使用spark读取多个csv文件时，如何从单个文件设置header？

、、

我有多个相同格式的.csv文件。它们的名字类似于file_#.csv。它们的头在第一个文件(file_1.csv)中。我用spark读取了这个文件，代码如下：当我显示结果时，标题不是第一个文

浏览 2提问于2019-09-22得票数 0

2回答

如何在不使用火花的情况下从AWS内部读取S3桶中的文本文件

、、

我需要打开一个普通的文本文件位于一个S3桶(不是一个地板或CSV文件)从一个电子病历集群。我可以直接使用spark.read.parquet("s3://mybucket/some_parq_file")打开CSV或拼板文件但是我只需要使用、java.io.File或scala.io.Source从EMR集群读取

浏览 3提问于2019-11-14得票数 0

回答已采纳

2回答

读取csv函数时出错

、

在google计算集群中，我正在尝试使用sparklyr包将csv文件读取到strudio中。配置如下：install.packages("sparklyr") spark_install(version = "1.6.2") Sys.setenv(SPARK_HOME=&q

浏览 1提问于2017-04-05得票数 0

2回答

星星之火(v2.3.2) dataframe正在以字符串类型读取ORC文件中的所有列。这是正常的行为吗？

、

我有一堆CSV文件正在使用ETL工具Informatica以ORC格式加载到HDFS。加载到HDFS之后，我想提取ORC文件的元数据(列名、数据类型)。但是，当我将ORC文件加载到Spark中时，所有的列都被评估为string类型。我试图理解为什么每一列都是string类型的结果。这是否是使用csv源文件创建兽人的正常行为(不管我们使用哪个工具)？或者我是不是在火花中正确地做了导致

浏览 1提问于2019-10-16得票数 2

点击加载更多