Spark .csv可变列数

是指在使用Spark进行数据处理时，处理的数据文件为.csv格式，并且文件中的列数是可变的情况。

Spark是一个开源的大数据处理框架，可以处理大规模数据集并提供高效的数据处理能力。它支持多种数据源和数据格式，包括.csv格式的数据文件。

.csv是一种常见的数据文件格式，以逗号作为字段的分隔符。在处理.csv文件时，通常需要提前知道文件中的列数，以便正确解析数据。然而，在某些情况下，.csv文件的列数是可变的，即不同行可能具有不同的列数。

对于Spark来说，处理可变列数的.csv文件需要一些特殊的处理方式。以下是一种可能的处理方法：

读取.csv文件：使用Spark提供的CSV数据源读取器，如spark.read.csv()方法，指定文件路径和相关配置参数。
动态解析列数：在读取.csv文件后，可以通过对每一行数据进行处理来动态解析列数。可以使用Spark的转换操作，如map()或flatMap()，对每一行数据进行处理。
判断列数变化：在处理每一行数据时，可以通过判断字段数量的变化来检测列数的变化。可以使用Spark的字符串分割操作，如split()方法，将每一行数据按照逗号分割成字段数组，并统计字段数量。
处理列数变化：根据列数的变化，可以采取不同的处理策略。例如，如果列数增加，可以将新增的列设置为null或空值；如果列数减少，可以忽略多余的字段。
数据处理和分析：在解析完所有行的数据后，可以进行进一步的数据处理和分析。可以使用Spark提供的各种数据转换和操作，如过滤、聚合、排序等。

对于Spark .csv可变列数的处理，腾讯云提供了适用于大数据处理的云产品，如腾讯云数据仓库（Tencent Cloud Data Warehouse）和腾讯云数据分析（Tencent Cloud Data Analytics）。这些产品提供了高性能的数据处理和分析能力，可以帮助用户处理包括可变列数的.csv文件在内的大规模数据集。

更多关于腾讯云数据仓库的信息，请访问：腾讯云数据仓库

更多关于腾讯云数据分析的信息，请访问：腾讯云数据分析

页面内容是否对你有帮助？

有帮助

没帮助

Sparklyr -如何更改拼花数据类型

、、、

在读取拼板文件时，是否有方法更改列的数据类型？我使用Sparklyr中的spark_read_parquet函数，但它没有columns选项(来自spark_read_csv)来更改它。在csv文件中，我将执行如下操作： data_tbl <- spark_read_csv(sc, "data", path, infer_schema = FALSE, columns = list_with_data_types) 我怎么能对拼板文件做类似的事情呢？

浏览 2提问于2017-07-24得票数 3

回答已采纳

6回答

如何计算星火数据表中的列数？

、、、

我在星火中有这个数据，我想计算其中可用列的数量。我知道如何计数列中的行数，但我希望计数列数。 val df1 = Seq( ("spark", "scala", "2015-10-14", 10,"rahul"), ("spark", "scala", "2015-10-15", 11,"abhishek"), ("spark", "scala", "2015-10-16", 12,"J

浏览 0提问于2018-07-27得票数 17

回答已采纳

1回答

withColumn的Spark (使用python)问题

我正在学习使用python，在我的项目中，我特别需要使用spark。(我对其他编程语言C++、Matlab、R很有信心) 我希望读取一个csv文件，作为第一步，我希望将列(字符串)的内容转换为适当的类型(分别为date、int和double )。下面是我写的内容 from pyspark.sql import SparkSession from pyspark.sql.functions import udf from pyspark.sql.types import DoubleType from pyspark.sql.types import IntegerType from pys

浏览 30提问于2020-07-13得票数 2

回答已采纳

1回答

如何将具有大量列计数的csv文件导入ApacheSpark2.0

、、、、

我遇到了将多个带有over的小型csv文件导入ApacheSpark2.0时遇到的问题，这些文件作为Google集群运行。有少数字符串列，但真正感兴趣的只有1作为类标签。当我在pyspark中运行以下代码时 csvdata = spark.read.csv("gs://[bucket]/csv/*.csv", header=True,mode="DROPMALFORMED") 我得到了一个文件"/usr/lib/spark/python/lib/py4j-0.10.1-src.zip/py4j/protocol.py"，第312行，在get

浏览 4提问于2016-08-27得票数 6

回答已采纳

1回答

Python工作者在加载包含多个列的CSV文件时崩溃

、、、

我试图用许多列加载 CSV文件，并使用Spark计算列之间的相关性。 from pyspark import SparkContext, SparkConf from pyspark.mllib.stat import Statistics conf = SparkConf()\ .setAppName("Movie recommender")\ .setMaster("local[*]")\ .set("spark.driver.memory", "10g")\ .set("spark.

浏览 1提问于2016-04-20得票数 0

回答已采纳

1回答

使用PySpark有效地将多个小的csv文件(130,000个，每个列有2列)合并成一个大框架

、、、、

这是我之前在上发布的一个问题的又一次跟进我有以下数据集其中有一个文件列表(约13万份)。在主目录中列出了它们的子目录，因此第一个单元可能是A/AAAAA，文件位于/data/A/AAA.csv。这些文件都具有类似的格式，第一列称为日期，第二列是一系列都命名为值的列。因此，首先，值列名需要重命名为每个csv文件中的文件名。第二，帧需要完全外部连接，以日期为主要索引。第三，我希望保存文件并能够加载和操作它。文件大约在N行(日期数)X 130,001左右。我正在尝试将所有文件完全连接到一个数据文件中，我以前尝试过使用熊猫，但是当我试图连接文件列表时内存不足，有人建议我尝试使用PySpark。

浏览 4提问于2020-02-18得票数 0

回答已采纳

2回答

PySpark sqlContext.read.load ArrayIndexOutofBounds误差

、

我在S3中有一个CSV文件，它有420行和54000列。我正在尝试将CSV加载到火花DataFrame中： genoExp = sqlContext.read.load("/mnt/%s/RNA-Seq/GSE10846_Gene_Expression_Data.csv" %MOUNT_NAME, format='com.databricks.spark.csv', header='true', inferSchema = 'true') 这将返回一个错误： com.univocity.parsers.common.TextP

浏览 3提问于2017-02-09得票数 0

1回答

读取水平排列的csv文件，替换值并再次保存。

、

我有一个水平排列的CSV (samplefile.csv)，头在第一列。另外，每一行都有不同的列数。我想读取这个CSV文件，替换其中一个单元格值，并将其再次保存为CSV文件，格式与原始文件相同，列和行数完全相同。这听起来像一个简单的任务，但我正在努力寻找一种方法。我试图在和帖子的帮助下做到这一点，但仍然无法以我想要的方式获得输出。有人能帮我吗？编辑我使用中的答案来读取CSV文件(samplefile.csv)给了我以下输出，其中头部有点混乱，空单元格被NA值替换，这不是我想要的。 aaa <- read.tcsv("samplefile.csv") aaa

浏览 0提问于2018-09-26得票数 1

2回答

当读取CSV时，是否有从第2行或第2行以下开始的选项？

、、、

我正在使用下面的示例代码将一堆CSV文件读入数据文件中。 val df = spark.read.format("csv") .option("sep","|") .option("inferSchema","true") .option("header","false") .load("mnt/rawdata/corp/ABC*.gz") 我希望有一种方法可以从第2行或更低的部分开始，因为第1行包含一些关于这些文件的基本元数据，第一行包含4个

浏览 4提问于2019-10-28得票数 2

回答已采纳

1回答

火花误差-批量解析达到最大迭代(100)

、、

我正在研究Spark，在这里我需要找出两个大型CSV之间的区别。迪夫应给予：插入行或新记录/比较仅Id的更改的行(不包括插入的行)-比较所有列值已删除的行//只比较Id的 Spark 2.4.4 + Java 我正在使用Databricks来读/写CSV Dataset<Row> insertedDf = newDf_temp.join(oldDf_temp,oldDf_temp.col(key) .equalTo(newDf_temp.col(key)),"left_anti"); Long insertedCount = in

浏览 0提问于2020-04-09得票数 0

回答已采纳

1回答

混合分区配置对宽转换的影响

、、

基于洗牌分区配置的宽转换实际上是如何工作的？如果我有以下计划： spark.conf.set("spark.sql.shuffle.partitions", "5") val df = spark .read .option("inferSchema", "true") .option("header", "true") .csv("...\input.csv") df.sort("sal").take(200) 这是否意味着排序将输

浏览 4提问于2022-09-24得票数 0

3回答

Spark - Dataframe编写器-额外的空文件

、

我正面临着spark的奇怪行为。我使用的是一个只有10行的小数据集： +-----+--------------------+ | id| neighbourhood| +-----+--------------------+ |47061|De Baarsjes - Oud...| |50515| Bos en Lommer| |50570| Bos en Lommer| |20168| Centrum-Oost| |46386|De Pijp - Riviere...| |50518| Westerpark| |

浏览 23提问于2020-01-14得票数 1

2回答

ParserError in read_csv()

、、

我试图读取100个CSV，并将所有这些数据整理成一个CSV。我利用了： all_files = pd.DataFrame() for file in files : all_files = all_files.append(pd.read_csv(file,encoding= 'unicode_escape')).reset_index(drop=True) where files =100个CSV的文件列表现在，每个CSV可能有不同的列数。单个CSV，每行可能有不同的no。也是专栏的。我希望匹配列标题名称，将来自所有CSV的数据放在正确的列中，并继续向最终的DF添加新

浏览 2提问于2022-04-01得票数 1

1回答

如何为HadoopPartitions计算Spark的默认分区？

、

我正在阅读，关于分区，他说默认情况下，为每个HDFS分区创建一个分区，默认为64 is。我对HDFS并不十分熟悉，但是我遇到了一些复制这条语句的问题。我有一个名为Reviews.csv的文件，它是大约330 of的亚马逊食品评论文本文件。给定默认的64‘d块，我希望使用ceiling(330 / 64) = 6分区。但是，当我将文件加载到我的Shell中时，我得到了9个分区： scala> val tokenized_logs = sc.textFile("Reviews.csv") tokenized_logs: org.apache.spark.rdd.R

浏览 1提问于2018-12-01得票数 1

回答已采纳

4回答

带有标头的星火SQLContext查询

、、

我使用SQLContext读取CSV文件，如下所示： val csvContents = sqlContext.read.sql("SELECT * FROM csv.`src/test/resources/afile.csv` WHERE firstcolumn=21") 但是它将第一列打印为_c0，并在其中包含标题。如何设置标题并使用SQL查询？我见过这样的解决方案： val df = spark.read .option("header", "true") //reading the

浏览 1提问于2018-12-20得票数 0

回答已采纳

1回答

spark 2.x正在使用csv函数将整型/双精度列作为字符串读取

、、、

我正在使用下面的语句在spark中读取csv。 df = spark.read.csv('<CSV FILE>', header=True, inferSchema = True) 当我检入spark dataframe时，一些整型和双精度列被存储为dataframe中的字符串列。但是，并不是所有的列都是这样。我已经检查了特定列的值，所有的值都是双精度类型，但spark仍然推断为StringType。因为我加载的CSV文件大约有1000列，所以也显式地指定模式是不可行的。如有任何建议或帮助，我们将不胜感激。致以敬意， Neeraj

浏览 5提问于2017-08-31得票数 2

1回答

如何删除数据文件中的空分区？

、、

我需要从Dataframe中删除空分区。我们有两个Dataframes，它们都是使用sqlContext创建的。然后构造并组合如下的数据格式： import org.apache.spark.sql.{SQLContext} val sqlContext = new SQLContext(sc) // Loading Dataframe 1 val csv1 = "s3n://xxxxx:xxxxxx@xxxx/xxx.csv" val csv1DF = sqlContext.read.format("com.databricks.spark.csv").

浏览 2提问于2015-07-21得票数 1

回答已采纳

1回答

spark中的性能问题

、、、

我使用的是spark 2.11版本，在我的应用程序中只做了3个基本操作：从数据库中获取记录:220万使用contains检查数据库(220万)中存在的文件(5000)中的记录将匹配的记录写入CSV格式的文件但这3次手术几乎要花20分钟。如果我在SQL中执行相同的操作，则只需不到1分钟。我已经开始使用火花，因为它会产生非常快的结果，但它需要太多的时间。如何提高绩效？步骤1:从数据库中获取记录。 Properties connectionProperties = new Properties(); connectionProperti

浏览 1提问于2017-06-13得票数 3

回答已采纳

1回答

Spark SQL on AWS Glue: pyspark.sql.utils.AnalysisException

、、、

我在AWS Glue脚本中使用Spark SQL来转换S3中的一些数据。下面是脚本逻辑数据格式CSV 编程语言: Python 1)使用胶水的目录将数据从S3拉取到胶水的DynamicDataFrame中 2)使用toDF()从Glue的数据帧中提取火花数据帧 3)制作Spark数据帧Spark SQL表 createOrReplaceTempView() 4)使用SQL查询进行转换(这就是我遇到问题的地方) 5)将最终数据帧转换为粘合动态数据帧 6)使用glueContext.write_dynamic_frame.from_options()将最终数据帧存储到S3中问题当我在SQ

浏览 125提问于2019-04-18得票数 1

1回答

流K-意为Scala:获取输入字符串的java.lang.NumberFormatException

、、、

当我从一个包含双值的目录读取CSV数据并在其上应用流式K-均值模型时，如下所示， //CSV文件 40.729，-73.9422 40.7476，-73.9871 40.7424，-74.0044 40.751，-73.9869 40.7406，-73.9902 . //SBT依赖关系：名称:=“应用程序名称” 版本:= "0.1“ scalaVersion := "2.11.12“ val sparkVersion ="2.3.1“ libraryDependencies ++= Seq( "org.apache.spark“%%”火花核心“% s

浏览 0提问于2018-07-24得票数 0

回答已采纳

2回答

是否可以在创建DataFrame时指定列名

我的数据在csv文件中。该文件没有任何标题列 United States Romania 15 United States Croatia 1 United States Ireland 344 Egypt United States 15 如果我读了它，Spark会自动为列创建名称。 scala> val data = spark.read.csv("./data/flight-data/csv/2015-summary.csv") data: org.apache.spark.sql.DataFrame = [_c0: string, _c1: s

浏览 0提问于2019-02-03得票数 0

2回答

对每列中的所有值求和bash

、、、

我有一个csv文件，如下所示： ID_X,1,2,7,8 ID_Y,6,9,3,5 ID_Z,7,12,4,4 我的目标是创建一个csv文件，其中包含每一列中所有值的总和(从第二列开始)，因此在本例中，该文件将如下所示： SUM,14,23,14,17 到目前为止，我可以使用awk一次对一列执行此操作。例如，对于带有数字的第一列： awk 'BEGIN {FS=OFS=","} ; {sum+=$2} END {print sum}' test.txt 14 有什么方法可以实现我想要的东西吗？非常感谢！

浏览 0提问于2018-04-23得票数 1

2回答

Spark 2.0读取csv分区数(PySpark)

、、

我正在尝试使用Spark 2.0中的新东西将一些代码从Spark 1.6移植到Spark 2.0。首先，我想使用Spark 2.0的csv阅读器。顺便说一句，我用的是pyspark。使用“旧的”textFile函数，我可以设置分区的最小数量。例如： file= sc.textFile('/home/xpto/text.csv', minPartitions=10) header = file.first() #extract header data = file.filter(lambda x:x !=header) #csv without header ... 现在，使用

浏览 0提问于2016-07-01得票数 5

回答已采纳

2回答

连接后的Dataframe保存正在创建许多部件文件。

我正在尝试学习使用Dataframes编程。在下面的代码中，我尝试将两个CSV连接到一个列上，然后将其保存为一个组合CSV。在SCALA中运行这段代码的结果是，我看到了将近200个小部件文件。你能帮我理解一下这里出了什么问题吗- import org.apache.spark.SparkContext object JoinData { def main(args: Array[String]) { val sc = new SparkContext(args(0), "Csv Joining example") val sqlContex

浏览 1提问于2016-04-19得票数 2

2回答

Spark.read.csv()是转换上的操作吗

、、

在“火花权威指南”一书中，比尔说，阅读是一种转变，它是一种狭义的转变，现在，如果我运行以下spark代码并尝试查看spark UI，我会看到一个创建了df = spark.read.csv("path/to/file")的作业据我所知，Job是一个叫做的动作。此外，如果我尝试在读取CSV时输入一些选项，我会在spark UI中看到另一个作业，例如，当我们运行以下代码时，在spark UI df = spark.read.option("inferSchema", "true").csv("path/to/file")中有2个作

浏览 1提问于2021-05-01得票数 2

2回答

在apache中使用模式解析文件

、、

下面是我的spark/SCALA程序来读取我的源文件。(CSV文件) val csv = spark.read .format("com.databricks.spark.csv") .option("header", "true") //reading the headers // .option("mode", "DROPMALFORMED") .option("inferSchema", "true") .load("C:\\TestFiles\\S

浏览 3提问于2017-04-15得票数 0

回答已采纳

1回答

为什么我的火花数据只有一个分区？

、

from pyspark.sql import SparkSession spark= SparkSession.builder.master("local[4]").getOrCreate() df = spark.read.csv("annual-enterprise-survey-2021-financial-year-provisional-size-bands-csv.csv") df.createOrReplaceTempView("table") sqldf = spark.sql('SELECT _c5 FROM tab

浏览 14提问于2022-07-21得票数 0

1回答

如何在PySpark中随机生成/拆分数据

、、

Apache Spark中的以下Scala代码行将在8个分区中随机拆分数据： import org.apache.spark.sql.functions.rand df .repartition(8, col("person_country"), rand) .write .partitionBy("person_country") .csv(outputPath) 有人能给我演示一下如何用PySpark做同样的事情吗？我自己用下面的代码尝试过，但失败了 from pyspark.sql.functions import rand df\ .repar

浏览 53提问于2020-09-10得票数 0

1回答

如何将dataframe的所有列转换为数值星火scala？

、、

我加载了一个csv作为数据文件。我希望将所有列转换为浮动，因为我知道该文件很大，可以写入所有列的名称： val spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate() val df = spark.read.option("header",true).option("inferSchema", "true").csv("C:/Users/mhattabi/Desktop/dataTest2.csv&

浏览 0提问于2017-03-01得票数 4

回答已采纳

1回答

运行Scala和Spark时出错

、

我使用Scala2.11.8和Spark2.0.1来运行我的代码。在这一行代码中： import org.apache.spark.SparkConf import org.apache.spark.SparkContext object training { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test").setMaster("local[4]") val sc = new SparkContext(conf)

浏览 2提问于2016-12-19得票数 0

回答已采纳

2回答

如果csv列标头包含空格，则将csv转换为火花中的拼板会产生错误

、、、

我有csv文件，我正在使用scala中的databricks库将其转换为parquet文件。我使用的代码如下： val spark = SparkSession.builder().master("local[*]").config("spark.sql.warehouse.dir", "local").getOrCreate() var csvdf = spark.read.format("org.apache.spark.csv").option("header", true).csv(csvfile) csv

浏览 3提问于2018-08-01得票数 2

回答已采纳

1回答

Spark csv读取器的RDD字符串

、

浏览 12提问于2019-05-30得票数 0

2回答

星火-csv数据源:推断数据类型

、

我正在尝试使用Spark包()将csv文件读入Spark DataFrames。一切都正常，但所有列都假定为StringType。如Spark ()所示，对于内置源(如JSON )，可以自动推断具有数据类型的模式。 CSV文件中的列类型可以自动推断吗？

浏览 3提问于2015-04-19得票数 5

回答已采纳

1回答

如何用“未找到类型”修复Scala错误

、

我是Scala的新手，只是想在星火中学习。现在我正在编写Scala应用程序，将csv文件从hadoop加载到dataframe中，然后我想在该dataframe中添加一个新列。有一个函数来填充那个新列的内容，为了测试函数--从csv文件中大写列，csv文件只包含一个列: emp_id和它的字符串。该函数在对象TestService中定义。我的IDE是Eclipse。现在我有了错误: not :输入TestService 非常感谢有人能帮我。 \\This is the main: import org.apache.spark.sql.SparkSession import org.apach

浏览 1提问于2020-03-12得票数 0

回答已采纳

1回答

Talend透视并将数据保存到另一个表中

、

在我的工作中，我需要将旋转的结果保存到另一个表中：问题是我不知道如何将结果保存到我的WK1_SF_SRV_TASK表中。.csv文件中的输出是正确的，但是我如何使用结果来填充表呢？我不知道如何将它们联系起来。此表包含的列与我在excel文件中的列完全相同。我找到了一个具有相同问题的问题，但只有一个答案我根本不理解(这被认为是不正确的)。

浏览 0提问于2018-09-28得票数 0

3回答

Spark不读取第一行中具有空值的列

、、、

以下是我的csv文件中的内容： A1,B1,C1 A2,B2,C2,D1 A3,B3,C3,D2,E1 A4,B4,C4,D3 A5,B5,C5,,E2 因此，有5列，但在第一行只有3个值。我使用以下命令读取它： val csvDF : DataFrame = spark.read .option("header", "false") .option("delimiter", ",") .option("inferSchema", "false") .csv("file.csv")

浏览 2提问于2017-08-10得票数 0

1回答

R:如何合并使用spark_read_csv加载的两个文件

、、

我正在以这种方式处理用spark_read_csv加载的数据： library(sparklyr) connection <- spark_connect(master = 'local') all_data <- spark_read_csv(sc, "D:/my_data.csv") 在处理完这些数据之后，我意识到我需要将它与另一个文件组合在一起。第二个文件与第一个文件具有相同的变量和特征，我想用相同的方法spark_read_csv加载它。所以我的问题是，是否可以使用spark_read_csv方法加载两个文件，然后将它们合并？其目的是将值

浏览 0提问于2019-10-31得票数 0

3回答

替换Spark DataFrame中的空值

、、

我在这里看到了一个解决方案，但当我尝试时，它对我不起作用。首先，我导入一个cars.csv文件： val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("/usr/local/spark/cars.csv") 如下所示： +----+-----+-----+--------------------+-----+ |y

浏览 1提问于2015-10-28得票数 16

回答已采纳

1回答

火花DataFrame --如何在没有联接的情况下改变一列的排列

、

我试图使用Pyspark在dataframe中更改一个列，也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案，即在将列拆分并分配索引列之前，将其重新连接到原始的dataframe，而原始dataframe也有一个添加的索引列。主要是因为我的理解(这可能是非常错误的)，在大型数据集(数百万行)的运行时，联接是不好的。 # for some dataframe spark_df new_df = spark_df.select(colname).sort(colname) new_df.show() # column values sorted nicely spark_df.with

浏览 0提问于2019-06-06得票数 0

2回答

在Sparklyr中指定col类型(spark_read_csv)

、

我正在用SpraklyR把csv读成spark schema <- structType(structField("TransTime", "array<timestamp>", TRUE), structField("TransDay", "Date", TRUE)) spark_read_csv(sc, filename, "path", infer_schema = FALSE, schema = schema) 但是get： Error: could

浏览 0提问于2017-03-24得票数 4

1回答

星火是否在内部节点间分发数据？

、、

我正在尝试使用Spark处理集群上的csv文件。我想了解是否需要显式读取每个工作节点上的文件来并行处理，还是驱动节点读取文件并在集群中分发数据以便内部处理？(我正在使用Spark2.3.2和Python) 我知道RDD可以使用SparkContext.parallelize()并行化，但是在DataFrames?的情况下会怎样呢？ if __name__=="__main__": spark=SparkSession.builder.appName('myApp').getOrCreate() df=spark.read.csv('d

浏览 0提问于2019-04-03得票数 5

1回答

我应该在两个不同的RDD上重用一个HashPartitioner吗？

、

在所有示例中，我总是看到partitionBy接收HashPartitioner的一个新实例。 val rddTenP = rdd.partitionBy(new HashPartitioner(10)) 我要加入两个RDDs。它们的键列具有来自同一集userId的值。我是否应该将两者分开，以使联接更有效？如果是，应该创建一个HashPartitioner实例hp吗？ val hp: HashPartitioner = new spark.HashPartitioner(84)并将hp传递给两个partitionBy方法，从而使要连接的行落在同一个节点上？这就是partitionBy

浏览 1提问于2016-05-05得票数 2

回答已采纳

1回答

调用z:org.apache.spark.api.python.PythonRDD.collectAndServe时出错

、、、

我是spark新手，在将.csv文件转换为dataframe时遇到错误。我正在使用pyspark_csv模块进行转换，但给出了一个错误，这里是错误的堆栈跟踪，谁能给我解决这个错误的建议 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-16-67fe725a8e27> in <module&g

浏览 0提问于2016-05-02得票数 0

3回答

Spark Dataframe中的重复列

、、、、

我在hadoop集群中有一个10 in的csv文件，其中包含重复的列。我尝试用SparkR分析它，所以我使用spark-csv包将它解析为DataFrame df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = "true", mode = "DROPMALFORMED" ) 但是由于df有重复的Email列，如果我想选择这一列，它会出错： select(df, 'Emai

浏览 0提问于2015-11-20得票数 7

回答已采纳

2回答

使用scala spark将随机RDD值替换为null

、、、、

我有一个包含近15000条记录的csv文件。每行包含由制表符(\t)分隔的3种类型的数据。实际上，我想将第二个列值随机替换为null！也许我会保持8000的原样，将7000的值替换为null。 scala (spark)有什么帮助吗？它看起来是这样的：

浏览 0提问于2020-08-14得票数 0

3回答

如何在不使用Scala case类的情况下为CSV文件指定模式？

、、

我正在将CSV文件加载到DataFrame中，如下所示。 val conf=new SparkConf().setAppName("dataframes").setMaster("local") val sc=new SparkContext(conf) val spark=SparkSession.builder().getOrCreate() import spark.implicits._ val df = spark. read. format("org.apache.spark.csv"). option("h

浏览 0提问于2016-11-17得票数 15

回答已采纳

1回答

用unix_timestamp方法创建火花时间戳

、

我有个csv文件。它有许多列，其中两列是月和年。月份为1.12，而2013年.(例如)。我需要创建一个mm/yyyy格式的时间戳，作为一个新列，比如“时间戳”。我试过下面的片段，但失败了。 scala> val df = spark.read.format("csv").option("header", "true").load("/user/bala/*.csv") df: org.apache.spark.sql.DataFrame = [_c0: string, Month: string ... 28

浏览 2提问于2016-09-29得票数 0

回答已采纳

1回答

如果列具有要绕过并读取csv和chars..how的特殊模式，则SparkDataFrame.dtypes将失败

、

如果csv文件包含带有特殊字符的列，则推断Spark Dataframe的架构将引发错误。测试样本foo.csv id，评论1，#Hi 2，你好 spark = SparkSession.builder.appName("footest").getOrCreate() df= spark.read.load("foo.csv", format="csv", inferSchema="true", header="true") print(df.dtypes) raise ValueError("Cou

浏览 12提问于2020-01-28得票数 0

1回答

电火花函数理解-转换因子

、、

我在Apache，Databricks上用PySpark编写代码。我有一个DataFrame DF，DataFrame包含以下列A、B、C、D、E、F、G、H、I、J。以下内容验证了dataframe是否具有所需的列 has_columns(very_large_dataframe, ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']) 要求将2.5的换算系数适用于F栏，即值2，换算

浏览 6提问于2022-01-14得票数 0

回答已采纳

3回答

spark.csv如何确定读取时的分区数量？

在Spark 2.2.0中:我正在读入一个文件，使用 spark.csv.read("filepath").load().rdd.getNumPartitions 对于一个350MB的文件，我在一个系统中使用77个分区，在另一个系统中使用88个分区。对于一个28 GB的文件，我还获得了226个分区，大约为28*1024MB/128MB。问题是，Spark CSV数据源如何确定这个默认的分区数量？

浏览 13提问于2018-05-24得票数 1