使用用户定义的标题将数据从Spark Dataframe导出到CSV

，可以通过以下步骤完成：

首先，确保你已经正确地安装和配置了Apache Spark，并且可以使用Spark Dataframe进行操作。
导入所需的库和模块：

import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.functions._

创建一个Spark会话：

val spark = SparkSession.builder()
    .appName("Export to CSV")
    .getOrCreate()

创建一个示例的DataFrame：

val data = Seq(
    (1, "John", 25),
    (2, "Jane", 30),
    (3, "Sam", 28)
).toDF("id", "name", "age")

定义CSV文件的输出路径和文件名：

val outputPath = "path/to/output.csv"

定义CSV文件的标题行：

val header = "id,name,age"

将标题行添加到数据中：

val dataWithHeader = spark.createDataFrame(Seq(header)).union(data)

使用DataFrame的coalesce()方法将数据合并为单个分区，以便在输出为单个CSV文件时避免生成多个部分文件：

val dataCoalesced = dataWithHeader.coalesce(1)

使用DataFrame的write()方法将数据保存为CSV文件：

dataCoalesced.write
    .option("header", "false")  // 需要将此选项设置为false，以避免重新添加标题行
    .option("delimiter", ",")   // 指定CSV文件的分隔符
    .csv(outputPath)

最后，关闭Spark会话：

spark.stop()

这样，你就成功地将数据从Spark Dataframe导出到CSV文件中，该文件包含了用户定义的标题行。

对于腾讯云相关产品，你可以使用腾讯云的云服务器CVM来搭建和运行Spark集群，使用云数据库TencentDB来存储和管理数据，使用云原生服务Tencent Kubernetes Engine (TKE) 来管理容器化的Spark应用程序，使用云存储COS来存储CSV文件等。你可以访问腾讯云官网了解更多详情和产品介绍：

请注意，这里只提供了腾讯云作为一个例子，并不代表其他云计算品牌商无法满足相同的需求。

使用用户定义的标题将数据从Spark Dataframe导出到CSV

、

我正在通过Spark SQL读取Hive表，并将其存储在Spark Dataframe中。然后，我使用coalesce命令将数据从数据框导出到CSV &这是成功的。唯一的问题是，我想让CSV标题包含一些容易理解的单词，但它仅仅是列名。有没有办法让我的CSV头自定义？

浏览 46提问于2021-10-28得票数 0

1回答

如何使用Spark Dataframes将C*中行导出为CSV文件

、、、、

我需要定期将C*表中的行存档/冷存储到CSV。例如:将C*表my_table中2016年1-6月的行导出到CSV my_table.2016_06-30.csv，将my_table中2016年7-12月的行导出到my_table.2016-12-31.csv，依此类推。我认为CQL可以做到这一点，但并不是我所有的表都有我的行的时间戳列。有人建议我使用Spark Dataframe来做这件事(所以我可以从Spark Cassandra连接器获得像writeTime这样的元数据)。我对Spark Cassandra连接器和这种Spark的使用还很陌生。谁能给我举一个很好的例子，告诉我如何将C

浏览 0提问于2017-09-02得票数 2

2回答

是否可以在创建DataFrame时指定列名

我的数据在csv文件中。该文件没有任何标题列 United States Romania 15 United States Croatia 1 United States Ireland 344 Egypt United States 15 如果我读了它，Spark会自动为列创建名称。 scala> val data = spark.read.csv("./data/flight-data/csv/2015-summary.csv") data: org.apache.spark.sql.DataFrame = [_c0: string, _c1: s

浏览 0提问于2019-02-03得票数 0

1回答

Spark (Databricks)来自SQL的非托管表不处理标头

、、

正在尝试使用SQL API从CSV文件在Spark (Databricks)中创建非托管表。但是第一行没有被用作标题。图2显示了使用Dataframe API创建非托管表时第一行是正确的。该Dataframe是从同一csv文件加载的。但是，图1显示，从SQL中的CSV文件数据源创建非托管表时，不会将第一行作为标题处理。我是否遗漏了一些“头”选项？如果是这样的话，该如何编码呢？ ? ? Dataframe API

浏览 26提问于2021-07-15得票数 1

回答已采纳

1回答

将spark数据帧导出到带有标头和特定文件名的.csv

、、、、

我正在尝试将数据从spark dataframe导出到.csv文件： df.coalesce(1)\ .write\ .format("com.databricks.spark.csv")\ .option("header", "true")\ .save(output_path) 它正在创建名为"part-r-00001-512872f2-9b51-46c5-b0ee-31d626063571.csv“的文件我希望文件名为"part-r-00000.csv“或"part-00000.csv” 由于该文件

浏览 6提问于2018-02-07得票数 12

1回答

是否可以在PySpark中解除DataFrame的标记？

、、、、

我正在使用app.zelp.com来执行NLP。在标记化并删除停用词之后，我想要取消标记化剩余的单词并导出到csv。这有可能吗？ %python # Start Spark session from pyspark.sql import SparkSession spark = SparkSession.builder.appName("StopWords").getOrCreate() from pyspark.ml.feature import Tokenizer, StopWordsRemover from pyspark import SparkFiles url =

浏览 18提问于2021-02-17得票数 1

1回答

无法将CSV pyspark数据帧导出到C:\temp

、、、、

我有一个1300行5列的pyspark.sql.dataframe.DataFrame。我使用以下命令将数据框导出到C:/temp： c5.toPandas().to_csv("C:/temp/colspark.csv") 但我得到以下错误： <ipython-input-4-2c57938dba1e> in <module> ----> 1 c5.toPandas().to_csv("C:/temp/colspark.csv") S:\tdv\ab\ecp\Spark\spark\spark-2.4.4-bin-hadoop2

浏览 28提问于2019-10-03得票数 1

回答已采纳

4回答

如何将DataFrame导出到Scala中的csv？

、、

如何使用Scala将Spark的DataFrame导出到csv文件？

浏览 5提问于2015-09-11得票数 11

回答已采纳

6回答

如何将PySpark中的表数据框导出到csv？

、、、、

我使用的是Spark 1.3.1 (PySpark)，并且我已经使用SQL查询生成了一个表。我现在有一个对象，它是一个DataFrame。我想把这个表对象(我把它叫做“DataFrame”)导出到一个csv文件中，这样我就可以操作它并绘制列。如何将DataFrame“表”导出为csv文件？谢谢!

浏览 813提问于2015-07-13得票数 92

回答已采纳

1回答

使用架构更改pyspark dataframe标头名称

、、

我有10列左右的csv，我从不同的源获得数据，头名也不同。我试图使用模式更改标题名称，如下所示。 def transform(df): schema = StructType([StructField('Name', StringType(), True), StructField('ID', IntegerType(), True), StructField('Volume', DoubleType(), True),

浏览 1提问于2021-03-11得票数 0

回答已采纳

1回答

Spark dataframe CSV vs Parquet

、、

我是Spark的初学者，正在尝试理解spark数据帧的机制。当从csv加载数据时，我正在比较spark sql dataframe上sql查询的性能。我的理解是，一旦数据被加载到spark数据帧中，那么数据来自哪里(csv或parquet)就不再重要了。然而，我看到了两者之间的显着性能差异。我正在使用以下命令加载数据，并针对它编写查询。 dataframe_csv = sqlcontext.read.format("csv").load() dataframe_parquet = sqlcontext.read.parquet() 请解释产生差异的原因。

浏览 2提问于2018-02-11得票数 1

1回答

如何将大型spark数据帧(5M行)/csv文件拆分成每个数据帧具有相同标题的区块(优化方案)

、、、、

我有一个很大的csv文件(5 5GB)，其中包含大约50M行。我想让更小的块csv(~1M行)从原始的csv文件。我尝试了下面的方法来分块，但花了很多时间来执行分块： 1. I used Pandas to read data from csv and make chunk and write into chunk csv file. import pandas rows = pd.read_csv('test.csv', chunksize=1000000) for i, chunck in enumerate(rows): chunck.to_csv('

浏览 1提问于2020-09-02得票数 0

1回答

spark dataframe to csv第一列

、、、

我正在将java中的spark数据帧导出到csv文件中。因为我想稍后使用unix排序工具对csv文件进行排序，所以我需要对列进行重新排序，以便某些列排在第一位。现在让我们调用的是"sort_index“。我该怎么做呢？目前，我正在使用以下代码转换为csv： DataFrame df = sqlContext.parquetFile(somepath); df.write() .format("com.databricks.spark.csv") .option("header", "true") .save(somepath)

浏览 2提问于2016-04-13得票数 0

1回答

Pyspark dataframe:从csv加载，然后删除第一行

、、、、

我能够将csv文件从Azure datalake加载到pyspark dataframe中。如何删除第一行，并使第二行作为我的标题？我见过一些RDD解决方案。但我无法加载该文件，并且使用以下代码时出现错误"RDD is file“ items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv") firstRow=data.first() 因此，我更喜欢使用标准的spark加载，如下所示。我可以显示数据帧的内容。我必须删除或删除第

浏览 30提问于2020-03-20得票数 0

回答已采纳

2回答

在Spark中，如果数据文件中没有行，如何在文件中写入标头？

、、

如果在dataframe中没有行，我希望在文件中写入一个头，目前，当我将一个空的dataframe写入一个文件时，就会创建文件，但是它中没有头文件。我使用以下设置和命令编写dataframe： Dataframe.repartition(1) \ .write \ .format("com.databricks.spark.csv") \ .option("ignoreLeadingWhiteSpace", False) \ .option("ignoreTrailingWhiteSpac

浏览 0提问于2019-07-09得票数 3

回答已采纳

1回答

如何读取头中具有不同分隔符的数据帧中的csv文件，如“”，其余行以"|“分隔

、、、

是否用逗号分隔csv文件头，用另一个分隔符"|“.How分隔其余行，以处理这种不同的分隔符情况？请给我建议。 import org.apache.spark.sql.{DataFrame, SparkSession} var df1: DataFrame = null df1=spark.read.option("header", "true").option("delimiter", ",").option("inferSchema", "false") .optio

浏览 12提问于2020-08-25得票数 0

1回答

如何使用Python在中处理NullType？

、、、

我正在尝试将数据从MapR DB加载到Spark中。然后，我只是尝试将DF导出到CSV文件。但是，我的错误是： "com.mapr.db.spark.exceptions.SchemaMappingException:未能解析数据类型NullType (当前令牌:字符串)的值“ 我尝试了两种方法，将列转换为StringType。这是其中之一： df = spark.loadFromMapRDB(db_table).select( F.col('c_002.v_22').cast(T.StringType()).alias('aaa'), F.co

浏览 1提问于2019-05-10得票数 1

1回答

在spark中使用scala加载csv文件创建数据

、、、、

但是csv文件中添加了额外的双引号，这会将所有cloumns都添加到单个列中。有四列，标题和2行。 """SlNo"",""Name"",""Age"",""contact""" "1,""Priya"",78,""Phone""" "2,""Jhon"",20,""mail""" val

浏览 0提问于2018-03-06得票数 0

回答已采纳

1回答

Spark csv到数据帧跳过第一行

、

我正在加载csv到dataframe使用- sqlContext.read.format("com.databricks.spark.csv").option("header", "true"). option("delimiter", ",").load("file.csv") 但是我的输入文件在第一行包含日期，在第二行包含标题。示例 20160612 id,name,age 1,abc,12 2,bcd,33 如何在将csv转换为dataframe时跳过这第一行？

浏览 3提问于2016-06-13得票数 4

回答已采纳

1回答

如何将SQL查询的结果从数据库导出到Azure Data

、、、

我正在尝试将数据库中的spark.sql查询的结果导出到Azure Data ADLS中的一个文件夹中我正在查询的表也在ADLS中。我已经使用以下逗号从Databricks访问了ADLS中的文件： base = spark.read.csv("adl://carlslake.azuredatalakestore.net/landing/",inferSchema=True,header=True) base.createOrReplaceTempView('basetable') 我使用以下命令查询该表： try: dataframe = spark.s

浏览 0提问于2019-01-05得票数 1

回答已采纳

1回答

是否可以在Foundry转换中指定输出文件的名称？

、

我在Palantir中有一个PySpark转换，它输出到一个csv文件以导出到其他系统。目前，使用write_dataframe方法，文件的名称如下所示： spark/part-00002-cfba77d5-c6ce-4b2a-ac9a-59173c7ede5a-c000.snappy.csv 是否可以指定文件名，如"my_export.csv“？

浏览 13提问于2022-08-12得票数 3

1回答

Scala Spark未读取忽略第一行标题并加载从第二行开始的所有数据

、

我在AWS EMR集群上有一个Scala Spark笔记本，可以从AWS S3存储桶加载数据。以前，我有如下的标准代码： var stack = spark.read.option("header", "true").csv("""s3://someDirHere/*""") 这会将多个文件目录(.txt.gz)加载到名为stack的Spark DataFrame对象中。最近，有新文件添加到此目录。新文件的内容看起来是一样的(我下载了几个文件，并使用Sublime Text和Notepad++打开它们)。我尝试

浏览 84提问于2020-10-30得票数 0

回答已采纳

2回答

如何在dataframe spark中添加头部和列？

、、

我有一个dataframe，我想在它上面手动添加一个标题和第一列。以下是数据帧： import org.apache.spark.sql.SparkSession val spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate() val df = spark.read.option("header",true).option("inferSchema",true).csv("C:\\gg.csv").ca

浏览 14提问于2017-03-31得票数 2

1回答

熊猫- read_table读选线

、、

我使用文本文件，其中包含前6行中的一些基本信息，包括空行。我必须将数据导入、处理并导出到另一个csv。下面是前6行的示例： Foov7.9 - bar.raw created at 10:45:25 on 10.02.2015: (empty row) (empty row) A B C D a b c d (empty row) 在熊猫中，我使用第4行： A B C D 作为dataframe的标题： data1 = pd.read_table(dataset1,header = 1, skiprows = (4,5), index_col=None, delimiter=r"\t&

浏览 2提问于2015-02-11得票数 2

回答已采纳

1回答

在外部存储中将大型数据存储为csv时出现异常

、、、、

我有一个dataframe，它的变量df中有大约4000个条目。当我试图将数据作为csv导出到外部存储时，我得到了一个奇怪的错误，如下所示： Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 12 in stage 9.0 failed 1 times, most recent failure: Lost task 12.0 in stage 9.0 (TID 21, localhost, executor driver): org.apache.spark.SparkExcep

浏览 1提问于2017-11-09得票数 1

回答已采纳

1回答

DataFrame对象未显示任何数据

、、、、

我试图使用spark csv lib在hdfs文件上创建一个dataframe对象，如所示。但是当我尝试获取DataFrame对象的计数时，它显示为0 这是我文件外观， employee.csv： empid,empname 1000,Tom 2000,Jerry 我使用以下命令加载了上述文件： val empDf = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimiter",",")

浏览 1提问于2016-08-09得票数 0

回答已采纳

3回答

用Spark和Scala清洗尺寸~40 of的CSV/Dataframe

、、、、

我是大数据世界的新手。我有一个初始的CSV，它的数据大小为~40 in，但是以某种移位的顺序。我的意思是，如果你看到最初的CSV，因为珍妮没有年龄，所以性别列值被移到年龄，剩下的列值一直移动到行中的最后一个元素。我需要清理/处理这个CVS，使用Scala中的dataframe和Spark。我尝试了很多withColumn() API的解决方案，但是对我来说都没有用。如果有人可以建议我一些逻辑或API，这是可以用一个更干净的方式解决这个问题。我可能不需要适当的解决方案，但指针也可以。帮助非常感激！！初始CSV/Dataframe 需要CSV/Dataframe 编辑：

浏览 0提问于2019-09-12得票数 1

1回答

如何将spark流输出包装在数组括号中？

、、

Spark：2.3.0 Scala：2.11.12 我使用spark structure streaming从一个kafka主题中流式传输，并将结果输出到另一个kafka主题。 val mySchema = StructType(StructField("foo", StringType, true) :: Nil) 输入数据[{"foo":"bar"}] 当我使用select(from_json(col(A), mySchema))方法时，它会从数组内部解析对象，并将其放入我的模式中。我正在尝试做的是，在过滤dataFrame转换的末尾，将m

浏览 1提问于2018-08-08得票数 1

回答已采纳

1回答

Spark:读取inputStream而不是文件

、、、、

我在一个Java应用程序中使用SparkSQL对CSV文件进行一些处理，使用Databricks进行解析。我正在处理的数据来自不同的来源(远程网址，本地文件，谷歌云存储)，我习惯于把所有东西都转换成InputStream，这样我就可以解析和处理数据，而不需要知道它来自哪里。我在Spark上看到的所有文档都是从一个路径读取文件，例如 SparkConf conf = new SparkConf().setAppName("spark-sandbox").setMaster("local"); JavaSparkContext sc = new JavaSpar

浏览 0提问于2016-07-21得票数 14

回答已采纳

1回答

Spark-SQL :如何将TSV或CSV文件读入dataframe并应用自定义模式？

、、、

我在使用制表符分隔值(TSV)和逗号分隔值(CSV)文件时使用Spark 2.0。我希望将数据加载到Spark-SQL数据帧中，在读取文件时，我希望完全控制模式。我不希望Spark从文件中的数据中猜测模式。如何将TSV或CSV文件加载到Spark SQL Dataframe中，并对其应用模式？

浏览 2提问于2017-04-20得票数 6

1回答

在scala中使用函数时得到错误类型不匹配

、、

import org.apache.spark.sql.{SparkSession, DataFrame} import org.apache.spark.sql.functions._ object sparkcpp { val spark = SparkSession.builder().getOrCreate() import spark.implicits._ def extract(): DataFrame = { val df = spark.read.option("inferschema","true").op

浏览 1提问于2021-12-09得票数 0

2回答

是否会在每次操作中从外部源读取数据？

、、

在星火外壳上，我使用下面的代码从csv文件中读取 val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the spark session df.show() 假设这将显示10行。如果我通过编辑在csv中添加一个新行，那么调用df.show()是否会再次显示新行？

浏览 5提问于2016-12-05得票数 1

回答已采纳

1回答

如何将星星之火中的日期时间字符串的数据映射到布尔的数据？

、

基本上，我想检查日期数据中的每个值是否都是正确的格式"MM/dd/yy“。 val df: DataFrame = spark.read.csv("----") 但是，每当我应用函数映射时： df.map(x => right_format(x)).show() 试着展示这个新的数据格式/数据集，我得到了一个不可序列化的错误。有人知道为什么吗？我尝试过使用intellij调试器进行调试，但没有效果。 val df: DataFrame = spark.read.csv("----") df.map(x => right_format(x)

浏览 0提问于2019-07-10得票数 0

回答已采纳

3回答

基于熊猫栏值的csv输出

、、、

我有这样的df user = pd.DataFrame({'User':['101','101','101','102','102','101','101','102','102','102'],'Country':['India','Japan','India','Brazil','Japan','UK',&

浏览 0提问于2018-06-26得票数 3

回答已采纳

1回答

Spark Scala -将数据帧保存为带有标题的文本文件

、

DataFrameWriter csv方法生成带有标头的csv部件文件 df.write.mode(SaveMode.Overwrite) .option("header","true").option("delimiter", "\t") .csv("/tmp/files") Databrick的spark-csv也可以处理带有头文件的csv文件，但不能处理带有头文件的文本文件。 dataFrame.write .format("com.databricks.spark.csv") .op

浏览 2提问于2018-10-06得票数 0

1回答

熊猫在阅读CSV时重命名专栏

、、

我在一个文件夹中有多个文本文件，而不是输出到一个表中。我成功地将表导出到一个.csv文件。问题是，我想要向每个列添加一个标题，并且我希望标题的名称是文本文件的名称。每个文件都是表中的一列数据。例如，列1来自textfile.1。我想在列1中添加一个标头，上面写着"textfile.1" 这是我的工作代码： import os path = r'C:/path/to/file' folders = os.listdir(path) #raw string import pandas as pd df = pd.DataFrame() df_interim =

浏览 1提问于2020-07-09得票数 3

回答已采纳

2回答

从Spark中的旧dataframe获取列名

、、

请看我的代码： val spark = SparkSession.builder .master("local[*]") .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .getOrCreate() val data = spark.read.option("header", "true") .option("inferSchema", &

浏览 2提问于2020-04-24得票数 1

回答已采纳

2回答

Pyspark错误- py4j.Py4JException:方法限制([ java.lang.String])不存在

、、

当执行代码以从HDFS获得spark数据帧并随后将其转换为pandas数据帧时， spark_df = spark.read.parquet(*data_paths) # other code in the process like filtering, groupby etc. # .... # write sparkdf to hadoop, get n rows if specified if n: spark_df.limit(n).write.csv(tmpfoldername, sep=csv_sep, quote=csv_quote)

浏览 2提问于2018-06-04得票数 1

回答已采纳

2回答

DataFrame定义是懒惰的评估

、、、、

我是新来的火花和学习它。有人能帮忙解决以下问题吗？关于数据格式定义的that权威引语是：“一般来说，星火只在作业执行时才会失败，而不是dataframe定义时间--即使我们指向一个不存在的文件。这是由于延迟的评估。” 所以我想spark.read.format().load()是数据的定义。在此基础上，我们应用转换和操作，加载是读取API，而不是转换，如果我没有错的话。我试图在load中“文件不存在”，我认为这是dataframe的定义。但我犯了个错误。根据这本书，它不应该失败，对吗？我肯定漏掉了什么。有人能帮忙吗？ df=spark.read.format('csv')

浏览 1提问于2020-03-30得票数 1

回答已采纳

2回答

用两种不同的方式创建的同一个在同一个查询中得到不同的执行时间

、、、、

我以两种方式创建了相同的，以便在其上运行Spark。 1.我使用以下命令将.csv文件中的数据直接读取到Spark中的Dataframe中： val df=spark.read.option("header",true).csv("C:\\Users\\Tony\\Desktop\\test.csv") 2. --我从同一个.csv文件中创建了一个MongoDB集合，然后使用将其作为RDD导入Spark，然后使用以下命令(在cmd/火花-shell中)将其转换为Dataframe： spark-shell --conf "spark.mongodb.in

浏览 2提问于2022-01-05得票数 0

回答已采纳

2回答

值选项不是org.apache.spark.sql.DataFrame的成员。

、、

我试图在scala中创建一个数据框架，如下所示： var olympics =spark.read.csv("/FileStore/tables/Soccer_Data_Set_c46d1.txt").option("inferSchema","true").option("header","true").option("delimiter",",") 当我提交代码时，它会抛出value option is not a member of org.apache.spark.sql.D

浏览 11提问于2020-06-18得票数 0

回答已采纳

2回答

如何向PySpark DataFrame添加headers？

、、、

我已经创建了一个没有标头的XML (从PySpark转换为CSV)。我需要将其转换为带标头的DataFrame，以便在其上执行一些SparkSQL查询。我似乎找不到一种简单的方法来添加标题。大多数示例都从已经有头的数据集开始。 df = spark.read.csv('some.csv', header=True, schema=schema) 但是，我需要附加标头。 headers = ['a', 'b', 'c', 'd'] 这似乎是一个微不足道的问题，我不确定为什么我找不到一个有效的解决方案

浏览 66提问于2019-05-11得票数 0

回答已采纳

2回答

在apache中使用模式解析文件

、、

下面是我的spark/SCALA程序来读取我的源文件。(CSV文件) val csv = spark.read .format("com.databricks.spark.csv") .option("header", "true") //reading the headers // .option("mode", "DROPMALFORMED") .option("inferSchema", "true") .load("C:\\TestFiles\\S

浏览 3提问于2017-04-15得票数 0

回答已采纳

2回答

火花数据处理中的操作错误

、、

我是星火框架的新手，在我的本地机器上做一些小任务来练习。我的任务是:我在S3中存储了365个压缩的csv文件，其中包含每天的日志。我想要建一个全年的数据集。我的方法是从桶中检索密钥，构建每日数据格式，将它们统一为月份数据，对它们进行同样的操作，并作为回报获得全年数据。它适用于我检索到的用于测试的一些样本数据。在构建DataFrames之前，我对文件进行解压缩，将未压缩的csv文件写入磁盘，并使用它创建DataFrame。问题是:如果我从磁盘中删除csv文件(使其成为临时文件)，在创建dataframe之后，我无法对dataframe执行任何操作(例如year_df.count())。抛出S

浏览 0提问于2017-01-09得票数 1

回答已采纳

1回答

在for循环中将数据文件导出到csv时避免列标题

、、、

在我的情况下，我通过一个data frame将一个.csv文件导出到for loop中。每个迭代的数据文件都是从一个list of dict创建的。导出的信息是正确的，但当然，对于每次迭代，头都显示在csv文件中。下面是代码片段： f = open("Test" + ".csv", "w+") for junc in Junctions: conn = model.connections(Junction = junc) #list(dict) DF4dictConn = pd.DataFrame(conn)

浏览 1提问于2019-11-19得票数 1

回答已采纳

1回答

我可以给熊猫发送一个火花数据作为论据吗？

、、、、

是否有可能发送一个火花数据作为一个论据给熊猫UDF和得到一个熊猫的数据作为回报。下面是我正在使用的示例代码集，并且在调用函数时出错： import pandas as pd from pyspark.sql import SparkSession from pyspark.sql.functions import pandas_udf spark = SparkSession \ .builder \ .appName("PrimeBatch") \ .master("local[*]") \ .getOrCreate()

浏览 4提问于2020-11-26得票数 1

回答已采纳

1回答

纱线簇csv导出上的spark scala

、、、

我有一个5节点的集群，部署了YARN。2个Namenode节点和3个数据节点。而我的代码是在spark中提交的。我正在尝试将数据导出到csv，但当我这样做时，数据被导出到2个数据节点，并且这两个节点在导出文件夹中具有不同的内容。其中一个将包含_SUCCESS文件，另一个将包含导出的csv (part-*)。我的应用程序最终有一个空路径，因为有时包含_SUCCESS文件的节点和运行应用程序的节点是相同的，但实际的csv在另一个节点中。此外，有时不会创建_SUCCESS文件，但会在另一个节点中创建-*.csv部分，在这种情况下，如果应用程序不再在同一节点上运行，我将再次以空路径结束。我使用以下方法

浏览 0提问于2017-09-13得票数 0

1回答

从CSV文件中删除报头和拖车

、、

我试图在表中摄取CSV文件，但是在此之前，我需要根据标题和拖车进行一些验证。样本数据 Header,TestApp,2020-01-01, name, dept, age, batchDate john, dept1, 33, 2020-01-01 john, dept1, 33, 2020-01-01 john, dept1, 33, 2020-01-01 john, dept1, 33, 2020-01-01 Trailer,count,4 现在，在我将数据输入表之前，我需要检查记录的总数是5，与每个预告片记录相同。这就是我所做的对的。 val df = spark.read.form

浏览 0提问于2021-01-12得票数 0

1回答

如何在spark中将数据帧转换为csv

、、

如何在spark中将数据帧转换为csv dataFrame = spark.read.csv("testData2.csv",header='true')

浏览 1提问于2018-01-05得票数 0

2回答

将csv文件作为spark数据帧读取

、、

我有一个CSV文件和一个头文件，它必须作为数据帧通过Spark(2.0.0和Scala 2.11.8)读取。 csv数据示例： Item,No. of items,Place abc,5,xxx def,6,yyy ghi,7,zzz ......... 当我尝试将spark中的csv数据作为数据帧读取时，我遇到了问题，因为标题包含列(No.指项目)具有特殊字符“。我尝试用来读取csv数据的代码是： val spark = SparkSession.builder().appName("SparkExample") import spark.implicits._ v

浏览 0提问于2017-09-06得票数 3