重命名Spark DataFrame的重复列？

在Spark中，要重命名DataFrame中的重复列，可以使用withColumnRenamed方法来实现。

首先，需要导入Spark的相关包：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

然后，创建SparkSession：

spark = SparkSession.builder.getOrCreate()

接下来，创建一个示例DataFrame：

data = [(1, "Alice", 25), (2, "Bob", 30), (3, "Alice", 35)]
df = spark.createDataFrame(data, ["id", "name", "age"])
df.show()

输出结果为：

+---+-----+---+
| id| name|age|
+---+-----+---+
|  1|Alice| 25|
|  2|  Bob| 30|
|  3|Alice| 35|
+---+-----+---+

现在，假设我们想要将重复的"name"列重命名为"new_name"。我们可以使用withColumnRenamed方法，结合col函数来实现：

df = df.withColumnRenamed("name", "new_name")
df.show()

输出结果为：

+---+--------+---+
| id|new_name|age|
+---+--------+---+
|  1|   Alice| 25|
|  2|     Bob| 30|
|  3|   Alice| 35|
+---+--------+---+

现在，重复的"name"列已经成功重命名为"new_name"列。

对于此问题，腾讯云的相关产品和产品介绍链接如下：

TencentDB for MySQL: 腾讯云的关系型数据库MySQL，可用于存储和管理数据。
TencentDB for PostgreSQL: 腾讯云的关系型数据库PostgreSQL，可用于存储和管理数据。
TencentDB for MariaDB: 腾讯云的关系型数据库MariaDB，可用于存储和管理数据。
TencentDB for MongoDB: 腾讯云的NoSQL数据库MongoDB，可用于存储和管理非结构化数据。
TencentDB for Redis: 腾讯云的内存缓存数据库Redis，可用于高速读取和存储数据。

请注意，以上只是一些示例产品，并非推荐使用，具体选择要根据实际需求和情况而定。

使用pyspark中的列索引删除同名的列

、、、

这是我的数据帧，我正在尝试使用index删除同名的重复列： df = spark.createDataFrame([(1,2,3,4,5)],['c','b','a','a','b']) df.show() 输出： +---+---+---+---+---+ | c| b| a| a| b| +---+---+---+---+---+ | 1| 2| 3| 4| 5| +---+---+---+---+---+ 我拿到了数据帧的索引 col_dict = {x: col for x, col

浏览 30提问于2019-12-19得票数 4

3回答

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

、、、、

问题陈述:在升级Databricks运行时版本时，复制列在创建dataframe时抛出错误。在较低的运行时，会创建dataframe，并且由于下游不需要重复列，因此它只是在select中被排除在外。文件位置:存储在ADLS Gen2 (Azure)上的Json文件。集群模式:标准代码:我们在中阅读它，如下所示。 intermediate_df = spark.read.option("multiline","true").json(f"{path}/IN-109418_Part_1.json") json文件是嵌套的，其中一个是tags，它是

浏览 1提问于2021-11-16得票数 2

回答已采纳

1回答

从Spark写入S3间歇性失败，错误代码为404 NoSuchKey

、、、

我的spark作业每5分钟写入一次s3，但每天都有几次写入失败，异常如下。你知道这是什么原因吗？代码： ds.write .mode("overwrite") .format("parquet") .save("s3://....") 例外： org.apache.spark.SparkException: Task failed while writing rows. at org.apache.spark.sql.execution.datasources.FileFormatWriter$.or

浏览 0提问于2019-03-30得票数 3

1回答

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

、、、、

目前，我正在使用Apache (吡火花)构建一个应用程序，我有以下用例：以本地模式运行pyspark (使用spark-submit local[*])。以分区Parquet文件的形式将我的星火作业的结果写入S3。确保每个作业覆盖它要写入的特定分区，以确保幂等作业。确保在提交到S3之前将火花暂存文件写入本地磁盘，因为在S3中进行暂存，然后通过重命名操作提交，这是非常昂贵的。由于各种内部原因，上述四个要点都是不可谈判的. 除了最后一颗子弹外，我什么都有。我正在运行一个pyspark应用程序，并编写到S3 (实际上是一个on 实例)，确保spark.sql.sou

浏览 33提问于2022-01-17得票数 2

3回答

需要将重复的列从pyspark中的数据中移除。

、、、

我有一个432列的dataframe和24个重复的列。 df_ columns ->这里有432列复印机我想删除df_tickets中复制的cols。所以df_tickets应该只有432-24=408列。我已经用下面的代码试过了，但是它的抛出错误。 df_tickets.select([c for c in df_tickets.columns if c not in duplicatecols]).show() 错误是 An error occurred while calling o1657.showString. : org.apache.spark.sql

浏览 0提问于2019-05-31得票数 0

回答已采纳

1回答

压缩用Spark读取的几列

、、

我在CSV文件中有如下数据： ColumnA,1,2,3,2,1 "YYY",242,34234,232,322,432 "ZZZ",16,435,363,3453,3434 我想和一起读我想将它读到一个DataFrame中，并将除第一个列外的所有列压缩为一个Seq。所以我想从它那里得到这样的东西： MyCaseClass("YYY", Seq(242,34234,232,322,432)) MyCaseClass("ZZZ", Seq(16,435,363,3453,3434)) 我不知道怎么弄到那个。我试着这样读，其中u

浏览 3提问于2016-07-11得票数 0

2回答

在同一列上连接数据格式时，引用是不明确的。

、

我正在尝试加入两个数据处理程序。我创建了别名并根据以下文章引用了它们：但是，即使我没有引用任何关于fillna()函数的内容，但当它访问RetailUnit函数时，仍然会出现一个关于不明确列的错误。 alloc_ns = allocation_num_spots.alias('alloc_ns') avails_ns = avails_num_spots.alias('avails_ns') compare_num_avails_inv = avails_ns.join( alloc_ns, (F.col('avails_n

浏览 3提问于2020-06-05得票数 8

回答已采纳

1回答

在Pyspark中处理json数据时出错

、

我正在从这个链接运行一个简单的Pyspark程序-https://spark.apache.org/docs/2.2.0/sql-programming-guide.html当我试图从全局临时视图读取数据时遇到了问题 sqlContext.sql("""select * from people""").show() Hive history file=/tmp/sshuser/hive_job_log_sshuser_202004281336_882204804.txt Traceback (most recent call last):

浏览 54提问于2020-04-28得票数 0

2回答

为什么隐式类中的函数不可用？

、

我正在尝试教自己Scala，并使用IntelliJ的想法作为我的IDE。我已经启动IntelliJ的shell，运行console，然后输入以下内容： import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import java.time.LocalDate object DataFrameExtensions { implicit class DataFrameExtensions(df: DataFrame){ def featuresGroup1(grou

浏览 1提问于2018-05-22得票数 1

回答已采纳

1回答

在Spark Structured Streaming中未从S3提取新数据

、、

我正在尝试从Spark Structured Streaming中的S3存储桶中读取数据。下面的代码用于获取现有数据。但是，当新数据添加到存储桶中时，Spark不会选择这一点。 val lines = spark.readStream.schema(schemaImp).format("com.databricks.spark.avro").load("s3n://bucket/*") val query = lines.writeStream.outputMode("append").format("memory").query

浏览 0提问于2016-12-10得票数 3

1回答

根据str变量列表在dataframe中重命名列

、、

首先，我创建了一个for循环，根据“变量”列表迭代一个NC文件。我已经创建了下面的代码来将该列表转换为dataframe，并且只考虑从4行到18行。 var = data.variables var = list(var) var_df = pd.DataFrame(var, columns =['vari']) var_df = var_df[4:] var_df.reset_index(drop=True, inplace=True) 接下来，我创建了一个for循环，以便在每次迭代中提取相关变量的对应值。 for i, row in var_df.iterrows():

浏览 1提问于2022-06-25得票数 0

1回答

在读取重复的列名excel文件时使用sparkexcel库获取异常。如何克服这个问题

、、

我使用火花- excel (com.crealytics.spark.excel)库来读取excel文件.如果excel文件中没有重复列，则库可以正常工作。如果excel文件中出现任何重复的列名，则在异常下面抛出。如何克服这个错误？有什么解决办法来解决这个问题吗？线程"main“org.apache.spark.sql.AnalysisException中的异常:在数据模式中找到重复列：net territory；at

浏览 5提问于2018-05-19得票数 0

4回答

如何将DataFrame保存为压缩(gzipped) CSV？

、、、

我使用Spark1.6.0和Scala。我想将DataFrame保存为压缩的CSV格式。到目前为止(假设我已经将df和sc作为SparkContext)如下： //set the conf to the codec I want sc.getConf.set("spark.hadoop.mapred.output.compress", "true") sc.getConf.set("spark.hadoop.mapred.output.compression.codec", "true") sc.getConf.set(

浏览 10提问于2016-10-20得票数 27

回答已采纳

1回答

DataFrameGroupBy对象列名

、、、

我有一个具有重复列名的DataFrameGroupBy对象(即，它不是一个dataframe，而是一个按dataframe分组的对象)。如何更改重复的列名之一。( .rename的使用没有成功) 由于有两个列名具有相同的“标签”，所以如何保持其中一个列名不变，并更改另一个列名。谢谢例如： import pandas as pd import numpy as np df = pd.DataFrame({'Stock' : ['apple', 'ford', 'google', 'samsung','wal

浏览 2提问于2014-08-13得票数 0

回答已采纳

2回答

Spark:如何将数据帧Array[String]更改为RDD[Array[String]]

、、

我以DataFrame array<string>的身份处理事务 transactions: org.apache.spark.sql.DataFrame = [collect_set(b): array<string>] 我想将其更改为RDD[Array[string]]，但是当我将其更改为RDD时，它被更改为org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] val sam: RDD[Array[String]] = transactions.rdd <console>:42: error: type m

浏览 14提问于2017-01-11得票数 1

2回答

重命名写入的CSV文件Spark

、、、

我运行的是spark 2.1，我想把结果写成一个csv到亚马逊S3。在重新分区后，csv文件有一个很长的加密名称，我想将其更改为一个特定的文件名。我使用databricks库来写入S3。 dataframe .repartition(1) .write .format("com.databricks.spark.csv") .option("header", "true") .save("folder/dataframe/") 有没有办法在以后重命名文件，甚至直接用正确的名称保存它？我已经

浏览 1提问于2017-06-26得票数 3

回答已采纳

1回答

如何使用带管道的多字符分隔符进行拆分？

、、

我正在尝试根据分隔符":|:|:“拆分spark中的dataframe的字符串列。 Input: TEST:|:|:51:|:|:PHT054008056 测试代码： dataframe1 .withColumn("splitColumn", split(col("testcolumn"), ":|:|:")) 结果： +------------------------------+ |splitColumn | +------------------------------+ |[TEST, |, |

浏览 2提问于2017-12-23得票数 3

回答已采纳

1回答

使用用户定义的标题将数据从Spark Dataframe导出到CSV

、

我正在通过Spark SQL读取Hive表，并将其存储在Spark Dataframe中。然后，我使用coalesce命令将数据从数据框导出到CSV &这是成功的。唯一的问题是，我想让CSV标题包含一些容易理解的单词，但它仅仅是列名。有没有办法让我的CSV头自定义？

浏览 46提问于2021-10-28得票数 0

3回答

更改DataFrame.write()的输出文件名前缀

、、、、

通过Spark SQL DataFrame.write()方法生成的输出文件以"part“基名前缀开头。例如： DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet"); 结果如下： hdfs dfs -ls sample_07_parquet/

浏览 0提问于2016-03-20得票数 10

回答已采纳

1回答

计算DataFrame的标准差会导致一个误差

、

我试图计算DataFrame中列的标准偏差，但当尝试时，我得到了如下失败消息： [info] - should return the standard deviation for all columns in a DataFrame *** FAILED *** (51 milliseconds) [info] org.apache.spark.sql.AnalysisException: cannot resolve '`value_6`' given input columns: [stddev_samp(value_6)]; [info] 'Project [

浏览 4提问于2022-02-18得票数 0

回答已采纳

1回答

具有区分大小写且未插入配置单元表中的DataFrame

、、、、

面对这样一种场景，其中dataframe区分大小写，并且在将该dataframe插入到hive表中时，它会抛出错误，因为列不明确 E.g:daframe_test.columns[ABC, abc] 我们可以在运行时动态处理来自列的两个值而不抛出错误吗通过设置spark.set.conf("spark.sql.caseSensitive", "true")尝试了一个解决方案但是，在添加此属性后将此数据帧插入hive表时，会抛出错误/异常，如内存开销和堆空间等问题。也不希望在实时项目中设置此属性

浏览 4提问于2019-08-02得票数 0

1回答

尝试从pyspark中的拼图文件中收集记录时出现异常

、、、

我不明白为什么，但是我不能从我的拼图文件中读取数据。我从json文件中制作了parquet文件，并将其读取到data frame： df.printSchema() |-- param: struct (nullable = true) | |-- FORM: string (nullable = true) | |-- URL: string (nullable = true) 当我尝试读取任何记录时，我得到一个错误： df.select("param").first() 15/07/22 13:06:15 ERROR Executor: Exceptio

浏览 1提问于2015-07-22得票数 1

1回答

星星之火:数据集中的圆到十进制

、、、

我有一个类似于下面的数据集，在DataFrame的情况下，我可以轻松地舍入小数点的2位，但我只是想知道在使用类型化数据集时是否有更简单的方法来完成同样的操作。下面是我的代码片段： import org.apache.spark.sql.{DataFrame, Dataset} import org.apache.spark.sql.expressions.scalalang.typed.{sum => typedSum} import org.apache.spark.sql.functions._ import org.apache.spark.sql.types.{DecimalT

浏览 3提问于2018-05-07得票数 1

回答已采纳

3回答

如何删除“火花放电”中的歧义列？

、、

有许多类似于此的问题在避免联接中的重复列方面提出了不同的问题；这不是我在这里问的问题。考虑到我已经有了一个列不明确的DataFrame，我如何删除特定的列？例如，考虑到： df = spark.createDataFrame( spark.sparkContext.parallelize([ [1, 0.0, "ext-0.0"], [1, 1.0, "ext-1.0"], [2, 1.0, "ext-2.0"], [3, 2.0, "ext-3.0"],

浏览 5提问于2020-06-22得票数 1

回答已采纳

1回答

如何在熊猫数据中重命名重复的列名

、、

很短的时间:我有这个DataFrame 在dataframe中，我有一些具有不同值的重复列。我如何修正它，使它们有不同的列名？ df_temporary.rename(columns={df_temporary.columns[3]: "OeFG%"}, inplace=True) df_temporary.rename(columns={df_temporary.columns[11]:"DeFG%"}, inplace=True) df_temporary.rename(columns={df_temporary.columns[5]: "OTOV

浏览 10提问于2022-11-30得票数 1

1回答

如何分配列标题/名称pandas？

、、

我的pandas dataframe列如下： 0 0至9.03 1/ 10.17 2- 11.18 如何分配列名？

浏览 18提问于2020-01-15得票数 0

回答已采纳

2回答

使用scala读取Spark sql Dataframe中不明确的列名

、、

我在文本文件中有重复列，当我尝试使用spark scala代码加载该文本文件时，它被成功加载到数据框中，我可以通过df.Show()看到前20行。完整代码：- val sc = new SparkContext(conf) val hivesql = new org.apache.spark.sql.hive.HiveContext(sc) val rdd = sc.textFile("/...FilePath.../*") val fieldCount = rdd.map(_.split("[|]")).map(x => x.size).fir

浏览 13提问于2020-08-03得票数 1

回答已采纳

1回答

散列用户ID并创建临时表

、

我试图提取样本数据，但需要屏蔽/散列userid。我需要先构建一个临时表，因为我正在使用齐柏林飞艇，输出被截断，所以我正在构建一个临时表，以便可以从第三方工具(Razor )查询数据。下面是我用来掩蔽/散列userid的内容 CREATE TABLE user.temp_userdata_hashed AS SELECT *, md5(concat(userid, 'useridGUI')) as userid FROM medicaldata 这不需要CREATE，但是当我包含CREATE时，我得到了以下错误： org.apache.spark.sql.AnalysisE

浏览 3提问于2019-11-13得票数 0

23回答

如何在PySpark中更改dataframe列名？

、、、、

我来自熊猫背景，习惯于将CSV文件中的数据读入dataframe，然后使用简单的命令将列名更改为有用的内容： df.columns = new_column_name_list 但是，在使用PySpark创建的sqlContext数据文件中，同样的方法不起作用。我能想出的唯一简单的解决方案是： df = sqlContext.read.format("com.databricks.spark.csv").options(header='false', inferschema='true', delimiter='\t').load

浏览 12提问于2015-12-03得票数 304

回答已采纳

1回答

如何在Spark Scala中将行数据转置/透视到列？

、、、

我是Spark-SQL的新手。我在Spark Dataframe中有这样的信息 Company Type Status A X done A Y done A Z done C X done C Y done B Y done 我想像下面这样显示 Company X-type Y-type Z-type A done done done B pending done pending C done done pending

浏览 0提问于2017-12-28得票数 6

回答已采纳

1回答

如何将Spark (在DataBricks中)写入Blob存储(在Azure中)？

、、、、

我在DataBricks工作，在那里我有DataFrame。 type(df) Out: pyspark.sql.dataframe.DataFrame 我唯一想要的是，将这个完整的星火数据写入一个中。我找到了的帖子。所以我尝试了那个密码： # Configure blob storage account access key globally spark.conf.set( "fs.azure.account.key.%s.blob.core.windows.net" % storage_name, sas_key) output_container_path

浏览 4提问于2020-03-26得票数 1

回答已采纳

1回答

当使用数据集、大型java类和单例时，火花传递函数

、、

我在这里读过这篇文章： (参见将函数传递给Spark)，但是我的用例在我的案例类中使用类型化数据集。我试图使用单例对象来保存映射方法。我想知道如何最好地打包我需要为我的阶段优化性能的功能(将dataset从一种类型转换到另一种类型，并写入到parquet)。目前，阶段步骤花费了大约300万行(约1.5小时)的时间，大约880 MB的数据输出到s3中的拼板中。我在集群模式下运行，使用的是最小执行器= 3，最大执行器= 10，每个执行器上有4个核心，驱动内存为8gb。 -- 高级编码部分：我正在将一个案例类C1映射到另一个案例类C2。C1和C2大约有16个字段，包括java.sql.Time

浏览 3提问于2017-03-24得票数 1

1回答

如何在字典中正确使用reduce

、、、

我正在使用一个自定义函数作为reduce操作的一部分。对于下面的例子，我得到了下面的消息TypeError: reduce() takes no keyword arguments -我相信这是由于我在函数exposed_colum中使用字典mapping的方式-你能帮我修复这个函数吗？ from pyspark.sql import DataFrame, Row from pyspark.sql.functions import col from pyspark.sql import SparkSession from functools import reduce def proces

浏览 18提问于2020-02-05得票数 0

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。我该怎么做呢？

浏览 0提问于2015-04-15得票数 4

1回答

从火花中将许多文件写入拼花--缺少一些拼花文件

、、

我们开发了一个作业，在亚马逊S3 (s3a)中使用Spark2.3处理和编写大量文件。每个源文件都应该在S3中创建不同的分区。对代码进行了测试(使用较少的文件)，并按预期工作。但是，在使用实际数据执行之后，我们注意到一些文件(总数的一小部分)没有写入到parquet中。日志里没有错误或任何奇怪的东西。我们再次测试了丢失的文件的代码，它是否有效？我们希望在生产环境中使用代码，但是我们需要在这里检测出问题所在。我们写这封信的目的是： dataframe_with_data_to_write.repartition($"field1", $"field2").wri

浏览 0提问于2019-01-07得票数 2

回答已采纳

1回答

如何最好地处理模式冲突，将MongoRDD转换为DataFrame？

、、、、

我正在尝试从mongo数据库中读取一些文档，并在spark中解析模式。到目前为止，我已经成功地从mongo读取并使用由case类定义的模式将结果mongoRDD转换为DataFrame，但是有一种情况是，mongo集合有一个包含多个数据类型的字段(字符串数组和嵌套对象数组)。到目前为止，我只是将字段解析为一个字符串，然后使用spark的from_json()来解析新模式中的嵌套对象，但是我发现当一个字段不符合模式时，它返回模式中所有字段的null -而不仅仅是不符合的字段。是否有一种方法来解析这一点，以便只有与模式不匹配的字段才会返回null？ //creating mongo test da

浏览 6提问于2020-03-04得票数 1

回答已采纳

1回答

左外加入火花放电后下降功能不起作用

、、

我的火花放电版本是2.1.1。我正在尝试连接两个具有两个列( id和优先级)的数据文件(左外部)。我正在创建这样的数据格式： a = "select 123 as id, 1 as priority" a_df = spark.sql(a) b = "select 123 as id, 1 as priority union select 112 as uid, 1 as priority" b_df = spark.sql(b) c_df = a_df.join(b_df, (a_df.id==b_df.id), 'left').drop(

浏览 1提问于2019-02-11得票数 2

1回答

用另一个dataframe的列/合并替换pyspark列

、、、

我有两个数据文件，如下所示。预期产出也低于预期。数据格式的差异出现在“学院”列中，而第二个数据格式则缩短了一行。当df2和student_NAME匹配时，我想用df1中的'college‘栏代替student_ID中的'college’列。有人知道如何获得预期的输出吗？ import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.appName('sparkdf').getOrCreate() # list of students data da

浏览 1提问于2022-10-04得票数 -1

1回答

在PySpark中重命名重复列名或对其执行选择操作

、

代码： pdf=[(1,'a',4,'a',4.1,'d'),(2,'b',3,'b',3.2,'c'),(3,'c',2,'c',2.3,'b'),(1,'d',1,'d',1.4,'a')] df15 = spark.createDataFrame(pdf, ('x','y','z','a','b','a'

浏览 1提问于2021-09-15得票数 2

回答已采纳

1回答

用函数选择吗？

、

我正在查看这个SQL查询： SELECT tbl.id as id, tbl. as my_name, tbl.account as new_account_id, CONVERT_TIMEZONE('UTC', 'America/Los_Angeles', tbl.entry_time)::DATE AS my_time FROM tbl 我想知道我将如何将它转换为Pyspark？假设我将tbl作为一个CSV加载到Pyspark中，如下所示： tbl_dataframe = spark...load('/files/tbl.csv&

浏览 2提问于2021-10-14得票数 0

1回答

Spark dataframe(在Azure Databricks中)保存在数据湖(Gen2)上的单个文件中并重命名该文件

、、、

除了我的文件位于Azure Data Lake Gen2，并且我在数据库笔记本中使用pyspark之外，我正在尝试实现与此相同的功能，所以发布Spark dataframe save in single file on hdfs location。下面是我用来重命名文件的代码片段 from py4j.java_gateway import java_import java_import(spark._jvm, 'org.apache.hadoop.fs.Path') destpath = "abfss://" + contianer + "@

浏览 24提问于2020-01-24得票数 0

2回答

用Spark (字段名中的空格)将json映射到case类

、、、、

我试图用spark Dataset API读取json文件，问题是这个json在某些字段名中包含空格。这将是一场麻烦事。 {"Field Name" : "value"} 我的案例课需要这样 case class MyType(`Field Name`: String) 然后，我可以将文件加载到一个DataFrame中，它将加载正确的模式。 val dataframe = spark.read.json(path) 当我试图将DataFrame转换为Dataset[MyType]时，问题就出现了。 dataframe.as[MyType] 由StructSch

浏览 1提问于2017-10-27得票数 3

回答已采纳

1回答

使用具有相同列名(不同数据)的表连接数据集

、、

我希望加入多个具有相同名称的列的多个数据集，同时具有不同的数据。这可以重命名dataset列，同时将其转换为dataframe。但是，在使用数据集时，是否可以使用重命名或将前缀设置为列名。 Dataset<Row> uct = spark.read().jdbc(jdbcUrl, "uct", connectionProperties); Dataset<Row> si = spark.read().jdbc(jdbcUrl, "si", connectionProperties).filter("status = 'AC

浏览 0提问于2018-01-19得票数 0

回答已采纳

1回答

如何在scala中将赋值添加到空的dataframe现有列？

、、、

我正在读取一个csv文件，它终于有了|分隔符，而load方法使dataframe中的最后一列在Spark 1.6中没有名称和值 df.withColumnRenamed(df.columns(83)，"Invalid_Status").drop(df.col("Invalid_Status")) val df = sqlContext.read.format("com.databricks.spark.csv").option("delimiter","|").option("header",

浏览 18提问于2019-07-26得票数 1

3回答

Spark Dataframe中的重复列

、、、、

我在hadoop集群中有一个10 in的csv文件，其中包含重复的列。我尝试用SparkR分析它，所以我使用spark-csv包将它解析为DataFrame df <- read.df( sqlContext, FILE_PATH, source = "com.databricks.spark.csv", header = "true", mode = "DROPMALFORMED" ) 但是由于df有重复的Email列，如果我想选择这一列，它会出错： select(df, 'Emai

浏览 0提问于2015-11-20得票数 7

回答已采纳

1回答

为什么foreachRDD不使用DataFrame填充新的内容？

、、、、

我的问题是，当我将代码转换为流模式并将数据帧放入foreach循环时，数据帧会显示空表！我不填！我也不能将它放入assembler.transform()中。错误是： Error:(38, 40) not enough arguments for method map: (mapFunc: String => U)(implicit evidence$2: scala.reflect.ClassTag[U])org.apache.spark.streaming.dstream.DStream[U]. Unspecified value parameter mapFunc. v

浏览 3提问于2017-05-25得票数 0

回答已采纳

1回答

是否可以在Foundry转换中指定输出文件的名称？

、

我在Palantir中有一个PySpark转换，它输出到一个csv文件以导出到其他系统。目前，使用write_dataframe方法，文件的名称如下所示： spark/part-00002-cfba77d5-c6ce-4b2a-ac9a-59173c7ede5a-c000.snappy.csv 是否可以指定文件名，如"my_export.csv“？

浏览 13提问于2022-08-12得票数 3

2回答

星火数据集错误:此连接的双方都超出了广播阈值，计算它可能会非常昂贵。

、、、、

我在本地模式下使用Spark2.0.2。我有一个连接，它连接两个数据集。当使用spark或dataframe (非类型化DatasetRow )时，速度相当快。但是，当我使用类型化Dataset API时，我会得到下面的错误。线程"main“org.apache.spark.sql.AnalysisException中的例外情况:该连接的双方都超出了广播阈值，计算它可能会非常昂贵。要显式启用它，请设置spark.sql.crossJoin.enabled = true；我增加了"spark.sql.conf.autoBroadcastJoinThreshold"，

浏览 4提问于2016-11-24得票数 2

回答已采纳

2回答

将Spark DataFrame存储为.csv时重命名文件

、、

我目前正在将spark DataFrame作为.csv文件存储在Azure上的blob存储中。我正在使用下面的代码。 smtRef2_DF.dropDuplicates().coalesce(1).write .mode("overwrite") .format("com.databricks.spark.csv") .option("header", "true") .save(csvBlobStorageMount + "/Output/Smt/SmtRef.csv") 这是可行的，但它会创建

浏览 0提问于2018-08-29得票数 0

2回答

在s3上星火Dataset Parquet分区创建临时文件夹

、、、、

星星之火(version=2.2.0)没有DirectParquetOutputCommitter。作为一种选择，我可以用 dataset .option("mapreduce.fileoutputcommitter.algorithm.version", "2")//magic here .parquet("s3a://...") 以避免在_temporary上创建S3文件夹。在我将partitionBy设置为Dataset之前，一切都正常。 dataset .partitionBy("a", "

浏览 0提问于2018-02-01得票数 2

回答已采纳