Scala代码，用于替换列表形式的dataframe中的列的空值_替换Pyspark Dataframe中列中的空值_用列表替换dataframe中的每个空值 - 腾讯云开发者社区

scala、null、spark-dataframe

有没有一种方法可以删除spark dataFrame中只包含空值的列？(我使用的是scala和Spark 1.6.2) 目前我正在做这件事： var validCols: List[String] = List() for (col <- df_filtered.columns){ val count = df_filtered .select(col) .distinct .count println(col, count) if (count >= 2){ validCols ++= List(col) } } 构建至少包含两个不

浏览 6提问于2016-09-11得票数 7

1回答

创建空的dataframe Java Spark

java、dataframe、apache-spark

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

1回答

时间戳StructField中的空值

scala、apache-spark

如何处理时间戳列中的空值？我将源数据保存在列表中(sql的结果) List([222,1,222,222,2012-01-28 23:37:06.0,()], [220,1,220,220,2012-04-24 23:37:08.0,()], [220,1,220,220,2008-03-18 15:06:09.0,()], ... 在最后一列中，空值与时间戳混合。但是当我试图将它作为RDD加载时 //Create RDD val rdd = spark.sparkContext.makeRDD(res.toList) // Create schema

浏览 0提问于2018-06-21得票数 0

回答已采纳

1回答

检查一个列表中的任何值是否存在于另一个列表中(最快的解决方案)

python、python-3.x、pandas

我有一个具有1100万行和10列的DataFrame。每一列都是一个元素列表(可以是一个空列表，也可以是一个包含最多5个元素的列表)。假设我有另一个包含100000个元素的lsit，我只想过滤DataFrame中的那些行，对于这些行，给定的列(比如columnA)包含了我的100000个元素的大列表中的任何元素。这是我目前的代码： df = df[df["columnA"].apply(lambda x: any(value in valuesList for value in x))] 但是计算它需要花费大量的时间。我怎样才能加快代码的速度？

浏览 1提问于2022-06-30得票数 0

1回答

在该行的任何列中选择至少一个空或空的行。

scala、apache-spark

从一个dataframe中，我想创建一个新的dataframe，其中任何列中至少有一个值为null或空，在Spark1.5/ scala中。我正在尝试编写一个通用函数来创建这个新的dataframe。在这里，我传递数据文件和列列表，并创建记录。谢谢

浏览 4提问于2017-07-25得票数 4

回答已采纳

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳

1回答

列表中的搜索元素出现在dataframe列中。

scala

我是Scala新手，在这个用例中苦苦挣扎，我有一个名称列表，我需要搜索这些名称中的任何一个，我是DataFrame的一个特定列。我的DataFrame有两列，如下所示： no. |description 12342|my name is jack 2345 |daniel is my neighbour 2122 |his wife sofia is my schoolmate 我有一个名称列表，比如名称列表{"jack","daniel"}，现在我需要遍历DataFrame的description列，看看列表中的任何单词是否存在于description列

浏览 1提问于2018-05-24得票数 1

回答已采纳

1回答

在java中使用Apache-Spark在Dataset<Row>中使用空字符串填充空值

java、apache-spark

请不要将此问题标记为重复。我已经检查了下面的问题，它给出了python或scala的解决方案。和for java的方法是不同的。How to replace null values with a specific value in Dataframe using spark in Java? 我有一个数据集Dataset<Row> ds，它是我通过读取拼图文件创建的。因此，所有列值都是字符串。其中一些值为空。我使用.na().fill("")将null值替换为空字符串 Dataset<Row> ds1 = ds.na().fill(""

浏览 70提问于2019-05-06得票数 1

回答已采纳

1回答

只在一列中替换空值，而不是对所有列替换空值。

python、apache-spark

问题：为什么下面的代码只在第一列上用空值替换空值，而不替换具有空值的其他列？例如，如果column1和column2没有空值，而column3、column6、column9有空值，则只能在column3中替换空值，而在column6和column9中则不替换空值。我们如何解决这个问题？注意:所有列都是字符串类型的。我使用的是‘Python’scala。 Details：我在使用。将csv文件读取到Spark dataframe可以正常工作，但是当将该数据导入到server表中时，只有第一列的空值才会替换为空字符串。csv文件大约有50列，其中许多列都有一些空值。备注：我不想使用可选参数su

浏览 16提问于2022-05-09得票数 0

1回答

如何删除包含特定值的行，同时维护空值的行？

scala、apache-spark、apache-spark-sql

我在Spark Scala中有以下小演示DataFrame： Type Description 0 1 Action 1 1 Drop: Action 1 2 Action2 我需要删除Description列中包含" drop“的所有行，同时维护Description为空的行。预期结果： Type Description 0 1 Action 1 2 Action2 如果我运行下面显示的代码，我会得到以下输出(删除了Description为空的行)。 Type Description 1

浏览 18提问于2019-07-14得票数 0

回答已采纳

3回答

火花数据中的空值

scala、apache-spark

我正试图将数据格式插入卡桑德拉： result.rdd.saveToCassandra(keyspaceName, tableName) 然而，一些列值是空的，因此我得到了异常： java.lang.NumberFormatException: empty String at sun.misc.FloatingDecimal.readJavaFormatString(FloatingDecimal.java:1842) at sun.misc.FloatingDecimal.parseFloat(FloatingDecimal.java:122) at java.lang.Float.pars

浏览 7提问于2017-05-08得票数 2

回答已采纳

1回答

DataFrame na()填充方法和不明确引用的问题

apache-spark、dataframe

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我构建了一个"table.column“-> "value”的映射，并将其传递给fill方法。但我得到的是异常而不是成功:(。我有什么选择？我看到有一个dataFrame.withColumnRenamed方法，但我只能重命名一列。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的dataFrame中的表别名是什么？给定： scala>

浏览 4提问于2016-02-28得票数 3

1回答

如何在DataFrame中用空数替换数字？

scala、apache-spark、dataframe、apache-spark-sql

这可能很奇怪，但我想知道如何使用DataFrame替换整个Column的null使用Scala。假设我有一个可空的DoubleType列，名为col。在那里，我想用一个null替换所有与(1.0 ~ 10.0)不同的数字。我尝试了下一个代码，但没有令人满意。 val xf = df.na.replace("col", Map(0.0 -> null.asInstanceOf[Double]).toMap) 但是，正如您在Scala中所认识到的，当您将一个null转换为一个Double时，它变成了一个0.0，这不是我想要的。另外，我不知道有什么方法可以用一系列的价值观来

浏览 4提问于2016-02-23得票数 2

回答已采纳

1回答

删除熊猫数据框架中的空列

python、pandas、dataframe、data-cleaning

如何删除熊猫数据帧中的空列。但是，这些空列没有任何NaN值。在运行dataframe之后，我获得了这种类型的输出。我想移除这些空列，这些列附在图像中。在我的dataframe中，没有NaN或NA值，只有空条目。

浏览 1提问于2022-03-28得票数 0

回答已采纳

2回答

如何在Scala中将列表列表转换为DataFrame？

scala、apache-spark

我正在学习星火和Scala，并在星火REPL中进行实验。当我试图将列表转换为DataFrame时，它的工作方式如下： val convertedDf = Seq(1,2,3,4).toDF("Field1") 但是，当我尝试将列表列表转换为具有两列( DataFrame，field1，field2)的列表时， java.lang.IllegalArgumentException:需求失败:列数不匹配错误信息： val twoColumnDf =Seq(Seq(1,2,3,4,5), Seq(5,4,3,2,3)).toDF("Field1", (Fi

浏览 1提问于2018-06-22得票数 0

回答已采纳

1回答

如何检查dataframe列不为空的值？

apache-spark-sql

我希望从dataframe中读取列的值，并检查该值是否为空，并且值的长度为<= 500。我的代码: import org.apache.spark.sql.functions._ object OmegaProcess { // Some scala lines of Code .... val line_flag = generateomegaLineFlag(omegaDF) def generateomegaLineFlag(omegaDF: DataFrame): Int = { if (omegaDF("omega_file_

浏览 2提问于2017-05-31得票数 0

回答已采纳

1回答

Spark Scala -处理空DataFrame

scala、apache-spark

我有一个特定的要求，其中我需要检查空的DataFrame。如果为空，则填充默认值。这是我尝试过的，但没有得到我想要的。 def checkNotEmpty(df: org.apache.spark.sql.DataFrame, col: String):org.apache.spark.sql.DataFrame = { if (!df.rdd.isEmpty()) df else df.na.fill(0, Seq(col)) } val age = checkNotEmpty(w_feature_md.filter("age='22'"

浏览 4提问于2016-09-16得票数 2

1回答

如何在Spark中将时间戳列转换为毫秒长列

apache-spark、apache-spark-sql

在Spark中，将Timestamp列转换为毫秒时间戳Long列的最短和最有效的方法是什么？下面是一个从时间戳到毫秒的转换示例 scala> val ts = spark.sql("SELECT now() as ts") ts: org.apache.spark.sql.DataFrame = [ts: timestamp] scala> ts.show(false) +-----------------------+ |ts

浏览 1提问于2019-06-18得票数 2

1回答

如何从scala/pyspark dataframe中的列表中创建列？错误:不支持该特性：“List()的文本”

scala、apache-spark

enter code here我正在练习在数据仓库中添加一个列表。我可以开发udf并注册，然后在dataframe上应用，但我想尝试一种不同的方法，即提取list from dataframe col和它们map it，然后在新列中提取readd to the original dataframe。 val df = spark.createDataFrame(Seq(("A",1),("B",2),("C",3))).toDF("Str", "Num") +---+---+ |Str|Num| +---+---+

浏览 1提问于2022-09-13得票数 0

1回答

如何为给定列添加行和值？

java、apache-spark、apache-spark-sql

浏览 5提问于2017-06-26得票数 0

回答已采纳

3回答

如何将多个变量传递给python中的函数？

python、pandas

我想比较几对pandas数据格式中的一个列，并将共享值写入一个空列表中。我已经编写了一个函数，它可以用一对数据文件来完成这个任务，但是我似乎无法将它放大。 def parser(dataframe1,dataframe2,emptylist): for i1 in dataframe1['POS']: for i2 in dataframe2['POS']: if i1 == i2: emptylist.append(i1) 其中'POS

浏览 15提问于2015-04-20得票数 0

回答已采纳

1回答

Spark在添加随机双列时，在所有行中都有重复值。

scala、apache-spark、dataframe

我试图在dataframe中添加一个新列。新列包含随机双值。该问题是DataFrame中所有行的新列中的值重复。我使用scala.util.Random类来生成。我试图简单地向dataframe添加一个新列，就像在类似的帖子中建议的那样。我试图将DataFrame更改为Dataset并添加列。有一种工作方法--在驱动程序上收集数据，并添加到包含随机双倍的元组新元素列表中，但是对于大量的数据来说，这是一个糟糕的解决方案，所以我不能使用这个解决方案。 SmarkVersion2.2.0，我使用了Spark来实现 List(("a", 1), ("b", 2), (

浏览 2提问于2019-04-26得票数 2

回答已采纳

2回答

将熊猫列中的变量长度列表拆分为列

python、pandas、dataframe

在“熊猫数据”中，我有这样的专栏： +----------------------------------------------+ | carContactTel | +----------------------------------------------+ | [] | | ['tel 432424'] | | ['tel 84958358']

浏览 2提问于2020-08-08得票数 1

回答已采纳

2回答

用单个ID列减去DataFrames -重复列的行为不同

apache-spark、apache-spark-sql

我正在尝试将两个DataFrames与相同的模式(在Spark1.6.0中，使用Scala)进行比较，以确定在新表中添加了哪些行(即在旧表中不存在)。我需要通过ID来完成这个任务(即检查单个列，而不是整行，以查看什么是新的)。有些行在不同版本之间可能发生了更改，因为它们在两个版本中都具有相同的id，但其他列已经更改--我不希望这些列出现在输出中，因此不能简单地减去这两个版本。根据各种建议，我在所选的ID列上做了一个左外部联接，然后从联接的右侧选择列中带有空的行(表示它们在表的旧版本中不存在)： def diffBy(field:String, newer:DataFrame, older:

浏览 6提问于2017-07-14得票数 1

回答已采纳

2回答

我怎样才能用熊猫的零填充空的数据呢？菲尔纳

python、pandas

进程正在创建一个dataframe，有时该进程返回一个没有值的空dataframe。在这种情况下，我希望对所有列使用零填充dataframe。我试过output_df.fillna(value=0, inplace=True)，但它不起作用。数据仍然是空的。

浏览 5提问于2022-03-03得票数 0

6回答

计数星点DataFrame中的非空值数。

scala、apache-spark、apache-spark-sql、count、null

我有一个包含一些列的数据框架，在进行分析之前，我想了解数据框架有多完整。因此，我希望过滤数据帧，并为每一列计数非空值的数量，可能会返回一个dataframe。基本上，我试图实现与用表示的结果相同的结果，但使用Scala而不是Python。说你有： val row = Row("x", "y", "z") val df = sc.parallelize(Seq(row(0, 4, 3), row(None, 3, 4), row(None, None, 5))).toDF() 如何总结每个列的非空值数，并返回一个具有相同列数的数据，并返回一个有

浏览 5提问于2017-01-20得票数 7

回答已采纳

1回答

R中的合并列表

r、list、merge

我有一个列表列表，其中一些列表为NULL (不包含任何内容)，有些列表包含12列和1行。让我们说，这个列表名为: pages。我想将包含12列和1行的列表合并到一个dataframe中。这样我就有了12列和x行的最后数据。我第一次尝试： final_df <- Reduce(function(x,y) merge(x, y, all=TRUE), pages) 它生成了一个包含正确的12列但没有行的dataframe，因此它是空的。然后我试着： listofvectors <- list() for (i in 1:length(pages)) {listofvectors

浏览 0提问于2018-04-24得票数 0

回答已采纳

2回答

scala中几个列的平均计算

scala、apache-spark

我正在寻找一种方法来计算一些统计数据，例如，使用Scala计算星火中几个选定列的平均值。考虑到data对象是我的DataFrame，很容易计算出一列的平均值。 data.agg(avg("var1") as "mean var1").show 此外，我们还可以很容易地计算按其他列的值编制的平均交叉表，例如： data.groupBy("category").agg(avg("var1") as "mean_var1").show 但是，我们如何计算DataFrame中列列表的平均值？我试着做这样的事，但没成功： s

浏览 3提问于2017-08-14得票数 2

回答已采纳

1回答

我希望从dataframe中创建变量，并需要在scala代码中使用。

scala、apache-spark、apache-spark-sql

我想从dataframe中创建变量，并且需要在scala代码中使用(我想对每一行1乘1，每次在变量中使用列值，有人能帮忙吗？这是y dataframe： \+---+--------------------+------------------------------------------------------------------+---------------------------+-------------------------------------------------------------------------+----------+ |id |table1_nam

浏览 5提问于2022-03-22得票数 0

2回答

Regex与dataframe列值匹配

scala、apache-spark

我想使用dataframe列在Map[String,List[scala.util.matching.Regex]]之间执行查找。如果任何一个List[scala.util.matching.Regex]与dataframe列值匹配，那么它应该从Map[String,List[scala.util.matching.Regex]]返回key。 Map[String,List[scala.util.matching.Regex]] = Map(m1 -> List(rule1, rule2), m2 -> List(rule3), m3 -> List(rule6))) 我想迭

浏览 4提问于2020-02-06得票数 0

回答已采纳

2回答

熊猫使用多个列表填充列

python、pandas、dataframe

我正在尝试用多个不同大小的列表填充两个pandas列。举个例子，我有一个列表，第一列是“血管成形术，主动脉，动脉”，第二列是"251,2882,401,4019,412“ 首先，我尝试像这样附加每个列表： matches.code_matches.append(code_series) 这就产生了这个TypeError： TypeError: cannot concatenate object of type '<class 'list'>'; only Series and DataFrame objs are valid 因此，我尝试将

浏览 28提问于2021-02-09得票数 0

2回答

比较星火中的两种模式(列名+空)

scala、apache-spark

我知道如何使用zip + forall比较Scala中的两个列表。我的问题是如何比较两个DataFrame模式。也就是说，我们希望将列名与它们的可空属性相匹配。我的想法是使用散列映射存储{列名: nullable}，并进行比较。我想这是可行的，但是还有其他的习惯方式吗？

浏览 3提问于2018-05-07得票数 3

回答已采纳

2回答

根据条件删除dataframe中的行，dataframe vs list boolean？

python、pandas

import pandas as pd data = [['a',1],['b',2],['c',3]] df = pd.DataFrame(data, columns = ['letter', 'number'] exclude_list = [2, 4, 6] 我想将df中的第2行(其中“==”为2)更改为空/nan。我希望通过将"number“列与排除列表进行比较来实现此目的，如果存在匹配，则排除该行。

浏览 0提问于2020-08-24得票数 2

1回答

在Apache Spark DataFrame中，如何删除所有非None值都相同的列？

scala、apache-spark、apache-spark-sql

我在Apache Spark SQL中有一个DataFrame，我想删除所有not None值都相同的列。所以在一个虚拟的例子中 df | A | B | C | 1 2 3 NaN 2 4 1 2 NaN 1 2 5 我只想保留C列 df_filter | C | 3 4 NaN 5 在Python中，我将通过以下方式完

浏览 25提问于2021-10-27得票数 2

回答已采纳

2回答

试图在星火DataFrame上使用地图

java、apache-spark、java-8、apache-spark-sql

我最近开始对Spark和Java进行实验。一开始，我使用WordCount进行了一个著名的RDD示例，一切都如愿以偿。现在，我正在尝试实现我自己的示例，但使用的是DataFrames而不是RDD。所以我从一个文件中读取一个数据集 DataFrame df = sqlContext.read() .format("com.databricks.spark.csv") .option("inferSchema", "true") .option("delimiter", ";&

浏览 1提问于2017-03-02得票数 20

1回答

星星之火:未能将包含空值的布尔列发送到Oracle

oracle、scala、apache-spark、apache-spark-sql

我有一个包含布尔列(TRUE、FALSE、NULL)的dataframe。当我使用Spark2 Scala将此数据发送到Oracle19c中的现有表时，由于错误: java.sql.SQLException:无效列类型: 16，它失败了。但是，当它们不是dataframe中的空值时，任务就成功地完成了。此外，如果我将一个空值直接插入到Oracle中的布尔字段中，我就没有问题(这只是为了在Oracle中直接测试空值)。我使用Spark在Oracle中编写数据的方式如下： df.write.mode(SaveMode.Append).jdbc(url, tableName, connectio

浏览 2提问于2021-03-21得票数 1

1回答

Python Pandas - 'DataFrame‘对象没有属性'str’- .str.replace错误

python、pandas、str-replace

我正在尝试将panda数据帧中80列的"，“替换为"”。我已经创建了一个要迭代的标头列表： headers = ['h1', 'h2', 'h3'... 'h80'] 然后我使用一个标题列表来替换多个列的字符串值，如下所示： dataFrame[headers] = dataFrame[headers].str.replace(',','') 这给了我这个错误: AttributeError：'DataFrame‘对象没有'str’属性当我只在一个头文件上尝试同样的方

浏览 22提问于2021-03-03得票数 0

回答已采纳

1回答

数据过滤给NullPointerException

scala、apache-spark、dataframe、nullpointerexception、apache-spark-sql

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

当foldLeft应用于dataFrame时，如何理解输出数据？

scala、apache-spark

我试图使用Scala中的foldLeft & regex_replace从Dataframe的字符串列中删除新的行字符。在读取了postgres上的关系数据库管理系统表: public.test_sid之后创建了数据。该表有4列：id, id1, id2, id3和id3中有一个新的行字符。我就是这样写逻辑的： var conf = new SparkConf().setAppName("Spark-JDBC").set("spark.executor.heartbeatInterval","120s").set("spark.

浏览 0提问于2018-08-27得票数 1

回答已采纳

2回答

pandas数据帧计数唯一列表

python、pandas、dataframe

如果dataframe中的列的类型是int、float或string，我们可以使用columnName.unique()获取它的唯一值。但是如果这个列是一个列表，比如1，2，3，我怎么才能得到这个列的unique呢？

浏览 14提问于2017-12-20得票数 2

回答已采纳

2回答

熊猫从两栏中的一列中选择一个优先值作为新列。

python-3.x、pandas、dataframe、series

我有一个Pandas DataFrame，它有两列“互补”数据。对于任何给定的行，有三种可能性： 1)列A有一个非空值，B列有一个空值，NaN，我想用列A中的非空值来替换。 2)列A有一个空值NaN，我想用B列中的非空值替换它。 3) A列和B列都有空值NaN，这意味着我将保留NaN作为该行的值。下面是我的DataFrame的简化版本： df1 = pd.DataFrame({'A' : ['keep1', np.nan, np.nan, 'keep4', np.nan], 'B' : [

浏览 1提问于2019-12-02得票数 3

回答已采纳

3回答

将值追加到列中的空列表中

python、pandas、dataframe

考虑下面的dataframe，列c中总是有一个空列表。我需要计算一些东西并将其添加到列表中，例如，将a和b列的值附加到c列的空列表中。给定df 预期产出：

浏览 12提问于2022-08-25得票数 0

回答已采纳

1回答

R按名称选择列: dataframe$x返回NULL

r、dataframe、shiny

我有一个数据框，我希望从列名标识的列中逐列绘制所有值。下面的代码只返回五个空值，其中五个是数据框中的列数 for(x in names(DataFrame)){ print(DataFrame$x) } 这是一个简化的版本，但最终目标是一个闪亮的应用程序，它可以将单个列转换为具有此功能的selectInput框。然后，我可以通过更改电子表格来修改输入框的数量。如下所示 for(x in names(DataFrame)){ fluidRow( column(3, selectInput(paste("Input","x"), h5

浏览 20提问于2019-01-31得票数 0

1回答

星星之火DataFrame -使用Java选择列列表

java、scala、apache-spark、apache-spark-sql

我试图使用Java从DataFrame中选择列列表。示例Java代码： List<String> colList = Arrays.asList(new String[] { "column1", "column2", "column3" }); df.selectExpr((String[])colList.toArray()).show(); 在Java中，我必须使用selectExpr而不是select。是否还有使用Java选择列列表的其他方法。但是在Scala中，我可以做下面这样的事情。示例Scala代码： val co

浏览 0提问于2017-12-12得票数 0

1回答

从csv读取数据将返回空值。

scala、csv、apache-spark

我试图使用Scala和Spark从csv读取数据，但是列的值为null。我试着读取csv的数据。我还提供了一个易于查询数据的模式。 private val myData= sparkSession.read.schema(createDataSchema).csv("data/myData.csv") def createDataSchema = { val schema = StructType( Array( StructField("data_index",StringType, nullable = false),

浏览 0提问于2019-09-11得票数 2

1回答

将列表中的空值替换为Scala中的另一个值

list、scala、nullpointerexception、null

我尝试使用map将Scala列表中的空元素替换为空值。我目前有： val arr = Seq("A:B|C", "C:B|C", null) val arr2 = arr.map(_.replaceAll(null, "") ) 这给了我一个NullPointerExpection。做这件事最好的方法是什么？

浏览 14提问于2016-09-21得票数 2

回答已采纳

1回答

将常数值添加到Spark dataframe中的列中

scala、apache-spark、apache-spark-sql

我有一个火花数据框架，如下所示 id person age 1 naveen 24 我希望在每个列值中添加一个常量"del“，如下所示，除了dataframe中的最后一列， id person age 1del naveendel 24 有人能帮助我如何使用Scala在Spark中实现这一点吗？

浏览 1提问于2016-12-28得票数 2

回答已采纳

2回答

如何在spark scala Dataframe中找到所有值都为null或NA值的列的列表？

apache-spark

如何在spark scala Dataframe中找到所有值都为null或NA值的列名列表？我已经尝试了下面的代码，我没有得到预期的结果。 val cond = df8.columns.map(x => col(x).isNull || col(x) === "NA") val df = Seq((Some(1.0), Some("NA"), null).toDF("A", "B", "C") 输出列表应包含B和C列预期结果：List[B,C]

浏览 28提问于2019-07-16得票数 1

回答已采纳

4回答

跳过列熊猫/用逗号分隔的多个空列表

python、python-3.x、pandas

我正在尝试将一些数据写入csv文件。但是，F到N列应该是空的。这是我正在使用的数据格式： data = [['car'], ['bus'], ['laptop'], ['tv', 'chair'], ['music', 'pop'], ['shoe']] dataFrame = pandas.DataFrame(data).transpose() 前五个列表分别位于A至E列中。例如，'laptop'在列C下，但是，在当前代码'shoe'

浏览 0提问于2018-10-02得票数 1

回答已采纳

1回答

熊猫DataFrame -用旧日期替换Datetime列的空值

python、pandas

问题：如何将Pandas DataFrame中的datetime列的NULL值替换为类似于1900-01-01 00:00:00.000的内容我使用Pandas数据帧将大型数据文件导入到SQL Server 2019表中。下面的代码正确地将数值列的空值替换为0，将对象(字符串)列的空值替换为空字符串。但是它不会将datetime列的空值更改为1900-01-01 00:00:00.000。 import sqlalchemy as sq import datetime import pandas as pd import numpy as np ............ .........

浏览 5提问于2022-04-15得票数 0