在scala中用相同的条件替换数据帧中的两个不同的列值，复杂度最低_基于两个数据帧中列的值的条件替换_在Pandas的多列中替换具有不同条件的值 - 腾讯云开发者社区

、

有没有工具可以生成scala代码的圈复杂度？谢谢

浏览 4提问于2011-06-13得票数 29

1回答

在spark/scala中的另一个数据框中查找多个列值

、、、

我有两个数据帧A和B。 A有30列- reason1,reason2.......reason30 B有两列- reason, Value 现在，我需要在B中查找所有以reason*开头的列，并在数据帧A的一列中获取相应的值。因此，最终的数据帧将具有reason1,reason2.......reason30, value 我试图将每一列与其他数据帧连接起来，但这不是一种整洁的方法。请帮助我使用spark/scala获得优化和快速的解决方案。

浏览 9提问于2021-05-17得票数 0

1回答

将文本预处理函数应用于scala spark中的dataframe列

、、

我想创建一个函数来处理我在处理文本数据时遇到的问题。我熟悉Python和pandas数据帧，我通常认为解决问题的过程是使用一个函数，然后使用pandas apply方法将该函数应用于列中的所有元素。然而，我不知道从哪里开始实现这一点。因此，我创建了两个函数来处理替换。问题是我不知道如何在这个方法中放入多个替换。我需要对三个独立的数据帧进行大约20次替换，所以用这种方法解决这个问题需要60行代码。有没有一种方法可以在一个函数中进行所有替换，然后将其应用于scala中数据帧列中的所有元素？ def removeSpecials: String => String = _.replaceA

浏览 9提问于2019-12-26得票数 0

回答已采纳

1回答

Apache Spark join操作的弱伸缩性差

、、、

我在Apache Spark上运行"join“操作，发现没有弱可伸缩性。如果有人能解释这一点，我将不胜感激。我创建了两个数据帧("a"，"b")和("a"，"c")，并通过第一列连接这两个数据帧。我为“一对一”连接生成数据帧值。此外，我使用相同的分割器来避免混洗。数据帧中的行数- 1024 * 1024 * 16 * cores_total (cores_total -在其上启动程序的核心总数)。列"a“由随机Int值组成，"b”列的所有值等于1，"c“列的所有值等于2。理论上，随着数据大小和

浏览 0提问于2017-10-04得票数 3

1回答

如何将Spark dataframe添加到另一个数据帧的底部？

、、

我可以使用withcolumn向数据帧中添加新列。但是在scala中，我如何向DataFrame添加新行呢？我正在尝试将一个数据帧添加到另一个数据帧的底部。因此，无论是如何在scala中添加行，或者如何将DataFrame添加到另一个行的底部，都会有所帮助。谢谢

浏览 0提问于2015-11-06得票数 23

回答已采纳

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

3回答

是否有可能将二次(或更高)复杂度降低为线性？

、、

我正在处理一个视频文件，以找出两个帧块之间的相似性，假设F和G表示为一维元素数组，两者的大小都相同，可以解释为宽度为W和高度为H的像素的正方形，其中W和H是不同的。为了找出帧块的相似性，我应该使用绝对差异之和SAD，它是给定大小为Bw x Bh的块B的每个帧的相同位置上的像素的所有差异的总和。作为额外的，我还需要所有SAD值的平均值。考虑到给定W、H、Bw和Bh的值，可以找到一行中的所有块和一列中的所有块，因此，通过将这两个值相乘，可以找到大小为Bw x Bh的所有块，我认为最快的实现是：使用sad_total变量循环一列中的所有块，然后循环每行中的所有块，其中用于获得单个块的curr

浏览 34提问于2020-07-17得票数 0

3回答

Scala通过表达式向dataframe添加新列

、、

我将使用表达式将新列添加到数据帧中。例如，我有一个数据帧 +-----+----------+----------+-----+ | C1 | C2 | C3 |C4 | +-----+----------+----------+-----+ |steak|1 |1 | 150| |steak|2 |2 | 180| | fish|3 |3 | 100| +-----+----------+----------+-----+ 我想用表达式"C2/C3+C4

浏览 0提问于2017-09-07得票数 16

回答已采纳

1回答

动态创建spark中的多列

、、、、

我有字典里有这样的信息， dict_segs = {'key1' : {'a' : {'col1' : 'value1', 'col2' : 'value2', 'col3': 'value3'}, 'b' : {'col2' : 'value2', 'col3' : 'value3'}, 'c' : {&

浏览 4提问于2017-09-11得票数 1

回答已采纳

2回答

比较两个数据帧并将结果存储在另一个数据帧中

、、、、

我有两个这样的数据帧:第一个有一列720行(dataframe A)，第二个有10列720行(Dataframe B)。数据帧仅包含数值。我尝试这样比较它们:我想遍历数据帧B的每一列，并将该列的每个单元(行)与数据帧A中的相应行进行比较。(例如:对于数据帧B的第一列，我将第一行与数据帧A的第一行进行比较，然后将B的第二行与A的第二行进行比较，依此类推。) 基本上，我想逐行比较数据帧B的每一列与数据帧A中的单个列。如果dataframe B中的值小于或等于dataframe A中的值，我想将+1添加到另一个dataframe (或列表，取决于它如何更容易)。最后，我希望删除dataframe

浏览 0提问于2020-10-09得票数 0

2回答

熊猫数据帧比较与替换值

、、

我有两个熊猫数据框架，如下所示。列“否”是一个常见的字段。基于“否”，我希望替换第一个数据帧列“总计”中的值。条件是：在任何时候'No‘匹配，从dataframe2中获取'Marks1’值，然后在'Total‘列中替换。如果'Marks1‘为空，则获取'Marks2’值并在‘Marks2’中替换。如果两者都为空(Marks2 1/Marks2 2)，则在“Total”列中用空替换。最后的结果应该在数据frame1中。这两个数据帧都有几十万条记录。 Data frame1 No|Total 1234|11 2515|21 3412|32 4854| 77

浏览 3提问于2020-06-09得票数 1

回答已采纳

1回答

仅向上一步填写数据帧中的列

我想在数据帧中用一个变量来填充一步。 > id <- rep(1:3,each=2) > trt <- rep(c("A","B"),3) > score <- c("1", "","", 3, "",6) > df <- data.frame(id,trt,score) > df id trt score 1 1 A 1 2 1 B 3 2 A 4 2 B 3 5 3

浏览 1提问于2019-12-16得票数 0

回答已采纳

3回答

在Spark scala上优化where请求

、

我是Apache Spark (和Scala)的新手，我想在读取csv文件后立即应用一个简单的sql请求，并将其加载到DF上，而不需要创建额外的数据帧或临时视图或表。这是初始请求： SELECT DISTINCT city from cities WHERE id IN ("10", "20") AND year IN ("2017", "2018") 这是我在Scala上尝试的： val cities = spark.read.options(Map("header" -> "true"

浏览 15提问于2018-12-25得票数 0

1回答

在R中，如果数据帧只有一列，为什么从数据帧中选择行会将数据作为向量返回？

、

假设我们想要逐行访问数据帧中的数据。示例是简化的，但当按行名对数据帧排序时，例如(df[order(row.names(df)])，我们使用相同的技术。如果数据框有一列，我们将返回一个原子向量： > df x1 a x b y c z > df[1, ] # returns atomic vector [1] x 如果数据框有两列，我们将得到一个包含行名的单行数据框： > df x1 x2 a x u b y v c z w > df[1, ] # returns data frame X1 X2 a x

浏览 0提问于2011-10-06得票数 5

回答已采纳

1回答

DataFrame na()填充方法和不明确引用的问题

、

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我构建了一个"table.column“-> "value”的映射，并将其传递给fill方法。但我得到的是异常而不是成功:(。我有什么选择？我看到有一个dataFrame.withColumnRenamed方法，但我只能重命名一列。我有涉及多个列的连接。我是否只需要确保存在一组惟一的列名，而不管我应用na().fill()方法的dataFrame中的表别名是什么？给定： scala>

浏览 4提问于2016-02-28得票数 3

2回答

如何在excel的同一列中应用多个条件

、

在这里，我想应用多个条件，在同一列，但使用的国家，没有得到适当的输出。Excel值：- Column 1 Column 2 Y a Y b Y c Y d N s N b 试行公式：=SUM(B:B，{"a"，“b”}) 预期产出：-2 附加问题：-另外，我想在第1栏中用"Y“过滤，在第2栏中用"a”、"b“过滤，输出应该是

浏览 2提问于2014-10-28得票数 0

回答已采纳

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。 Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示列标题。熊猫数据帧头 Spark Scala数据帧头我知道你可以通过使用.columns在scala dataframe中获得列标题，但是打印它不会沿着数据列显示标题，这使得它很难理解。

浏览 3提问于2018-06-13得票数 2

1回答

如何解决“无法对具有非np.nan值的混合类型执行原地布尔值设置”的错误

、、

当列满足特定条件时，我希望在pd.DataFrame中用0填充np.nan。 import pandas as pd import numpy as np from datetime import datetime as dt df = pd.DataFrame({'A': [np.datetime64('NaT'), dt.strptime('201803', '%Y%m'), dt.strptime('201804', '%Y%m'), np.datetime64('NaT'

浏览 32提问于2019-05-11得票数 2

回答已采纳

1回答

包含空格的列的saveAsTable失败

、、、、

我有一段pyspark代码，用于将数据帧转换为物理表： df.write.mode('overwrite).saveAsTable('sometablename') 如果数据帧df包含名称中包含空格的列，则会失败，并显示以下错误： 18/03/08 10:33:29 ERROR CreateDataSourceTableAsSelectCommand: Failed to write to table pivot_up_spaces_Export_Data_4 org.apache.spark.sql.AnalysisException: Attribute name

浏览 4提问于2018-03-08得票数 1

1回答

多约束协方差型参数

、、

我正在学习scala中类型方差和界限的概念，以及如何使用它们。我遇到了下面关于堆栈溢出的问题，其中一个解决方案提到了如何防止scala泛化这些类型。下面是在解决方案中发布的代码。在下面的代码中，添加一个新的类型参数C有什么帮助？我理解B是如何被约束的(作为A的超级类型和水果的子类型)。但是我完全不知道C在这里做什么。为什么它应该是超级类型A为什么隐含证据要求B是C的亚型？以及为什么在添加橙色对象列表时出现了一个不相关的错误:果树不是香蕉的子类型。有人能解释一下吗？我猜想，为了满足第一个约束，橘子对象被推断为水果对象，但后来又失去了为什么它说水果不是香蕉的一个亚型。 case class

浏览 1提问于2019-05-05得票数 2

回答已采纳

1回答

如何在java中更新dataframe的所有列

、

在scala中，我们可以在下面的帮助下更新数据帧的所有列 val outputDF = InputDF.select(InputDF.columns.map(c => toLower(col(c))):_*) 如何在Java中以不可变的方式处理上述场景？

浏览 9提问于2019-07-18得票数 0

回答已采纳

1回答

对于Pandas，根据第二列的最小值，从dataframe中的一列(针对每组)获取值

、、

假设我们有一个包含3列的数据帧：the_customer、the_date和the_amount。我们需要为每个用户创建一个数据帧，该数据帧具有与每个用户的最早/最小the_date值相关联的the_amount。到目前为止，我们正在做的是： each_users_first_amount = our_data[['the_customer', 'the_date', 'the_amount']]\ .sort_values(by='the_date', ascending = True)\ .groupby(&

浏览 54提问于2020-10-05得票数 1

1回答

过滤单列数据帧

、

我正在尝试过滤只有一列的数据帧。这将返回一个向量，如下所示： single.c <- data.frame(col1=c(1,2,3,4,5), row.names=C("r1","r2","r3","r4","r5")) single.c[single.c$col1 > 2,] [1] 3 4 5 我真正想要的是像多列数据帧一样返回的数据： multi.c <- data.frame(col1=c(1,2,3,4,5), col2=c(1,2,3,4,5), row.names=c("

浏览 1提问于2012-08-23得票数 8

回答已采纳

1回答

在R中使用for循环过滤掉数据帧中的零

、

我在我的全局环境中有一堆数据帧，每个数据帧有5列，我想过滤掉它们中只有第4列和第5列中包含零的行。我尝试列出所有数据帧，并使用以下代码运行for循环： all_frames <- list(aa,bb,cc,dd,ee,ff,gg,hh,ii,jj) for (i in all_frames) { i <- i[apply(i[,-c(1:3)], 1, function(x) !all(x==0)),] } 不幸的是，这不起作用，任何建议都将不胜感激，谢谢！

浏览 14提问于2021-03-25得票数 0

2回答

使用scala重命名一个数据帧相对于另一个数据帧的列名

、、

我正在尝试重命名基于另一个数据帧的数据框的列。如何使用Scala实现这一点？基本上，我的数据看起来像这样 DataFrame1 A B C D 1 2 3 4 我还有另一个表，它看起来像这个DataFrame2 Col1 Col2 A E B Q C R D Z 我想相对于其他数据帧重命名我的第一个数据帧的列。因此，预期输出应如下所示： E Q R Z 1 2 3 4 我尝试使用PySpark (由从复制的)编写代码，运行良好： name_dict = datafram

浏览 7提问于2018-01-14得票数 0

回答已采纳

1回答

如何计算特定列值的最小最大平均值并将其存储在新列中？

、、

我是Spark/Scala的新手，所以我有很多问题，其中之一就是。我有一个数据帧，其中包含代码，描述，depdelay。列code有重复的值示例(EA)我想在新列中使用code的不同值和depdelay的min，max，avg。

浏览 0提问于2019-08-28得票数 0

1回答

将1列中的空值替换为另一列中的数据

、

我正在尝试用可能在count_2列中的数据替换count_1列中的所有空数据。下面是给定输入的预期输出。我如何在Spark Scala中做到这一点？输入数据帧 name count_1 count_2 Java 10000 null Python null 20000 Scala 30000 null R null null Swift 50000 65000 输出数据帧 name merged Java 10000 Python 20000 Scala 30000 R null Swift 50000

浏览 23提问于2021-09-05得票数 1

回答已采纳

2回答

在scala中替换数据帧中所有列中出现的所有字符串

、、

我有一个有20列的数据帧，在这些列中有一个值XX，我想用空字符串替换它。如何在scala中实现这一点。withColumn函数是针对单个列的，但我想传递所有20列，并将整个框架中包含XX的值替换为空字符串，可以建议一种方法吗？谢谢

浏览 0提问于2017-09-13得票数 1

2回答

比较数据帧中的两列并找出值的变化率

、、、

我正在尝试比较数据帧中的两列，并找出值的变化率。我写了一个UDF来实现这一点，但在执行时遇到错误。下面是数据帧中的数据结构。 +------------+-------------+-----------+------+ | NUM_ID | TIME |PREVIOUS_SG1|SG1_V| +------------+-------------+-----------+------+ |XXXXX01 |1570167499000| null |79.0 | |XXXXX01 |1570167502000| 79.0 |88.

浏览 18提问于2019-10-15得票数 0

1回答

+=方法在scala中int的位置在哪里？

、、

+=(或任何赋值操作符)是scala中用于Int类型的方法。例如, var x=5 x+=1 在这里，我只能在+=方法是变量时才能使用它。我做不到， 5+=1 scala编译器是否将此方法视为特例？为什么它在scala.Int类中不可用？

浏览 0提问于2016-04-29得票数 3

回答已采纳

2回答

play 2.0如何覆盖(securesocial)模块之外的视图？

、、

我正在使用securesocial插件，并将其作为一个模块使用。我的结构是这样的： project | |--app |---| |---|--views/main.scala.html |--conf |--logs |--module |---|--securesocial |---|------| |---|------|--app |---|------|---| |---|------|---|--views/main.scala.html |---|------|---|--views/login.scala.html 我的问题很简单，我如何在我的“应用

浏览 4提问于2012-07-13得票数 2

1回答

Apache Spark:如何使用正则表达式将数据框列转换为另一个数据框？

、、

我有几列的火花数据帧1：(user_uuid，url，date_visit) 我想将这个域转换为具有以下格式的数据帧2：(user_uuid，DF1，date_visit) 我想使用正则表达式来检测域，并将其应用于DF1 val regexpr = """(?i)^((https?):\/\/)?((www|www1)\.)?([\w-\.]+)""".r 你能帮助我在Scala中编写代码来转换数据帧吗？我对Spark和Scala完全陌生，语法也很难。谢谢!

浏览 1提问于2015-08-20得票数 8

回答已采纳

2回答

根据条件火花选择列

我的dataframe df1中有这样的列，其中以20开头的列是动态生成的。我可以使用以下方法将以20开头的列重命名为2019_p、2020_p、2021_p df.select(*[col(c).alias(f"${c}_p") if c.startswith("20") else col(c) for c in df.columns]) 现在我有了两个数据帧，一个原始数据帧和另一个数据帧，列以20开头，以_p结尾。我希望根据不带_p或with_p的非空列来最终选择列。如何实现这一点？

浏览 7提问于2022-10-31得票数 0

回答已采纳

2回答

删除与特定字符串对应的行，但保留NA值。

、、

当特定列中的行对应于一个字符串时，我希望删除数据帧中的所有行，但保留NAs：当数据的第一列具有名为" string“的字符串值时，将删除数据帧中的所有行。但是我的第一列也有缺失的值-- NA s，所以当我使用df <- df[df$Col1!="string",]时，与字符串和NA值对应的所有行都从数据帧中删除。我希望保留NA值。也是可取的:用""替换所有NAs，以便当我执行is.na(df$Col1)时，它显示为假。<code>H 212</code><code>f 213</code>

浏览 1提问于2020-09-13得票数 1

回答已采纳

2回答

使用Python替换dataframe中的值

、、

希望在"ROE“列中用"NaN”替换其中百分比大于100的值。正在读取csv文件。以下是代码，不确定如何在'missing‘数据帧中赋值，请帮助 **数据集中的ROE列包含"25.00%“、"130.00%”、"50.00%“等值。因此，在比较时，首先需要通过删除最后一个字符来转换浮点数中的值。 missing = pd.read_csv(local_path + "/Week4/Datasets_Week4/roemissing.csv") print(missing) for x in missing["ROE

浏览 5提问于2018-02-18得票数 2

2回答

在spark和scala中，如何将数据帧转换或映射到特定的列信息？

、、、

Scala。火花。 intellij的想法。我有一个来自CSV文件的数据帧(多行，多列)。我想要它映射到另一个特定的列信息。我认为scala类(不是case类，因为列数大于22)或map()..... 但我不知道如何转换它们。示例来自CSV文件的数据帧。 ---------------------- | No | price| name | ---------------------- | 1 | 100 | "A" | ---------------------- | 2 | 200 | "B" | ------------

浏览 0提问于2016-07-15得票数 0

2回答

基于多列从pandas数据帧中删除行

、

从一个pandas数据帧中，我想要删除"rois“，其中有一半或更多行的s、b1或b2列的值小于50。下面是一个数据帧示例： roi s b1 b2 4 40 60 70 4 60 40 80 4 80 70 60 5 60 40 60 5 60 60 60 5 60 60 60 应当仅留下对应于ROI5的三行(ROI4具有3行中的2行，其中s、b1、b2的值中的至少一个低于50)。我已经实现了这一点，但不知道是否有一个更短的(即。更快、更干净)的方法： for roi in data.roi.unique():

浏览 24提问于2019-12-11得票数 1

回答已采纳

2回答

如何将DF转换为添加包含在另一列中的字符串列表的列

、

假设我在scala中有一个关键字列表 val keywords = List("pineapple", "lemon") 和像这样的数据帧 +---+-------------------------------------------+ |ID |Body | +---+-------------------------------------------+ |123|I contain both keywords pineapple and lemon| |456|I sadly

浏览 23提问于2021-03-24得票数 1

回答已采纳

4回答

一定大小或更大/更小的模式匹配列表

、、

在Scala中，有没有一种方法可以指定一个模式来匹配一个大于(或小于)或等于某个特定值的列表？例如，如果我想对大小为3或更小的所有列表应用相同的操作： list match { case Nil => op(list) case x :: Nil => op(list) case x :: y :: Nil => op(list) case x :: y :: z :: Nil => op(list) case x :: tail => other(list) } 有没有办法将这种情况减少到两种情况？

浏览 0提问于2013-04-17得票数 20

回答已采纳

1回答

接受未知列数的Spark UDF

、、、、

我有一个不同模式的spark数据帧列表。示例： list_df = [df1, df2, df3, df4] # df1.columns = ['a', 'b'] # df2.columns = ['a', 'b', 'c'] # df3.columns = ['a', 'b', 'c', 'd'] # df4.columns = ['a', 'b', 'c', 'd', 'e&#

浏览 4提问于2016-08-06得票数 3

回答已采纳

1回答

分解Pyspark中的映射列而不丢失空值

、、、

在Pyspark 2.2中有什么优雅的方法可以分解map列而不丢失null值吗？Explode_outer是在PySpark2.3中引入的受影响列的架构为： |-- foo: map (nullable = true) | |-- key: string | |-- value: struct (valueContainsNull = true) | | |-- first: long (nullable = true) | | |-- last: long (nullable = true) 我想用一些虚值替换空的Map，以便能够分解整个数据帧，

浏览 0提问于2018-02-07得票数 1

回答已采纳

1回答

可以在整个dataframe上使用pandas中的`mask`或`where`，但仅更改一列

、、、

当使用pandas数据帧进行方法链接时，通常需要屏蔽一个特定的列，而不是整个数据帧。 pandas的文档包含用于整个dataframe或series的mask或where。是否有某种方法可以将mask传递给整个数据帧，但只更改一列？举个例子，假设我们有数据： import pandas as pd df = pd.DataFrame({'A' : [0,1,2], 'B' : [3,4,5]}) 现在我们可以执行df.mask(df > 0, 2)，整个数据帧将是： |A | B | |--|---| |0 | 2 | |2 | 2 | |2 |

浏览 28提问于2020-04-13得票数 1

2回答

Spark Dataframes:如何更改Java/Scala中列的顺序？

、、、

在连接两个数据帧之后，我发现列的顺序改变了我的预期。例如:在b上连接具有列[b,c,d,e]和[a,b]的两个数据帧将产生[b,a,c,d,e]的列顺序。如何更改列的顺序(例如，[a,b,c,d,e])？我已经找到了在Python/R中做到这一点的方法，但没有找到Scala或Java。是否有任何方法允许交换或重新排序数据帧列？

浏览 1提问于2016-06-29得票数 4

4回答

在每次传递时间列进行转换时遍历Dataframe

、、、

我有一个有100列和列名的数据帧，比如col1、col2、col3……我想根据条件匹配对列的值应用特定的转换。我可以将列名存储在字符串数组中。并在withColumn中传递数组的每个元素的值，并且基于When条件我可以垂直转换列的值。但问题是，由于数据帧是不可变的，所以每个更新的版本都需要存储在一个新的变量中，并且新的数据帧需要传入withColumn以便为下一次迭代进行转换。有没有办法创建数据帧的数组，以便新的数据帧可以存储为数组的元素，并且可以根据迭代器的值进行迭代。或者有没有其他方法来处理同样的问题。 var arr_df : Array[DataFrame] = new Array[

浏览 23提问于2020-07-10得票数 0

回答已采纳

1回答

星火中的Join和withColumn异常

、、、

我正在尝试加入以下两个数据处理程序： val df1 = Seq( ("Verizon", "USA"), ("AT & T", "PK"), ("Verizon", "IND") ).toDF("Brand", "Country") val df2 = Seq( (8, "USA"), (64, "UK"), (-27, "DE&

浏览 0提问于2019-01-21得票数 0

2回答

如何检查来自不同数据帧的列值？

、、、

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark来处理这种情况？感谢您的回复。 df[Name].show() Java Oracle .NET df1[Name].show() Oracle Scala .NET python

浏览 37提问于2020-09-03得票数 0

回答已采纳

3回答

检查spark dataframe中的每一列是否具有特定值

、、、

我们是否可以使用Spark-SQL或scala检查spark数据帧中的每一列是否都包含特定的字符串(例如"Y")？我已经尝试了以下方法，但我认为它不能正常工作。 df.select(df.col("*")).filter("'*' =='Y'") 谢谢，Sai

浏览 0提问于2017-09-09得票数 2

回答已采纳

1回答

合并地图的所有值，其中每个值都是一个数据帧

、、

在使用Spark的Scala中，我有一个映射，其中键是一个字符串，值是一个DataFrame。模式如下所示： scala.collection.immutable.Map[String,org.apache.spark.sql.DataFrame] = Map(Key_A -> [value_col1: string, value_col2: string ... 1 more field], Key_B -> [value_col1: string, value_col2: string ... 1 more field]) 我不关心这里的钥匙。我想要一个数据帧，它结合了所有

浏览 12提问于2019-05-25得票数 1

回答已采纳

1回答

Pyspark dataframe连接的列名重复的很少，没有重复列的也很少

、、

我需要在我的项目中实现pyspark数据帧连接。我需要加入3个不同的案例。 1)如果两个数据帧具有相同的名称连接列。我加入如下所示。它消除了重复的列col1, col2。 cond = ['col1', 'col2'] df1.join(df2, cond, "inner") 2)如果两个数据帧具有不同的名称连接列。我加入如下所示。它按预期维护所有4连接列。 cond = [df1.col_x == df2.col_y, df1.col_a == df2.col_b] df1.join(df2, cond, "in

浏览 35提问于2019-12-03得票数 1

回答已采纳

2回答

Pandas根据布尔数组就地修改列值

、

我知道如何使用apply或np.where基于另一列的值创建新列，但是我想不起一种选择性地更改现有列的值的方法；我怀疑其中是否涉及df.ix？我说得对吗？例如，下面是一个简单的dataframe (我的数据帧有数万行)。如果名称以字母‘e’结尾，我想更改'flag‘列中的值(假设为'Blue')： >>> import pandas as pd >>> df = pd.DataFrame({'name':['Mick', 'John', 'Christine',

浏览 0提问于2014-05-01得票数 9

回答已采纳