将不等于的Spark数据帧与比较列的列表进行比较

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我目前正在尝试比较两个数据帧，看看在pyspark中字段是如何不匹配的。我已经能够手动编写它，但我希望能够传递一个字段列表，以确保帧在字段上不匹配。数据帧是相同的。= temp_team_sat_incremental.team_sat_hash)) 但是现在我需要能够获取我的列表(hash_field)，并且能够确保一个或多个字段彼此不相等。

浏览 11提问于2019-04-29得票数 0

回答已采纳

2回答

比较两个数据帧并将结果存储在另一个数据帧中

、、、、

我有两个这样的数据帧:第一个有一列720行(dataframe A)，第二个有10列720行(Dataframe B)。数据帧仅包含数值。我尝试这样比较它们:我想遍历数据帧B的每一列，并将该列的每个单元(行)与数据帧A中的相应行进行比较。(

浏览 0提问于2020-10-09得票数 0

2回答

PySpark -将单个整数列表与列表列进行比较

、、

我正在尝试检查spark dataframe (具有列表的列)中的哪些条目包含来自给定列表的最大数量的值。我想出的最好的方法是使用rdd.foreach()遍历数据帧，并使用python的set1.intersection(set2)将给定的列表与每个条目进行比较。我

浏览 19提问于2018-02-01得票数 2

回答已采纳

2回答

根据列名名值在pandas中设置dataframe子集

、、

我在熊猫中有一个数据帧，我需要拆分。它比这个大得多，但这里有一个示例： ID A B c 2 2 我有一个列表：keep_list = ['ID','A']和另一个列表：recode_list= ['ID','B'] 我希望按列标题将数据帧拆分为两个数据帧:一个数据帧包

浏览 18提问于2020-04-30得票数 2

回答已采纳

1回答

如果与数据帧中的给定列表相同，则分配标签值

、、、、

假设我的数据帧在这里， ? 在将数据帧中的列与我拥有的列表进行比较时，如果该列中的行具有相同的值，我希望对它们进行标记。例如，与'Name‘和my ' list '(ex) list= Y，B进行比较因此在'Name‘列中，Y

浏览 14提问于2020-01-23得票数 2

回答已采纳

2回答

将数据帧的一行与相应的行进行比较，并将数据存储在两个单独的列中

、、

我有一个数据帧，看起来像这样：0 511832 53382有了这些数据，我想创建另一个数据帧，它将包含2列，即X和Y，并保存一行与另一行的比较。，将Rule ID列中的第一个值，即51183与第二行中的第二个值，即50014进行比较。因此51183存储在X列</em

浏览 20提问于2019-08-12得票数 2

回答已采纳

1回答

比较Pyspark数据帧的值(列表)

、、

我想对list_id列中的两个df1 df2数据帧进行比较： df1 = | list_id||[1, 2, 3]||[------++------------+|[12, 13, 14]|+------------+ 期望的结果是10, 11] ||

浏览 9提问于2019-10-01得票数 0

回答已采纳

1回答

如果列表中的元素作为字符串的一部分出现，则将该元素作为新的列条目返回

、

我有一个包含几个条目的列表：数据如下所示： val df = spark.sparkContext.parallelize，其中的值是列表中的元素(如果元素出现在消息列中)。<listelement>*的正则表达式进行比较，但也无法实现。连接也是一种可能性(甚至更多

浏览 2提问于2018-02-05得票数 0

回答已采纳

1回答

只比较dataframe中的两行

、、、

我有一个带有列focus_duration的数据帧，我想逐个比较这个数据对，这意味着第0行和第1行，第2行和第3行，第4行和第5行，等等。如果第一个整数大于第二个整数，则在新的列中写入1。如果小于，则写入-1，如果等于0，则写入-1。我尝试创建一个列表，并将一个元素与另一个元素进行比较。但是这样比较元素2和元素3，元素3和元素4，这是我不想要<e

浏览 20提问于2020-02-14得票数 0

回答已采纳

4回答

比较两种数据火花

、、、、

我试图比较两个列数相同的两个数据帧，即在两个数据帧中有4列以id作为键列df2 = spark.read.csv("/path/to/data2.csv") 现在我想将新列附加到DF2，即colu

浏览 7提问于2020-02-18得票数 7

回答已采纳

1回答

单元测试中的Spark* Dataframe比较以检查功能*

、、、、

我已经创建了一些方法来将数据帧转换为所需的格式，并根据错误规则过滤多个错误检查和更新数据帧。我是一个在intelliJ上用scala编写单元测试的新手。我必须编写单元测试来将实际数据帧与预期结果进行比较。下面是我为数据帧的pivot功能编写的单元测试用例。类似地，我必须将获得的数据集<em

浏览 4提问于2021-09-13得票数 1

1回答

比较来自两个不同数据帧pandas的列

、、

我正在向AD查询机器列表。我用pandas按上次登录日期过滤这个列表。当我处理完这些数据时，我在一个数据帧中有一列。我

浏览 1提问于2019-08-06得票数 1

1回答

将列表与pyspark列中的每个元素进行比较

、、、、

我有一个列表minhash_sig = '112'，'223'，我想找到这个列表和pyspark列中的每个元素之间的jaccard相似性。不幸的是，我不能这么做。我尝试使用array_intersect和array_union来进行比较。但是，当我收到消息Resolved attribute missing时，这是行不通的。这是我到目前为止创建的火花放电数据格

浏览 5提问于2021-08-28得票数 1

回答已采纳

1回答

比较两个考拉数据帧以进行测试

Pandas有一个包含assert_frames_equal的测试模块。考拉也有类似的东西吗？我正在编写一系列到考拉数据帧的转换测试。首先，由于我的测试csv文件只有几行(<10行)，我考虑只使用pandas。不幸的是，这些文件非常宽(接近200列)，并且具有在spark读取文件时指定的各种数据类型。由于熊猫的类型规范与考拉的类型规范非常不同，除了我们已经

浏览 27提问于2020-12-12得票数 0

回答已采纳

2回答

返回数据帧中最接近用户定义数字的行

、、

我有一个用户定义的数字，我想将其与数据帧的某一列进行比较。我想返回一个数据帧的行，其中包含(在df的某一列中，比如说df.num)与给定数字x最接近的5个数字。对于没有循环的最佳方法的任何建议，我们将不胜感激。

浏览 2提问于2013-07-20得票数 19

1回答

使用函数比较pandas数据框列并返回列表

、、、

我有一个熊猫数据帧，看起来像这样： Name A_x B_x C_x A_y B_y C_ycd yza 2 def456 zab 1 NaNef zab 3 jkl012 abc 3 jkl012 我现在要做的是将列A_x与A_y、B_x与B_y以及C_x与C_y进行比较。我希望有一个函数，如果比较列中的值不匹配，则返回

浏览 27提问于2021-03-30得票数 1

回答已采纳

2回答

基于Pandas数据帧中的几个变量计算概率

、、、

我对Python和Pandas还很陌生，所以请耐心听我说……def survivability(total_pass_df, column, value): su

浏览 2提问于2017-01-08得票数 1

3回答

同时迭代多个数据帧行

、、

我有16个不同的数据帧，具有相同的行数/列数，另外2个具有相同形状的独立数据帧，我正在使用它们与16个数据帧值进行比较。我需要同时遍历所有数据帧，并将所有行值与单独的数据帧进行比较，然后创建另一个具有如下结果<e

浏览 20提问于2020-03-28得票数 0

2回答

获取数据框列表并按变量分组，并将该变量用作字典的关键字

、、、

我对python编程比较陌生。我有一个熊猫数据帧列表，所有数据帧的列都是'Year‘。我尝试按该列进行分组，并转换为字典，其中字典键是变量' year‘，值是该年的数据帧列表。这在python中是可能的吗？我试过这个： grouped_dict = list_of_csv_files.groupby(by =

浏览 24提问于2019-04-15得票数 0

回答已采纳

2回答

R中具有硬编码值的数值匹配/提取

难以理解R中的数字匹配/索引。如果我遇到了创建数据文件的情况，如：x <- seq(from = 0, to = 5, by = 0.10)我想比较一下我的y列的硬编码值-numeric(0) 尽管如此，如果我将其与数据</e

浏览 0提问于2018-03-12得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云