将非常大的数据帧的列拆分成两个(或更多)新的数据帧_比较两个数据帧的列并创建新的数据帧_将数据帧重塑为新的数据帧 - 腾讯云开发者社区

、、

如果这真的很简单，很抱歉，但我已经试着找了几个小时的答案。我有两个数据帧，每个数据帧都包含几列，下面是类似情况的示例(实际数据帧非常大和繁琐)。第一个数据帧 "GPS_ID" "Object_ID" "DBH_cm" 1 19426 15 2 9456 9 3 19887 11 5 18765 4 6 9322 7 以及第二数据帧 "Lo

浏览 2提问于2014-07-01得票数 0

1回答

将一个数据框中的列匹配到另一个数据框

、

我有两个数据帧(T和S)。它们都共享一个名为ID的列名，但是S有一个纬度和经度列。我想遍历两个数据帧，并将每个lat和long与它们在数据帧T中的适当is (每个DF中的站点is不在同一顺序中)进行匹配。这些DFs大小不同，但它们都非常大，具有一些重复项。

浏览 1提问于2020-03-18得票数 0

1回答

将大数据帧写入R中的csv？

我正在从R中的服务器提取数据，我想将该数据(数据帧)导出到CSV。由于数据非常大，write.csv占用了太多时间或抛出错误。有什么方法可以更快地将数据写入csv吗？

浏览 15提问于2019-05-02得票数 2

1回答

从数据类列表中 from dataclasses import dataclass @dataclass class Row: name: str age: int hobbies: pd.DataFrame charles_hobbies = pd.DataFrame({'activities': ['video_game'], 'sports': ['tennis']}) dash_hobbies = pd.DataFrame({'activities': ['eat

浏览 14提问于2021-11-02得票数 0

回答已采纳

1回答

如何分割大数据帧，并使用较小的部分在星火中进行多个广播连接？

、

假设我们有两个非常大的数据帧--A和B。现在，如果我对两个RDDs使用相同的散列分区器，然后执行连接，那么键将被同时放置，并且通过减少洗牌，连接可能会更快(唯一会发生的洗牌是在A和B上分区器发生变化时)。我想尝试一些不同的东西--我想尝试像->这样的广播连接，假设B比A小，所以我们选择B来广播，但是B仍然是一个非常大的数据格式。因此，我们要做的是用B制作多个数据帧，然后将每个数据帧作为广播发送到A上。有人试过这个吗？要将一个数据帧拆分为多个，我只看到了randomSplit方法，但这看起来并不是一个很好的选择。还有其他更好的方法来完成这个任务吗？谢谢!

浏览 2提问于2017-12-11得票数 3

1回答

将数据分割成列并在标签上进行分层测试

、、、、

我有一个有两列(数字和字母)的数据框架(df)。见可复制的示例： Numbers<- c(2.370653,3.811336,5.255120, 6.501197,7.848100,9.343938,10.843479,12.164387,13.476807,14.922644,16.419281,17.664224,19.112835,20.660367,21.962732,23.213675) Letters<-c("a","b","c","c","d","a","b"

浏览 1提问于2020-10-20得票数 0

回答已采纳

3回答

R中数据帧交替行绑定

、

我有两个数据帧，它们具有完全相同的列和相同数量的行。我想创建一个新的数据帧，其中包含两个数据帧，但有交替绑定的行。它必须从第一个数据帧中取出一行，从第二个数据帧中取出一行，直到整个新数据帧被建立。我尝试过使用rbind()，但没走运。我需要一个不包括安装新的R包的解决方案。演示图片：编辑:我的行数是动态的，可以非常大。此外，我需要一个不依赖于列名的解决方案，因为结构也是动态的。我知道这两个数据帧每次都有相同的结构。

浏览 14提问于2018-12-14得票数 1

回答已采纳

1回答

将列表插入到行中的特定索引位置并更新索引pandas python

、、、

我有一个数据帧和两个列表newx newy。所以我想把这两个列表插入到一个特定的索引位置。我的数据框如下所示，第一列表示索引我的两个列表是 newx = [492, 491] newy = [260, 247] ? 我想在column1中的索引595和596处插入newx列表和column2 newy列表，并更新剩余的索引，这样我的输出数据帧应该如下所示 ?

浏览 20提问于2020-12-15得票数 0

2回答

如何使用Pandas过滤分隔变量

、、

我的输入数据是 list_of_dicts1 = {"Filter":["c",'a|b']} test1 = pd.DataFrame(list_of_dicts1) list_of_dicts2 = {"C":["d",'a', 'b']} test2 = pd.DataFrame(list_of_dicts2) 所需输出是 list_of_dicts3 = {"C":['a', 'b']} test3 = pd.DataFrame

浏览 4提问于2020-12-07得票数 1

回答已采纳

1回答

使用pd.read_csv忽略仅包含缺少值的列

、、、

我已经创建了一个使用pd.read_csv读入数据的应用程序。我们得到的一些数据集的列只包含缺少的值(空单元格)。有没有办法使用pandas而不将这些列加载到数据帧中？由于数据集可能非常大，因此在预加载阶段忽略它们会更方便。当然，我可以将它们从excel表格中删除，但我的目标是使数据加载尽可能自动化。

浏览 20提问于2020-04-30得票数 0

1回答

如果另一列的初始列中的每个值至少有两个不同的值，则从该列获取所有不同的值

、

我有一个非常大的数据集(20GB+)，我需要从列A中选择所有不同的值，其中列B中的每个不同值在列B中至少有两个不同的值。对于以下数据帧： | A | B | |---|---| | x | 1 | | x | 2 | | y | 1 | | y | 1 | 应该只返回x，因为它在列B上有两个不同的值，而y只有一个不同的值。下面的代码做到了这一点，但由于数据集非常大，因此需要很长时间(以小时为单位)： def get_values(list_of_distinct_values, dataframe): valid_values = [] for value in list

浏览 9提问于2020-09-29得票数 0

2回答

基于列表值列表创建Python列

、

我有一个列表和一个数据帧df： test_list=[[A,B,C],[A,B,D],[A,B,E],[F,G]] 数据帧是 ID B C D E List of list的元素代表层次结构.I想要在数据帧中创建一个新的列"type“，其值代表其父级。我的最终数据帧应该是这样的： value parent B A C B D B E B 我有一个非常大的数据集，test_list也非常大

浏览 6提问于2019-05-17得票数 0

回答已采纳

2回答

如何在保持相同转换的情况下，将字符串变量转换为两个不同数据集中的分类变量？

、、

我正在构建一个模型，我在Pandas中有两个数据帧。一个是训练数据，另一个是测试数据。其中一个变量是国家。我在考虑使用OrdinalEncoder()将country列转换为分类列。例如：“美国”在新列中将是1，“巴西”将是2，依此类推。但是，我希望对这两个数据帧进行相同的转换。如果训练数据中的"USA“作为分类列变为1，我希望测试数据中的"USA”也变为1。这有可能吗？怎么会这样呢？提前感谢

浏览 23提问于2019-12-17得票数 0

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala api？

、、、

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我想返回一个新的数据帧，其中包含每个组的一行和两列，一列包含groupby值，另一列包含结果。使用PandasUDF这将是一个相对简单的任务，但是我不知道如何在Scala中做到这一点。我尝试使用group by列对

浏览 28提问于2020-04-22得票数 0

2回答

根据来自另一个数据框的id和值在另一个数据框上设置值

、、、、

我的数据帧出了点问题。第一个数据帧如下所示： id 0 1 2 3 100 0 0 0 0 101 0 0 0 0 102 0 0 0 0 103 0 0 0 0 第二个数据帧如下所示： id num 100 1 100 2 100 3 101 0 101 3 102 1 103 2 103 3 我想要将第一个数据帧中由列中的"id“表示的特定行中的0更改为1，这些列在第二个数据帧中的列"num

浏览 16提问于2020-04-16得票数 2

回答已采纳

1回答

如何在R中根据字符串匹配赋值

、、、

我有两个数据帧： DF_1 ID Value1 1 Lion 2 Cat 3 Elephant 4 Lion -s DF_2 Value2 Assign Lion - X AD Cat as FD Elephant -92 DS Viper AB Fish ws r DF 我想匹配DF_1的Value1和DF_2的Value2，对于DF_2中DF_1的任何相似值，在新的输出数据帧中分配DF_2的from Assign列(基于Value1使用me

浏览 0提问于2018-03-19得票数 0

1回答

多条件python中的Vlookup

、、

我用Python从csv文件中加载了两个数据帧。其中之一包含以下类型的数据： Well Zones Inflow E18 A 0.45 E23 B 0.33 E25 C 0.2 E18 B 0.2 E23 A 0.67 E25 D 0.12 E23 B 0.2 E18 A 0.67 E25 D 0.12 另一种是： Well Zones Distance E18 A

浏览 17提问于2019-01-19得票数 0

回答已采纳

2回答

R中特定列范围内的For循环

我有一个由1000行和300多列组成的宽数据帧。前2列是GroupID和分类字段。其余的列都是连续的数字测量值。我想做的是循环遍历R中这些列的特定范围，从第一个数字列(列#3)开始。例如，循环遍历第3:10列。我还希望在循环中保留列名。我从下面的代码开始，使用 for(i in 3:ncol(df)){ print(i) } 但这包括第3列右侧的所有列(而不是范围3:10)，并且这不标识列名。有没有人可以帮助我开始这个循环，这样我就可以指定列范围并保留列名？蒂娅！附注:我已经使用tidyr收集了长格式的数据帧。这是有效的，但我发现它使我的数据帧非常大，因此在我的循环中消耗了大量的时间

浏览 25提问于2020-07-10得票数 0

3回答

比较两个dataframe列并输出第三个

、、、

我事先道歉，如果这件事涉及到了，我找不到像这样的东西。这是我的第一份编程工作(我以前是软件QA)，我一直在这上面碰壁。我有两个数据文件，其中一个是非常大的，我正在以块的形式迭代它。我试图比较每个dataframe中同名的列，如果它们相等，我想输出更大帧的第二列。即 if df1['tag'] == df2['tag']: df1['new column'] = df2['plate'] 我尝试过合并，但这并没有输出我预期的结果。 df3 = pd.merge(df1, df2, on='tag', how

浏览 1提问于2018-04-17得票数 1

回答已采纳

1回答

在比较没有键列的PySpark数据帧时，有没有完全外连接的替代方法？

、、、、

因此，我一直在寻找不同的方法来比较两个没有键列的PySpark数据帧。假设我有两个数据帧，df1和df2，列分别为col1、col2和col3。这个想法是，我将得到一个输出数据帧，其中包含来自df1的行，这些行与df2中的任何行都不匹配，反之亦然。我还想要一些标志，这样我就可以区分来自df1的行和来自df2的行。到目前为止，我已经研究了一个完整的外部联接as方法，例如： columns = df1.columns df1 = df1.withColumn("df1_flag", lit("X")) df2 = df2.withColumn("df

浏览 13提问于2020-07-29得票数 0

2回答

比较两个数据帧中的列名

、、

浏览 8提问于2017-03-09得票数 2

回答已采纳

3回答

仅选择列名与其他df中行的值匹配的列

我有两个数据帧，一个是非常大的、宽的数据集，包含数百个参数，另一个有3列，用于标识更大的数据帧中的参数，并具有规范限制和两列的下限和上限。我想要做的是能够将宽的数据帧减少到仅在限制数据帧中的列。我觉得这是非常基本的，但我不能让它工作下面是我想要的例子和输出。 df df <- data.frame("par.1" = c(1, 1, 2, 3, 5), "par.2" = c(10, 11, 12, 11, 15),"par.3" = c(8, 8, 12, 8, 9),"par.4" = c(8, 8, 12, 8,

浏览 18提问于2020-05-01得票数 1

回答已采纳

3回答

在pandas中从较大的数据帧中删除较小数据帧中的值

、、

我在pandas中有一个非常大的数据帧，其中一列被标记为"Col2“，该列的行值包含一个长字符串。我从这个数据框中解析出另一个较小的数据框，其中包含我想要从原始数据框中删除的列"Col2“值。基本上，我希望遍历原始数据帧，并根据与子集数据帧匹配的Col2值删除整行；最后根据Col2值从一个数据帧中减去另一个数据帧。我该怎么做呢？

浏览 0提问于2015-11-19得票数 0

3回答

通过匹配另一个数据帧中的索引来划分数据帧列

、

我有一个这样的数据帧： id1 name id2 val 0 1 'A' 1 4 1 1 'B' 1 1 2 2 'C' 3 1 . . . 我有另一个数据帧，如下所示： new_val 1 2 3 4 我想创建第一个数据帧，如下所示： id1 name id2

浏览 15提问于2017-01-18得票数 1

回答已采纳

1回答

如何根据列值拆分数据框中的行？

、、、、

我尝试根据列中是否存在值将我的行拆分为多个行。我可以根据列值进行过滤，但希望根据条件将行一分为二，只返回行的特定部分。dataframe由不同类型的支付组成，activity字段表示发生的支付类型。我想当有一个特定的付款类型，将行一分为二。在下面的例子中，当付款2存在时，我希望它是一个单独的事务。我有以下数据帧： ID Payment 1 Payment 2 Payment 3 Payment 4 Payment 5 Activity 1 10 0 0

浏览 0提问于2020-11-05得票数 0

1回答

在添加新的row.name列时将数组转换为数据格式

、、

我需要将数组转换为数据帧，使row.names成为数据帧的第一列。例如，我有一个由4个元素组成的数组： big small verybig verysmall 12 3 24 20 使用as.data.frame进行转换给我(大、小、非常大、非常小)为row.rames。我想要一个看起来像这样的data.frame： row column1 column2 1 big 12 2 small 3 3 verybig 24 4 verysmall 20 其中row.names是(1,2,3,4)和(大，小，非常

浏览 1提问于2015-03-31得票数 1

回答已采纳

2回答

pandas使用迭代组在单调递增的数据帧中插入行

、、

我已经寻找这个问题的解决方案有一段时间了，我真的被卡住了！我有一个非常大的文本文件，作为panda dataframe导入，只包含两列，但有数十万到数百万行。这些列包含分组转储:一个是格式化为单调递增整数的ascii表示的分组的数据，第二个是分组时间。我想检查一下这个数据帧，并确保数据帧是单调增加的，如果有丢失的数据，插入一个新的行，以使列表单调增加。也就是说，“数据”列应该填入适当的值，但是时间应该改为“NaN”或“NULL”，等等。以下是数据示例： data frame_time_epoch 303030303030303000 1527986052.48

浏览 52提问于2018-06-04得票数 0

回答已采纳

1回答

计算每组前n行的总和

、、

我想要做的是按列A分组，然后取前两行的和，然后将该值指定为新列。示例如下： DF： ColA ColB AA 2 AA 1 AA 5 AA 3 BB 9 BB 3 BB 2 BB 12 CC 0 CC 10 CC 5 CC 3 所需的DF： ColA ColB NewCol AA 2 3 AA 1 3 AA 5 3 AA 3 3 BB

浏览 16提问于2020-10-16得票数 3

回答已采纳

3回答

如何在scala中将多个数据帧组合在一起？

、、

我有几个数据帧，其中包含单列。假设我有4个这样的数据帧，都有一列。如何通过组合所有数据帧来形成单个数据帧？ val df = xmldf.select(col("UserData.UserValue._valueRef")) val df2 = xmldf.select(col("UserData.UserValue._title")) val df3 = xmldf.select(col("author")) val df4 = xmldf.select(col("price")) 为了结合起来，我尝试这样做，但它不起作用： v

浏览 72提问于2018-07-13得票数 0

1回答

基于数据帧内的值将熊猫RGB值对应于DataFrame颜色值的关键字

、、、

我有一个非常大的数据帧，大约有15000行和500列。我希望查看数据帧中的每个值，并将其与基于包含RGB值的字典键的特定颜色相关联。然后，我希望使用matplotlib绘制rgb值。

浏览 21提问于2021-08-04得票数 0

1回答

计算条件累计和

、

我有以下数据帧： N=seq(1:18) Pre=c(0.5, 0.4, 0.7, 0.9, 0.6, 0.3, 0.7, 0.8, 0.6, 0.5, 0.4, 0.7, 0.9, 0.6, 0.3, 0.7, 0.8, 0.6) df1=data.frame(N, Pre) E=c(3.1, 2.9, 4.4) Category=c(22,35,36) df2=data.frame(E, Category) 我想在df1中创建两个新列(cumsum和category) cumsum列中的值将不断累积，直到该值等于或小于df2$E的值，当该值大于该值时，cumsum将重新开始。在cate

浏览 11提问于2019-01-21得票数 2

2回答

保存文本数据的大型Pandas df到磁盘崩溃Colab，因为耗尽了所有的RAM。有解决办法吗？

、

我有一个非常大的Pandas数据帧，我想把它保存到磁盘上，以便以后使用。数据帧仅包含字符串数据。然而，无论我使用哪种格式，保存过程都会导致我的Google Colab环境崩溃，因为除了CSV之外，所有可用的RAM都会用完，CSV甚至在5小时后都不会完成。但这也破坏了环境。有没有办法把一个大的文本熊猫数据帧保存到磁盘上？我尝试过to_json、to_feather、to_parquet、to_pickle，它们都会使环境崩溃。我还通过使用以下命令尝试了to_sql from sqlalchemy import create_engine engine = sqlalchemy.crea

浏览 2提问于2019-05-29得票数 2

1回答

通过值子集R中的距离矩阵

、、、、

我有一个非常大的距离矩阵(3678x3678)，目前编码为数据帧。列被命名为"1“、"2”、"3“等等，行也是如此。因此，我需要做的是找到小于26且不同于0的值，并将结果放入包含两列的第二个数据帧中:第一列包含索引，第二列包含值。例如： value 318-516 22.70601 ... 其中318是行索引，516是列索引。

浏览 10提问于2021-01-27得票数 0

回答已采纳

1回答

熊猫数据广播出现内存错误

、、

我有两个数据帧。Dataframe A为形状(1269345,5)，而dataframe B为形状(18583586，3)。 Dataframe A看起来： Name. gender start_coordinate end_coordinate ID Peter M 30 150 1 Hugo M 4500 6000 2 Jennie F

浏览 5提问于2021-07-14得票数 2

2回答

R:随机化data.frame的一列的顺序

、、

我有一个这样的数据帧： df1 <- data.frame(A=c("xx", "be", "zz", "jj"), B=c("xyx", "bea", "cce", "ggg"), C=c("ges", "xyz", "cce", "edga")) 我想生成两个基于df1的随机数据帧。对于每个随机数据帧，我希望A列和B列保持不变。但只能更改列C的顺序。我可以用R来做吗？如果是，你能教我怎么做吗？

浏览 2提问于2011-05-31得票数 7

1回答

比较Pyspark数据帧的值(列表)

、、

我想对list_id列中的两个df1 df2数据帧进行比较： df1 = +---------+ | list_id| +---------+ |[1, 2, 3]| |[4, 5, 6]| |[7, 8, 9]| +---------+ df2 = +------------+ | list_id| +------------+ | [10, 3, 11]| |[12, 13, 14]| | [15, 6, 16]| +------------+ 期望的结果是： df2 = +-------------------+ | list_id| +-------

浏览 9提问于2019-10-01得票数 0

回答已采纳

2回答

有没有办法在不使用分隔符的情况下写入Pandas数据帧？

、

我有一个包含许多DNA序列的文本文件，每个序列都在单独的一行上，有20个碱基对。我希望将文件读入到一个数据帧中，每个基作为它自己的列，而不使用for循环或其他需要迭代整个文件的东西，因为这个文件非常大。我尝试使用"“作为分隔符，但它只会导致整行被处理成一列。我也试过用".“和"\w“，这两个都不是我想要的。例如，对于具有以下内容的文件： ACGT CGTA GTAC TACG 数据帧应如下所示： 1 2 3 4 1 A C G T 2 C G T A 3 G T A C 4

浏览 7提问于2019-06-08得票数 2

回答已采纳

2回答

PySpark数据帧的最佳实践-删除多个列？

、、、

假设有人想要从数据帧中删除一列。可以在不创建新数据帧的情况下做到这一点吗？ df = df.drop("tags_s") 看起来创建一个新的数据帧更安全，更正确，对吗？通过重用如上所述的数据帧可能会遇到什么问题？如果重用数据帧是一种糟糕的做法，假设有人想要删除几个与模式匹配的列： for col in df.columns: if col.startswith("aux_"): df = df.drop(col) 在这种情况下，每次创建一个新的数据帧似乎不切实际。最佳实践是什么？

浏览 21提问于2019-11-22得票数 0

4回答

在pandas中如何将两列合并为一列？

、、

基本上，我有两个列，我希望将它们与某些规则合并在一起。使用下面的代码，我构建了一个类似的数据帧。 primaryColumn = pd.Series(["Orange", np.nan, np.nan, "Cyan"]) secondaryColumn = pd.Series(["Red", "Green", np.nan, "Blue"]) pd.concat([secondaryColumn, primaryColumn], axis=1) 基本上，我希望保留第1列中的所有内容，将第0列中的任何内容

浏览 2提问于2020-05-28得票数 0

1回答

pandas数据帧将行合并为列

、

我有两个pandas数据帧(df1，df2)，我正试图从中提取数据并创建第三个数据帧(df3)。 df1有两列(一个id列和另一个保存第二个数据帧(df2)中的列名的列) df1 looks like: =============== id1 name --- ---- 1 df2_column1_name 5 df2_column1_name 33 df2_column3_name ... ... and so on df2 looks like: =============== id2 df2_column1_name

浏览 2提问于2019-02-08得票数 1

回答已采纳

1回答

如何通过匹配df1中匹配df2索引和列名的列值，用df1中的数据填充df2

、

我有一个包含许多数据列的大型数据帧df1，其中两个是dates和colNum。我已经构建了跨越df1的日期范围和colNum的第二个数据帧df2。现在，我想用df1的第三列(任何其他数据列)填充df2，这些列满足df1的dates和colNum标准，并且与df2的dateIndex和colNum匹配。我尝试过MERGE的各种版本，但都没有成功。我可以遍历这些组合，但是df1非常大(270k，2k)，所以从df1的某一列填充一个df2需要花费很长时间，更不用说填充所有列了。慢循环版本 dataList = ['revt'] for i in dataList: go

浏览 0提问于2019-10-16得票数 0

5回答

如何并排合并两个数据帧？

、

是否有一种方法可以方便地并排合并两个数据帧？两个数据帧都有30行，它们具有不同的列数，例如，df1有20列，df2有40列。如何轻松获得30行60列的新数据框？ df3 = pd.someSpecialMergeFunct(df1, df2) 或者可能在append中有一些特殊的参数 df3 = pd.append(df1, df2, left_index=False, right_index=false, how='left') ps:如果可能的话，我希望复制的列名能够被自动解析。谢谢!

浏览 4提问于2014-05-27得票数 53

1回答

在新列中创建具有唯一值的同一数据框的多个副本

、、

我有一个非常大的数据集，我希望为其制作多个副本，但对于此数据集的每个副本，我希望在新列中提供一个不同的值。这样做的目的是将另一组数据与这些列的数据集配对。让我举一个例子。假设我的数据集如下： id value X01 NA X02 NA X03 NA X04 NA X05 NA X06 NA 我想制作这个数据帧的32个副本，然后对于每个副本，在名为“character”的第三个新列中给它一个不同的值。可以用该值填充整个列，只需输入一个列表，如c("apple"，"banana"，"green"，"

浏览 10提问于2021-09-14得票数 1

回答已采纳

1回答

求受不规则多边形窗口限制的独立但相连的点之间的欧几里得距离

、、、、

我跟随帖子一直到最后，让一切都正常工作，太棒了。然而，在我的例子中，我希望获得数据A中的点到数据B中的点的距离，但前提是两个数据集具有相同的ID值。我的问题可以遵循中的示例，但是有两个Pts数据帧，并且如果Pts1$ID和Pts2$ID (假设您添加和ID列)，而不是在Pts中找到点之间的距离，我希望在Pts1和Pts2中找到点之间的距离。在Pts1和Pts2中都有很多级别的ID。

浏览 1提问于2015-10-16得票数 1

2回答

基于唯一值将数据帧子集成小数据帧子集并同时写入csv文件的有效方法

、、、、

根据唯一/过滤条件将大型数据帧df子集划分为较小子集的最有效方法是什么？例如，我有一个维度为22050行、5列的数据集，如下所示 id, nationality, age, gender, income 10001, France, 20, M, 45007 13328, UK, 52, F, 72308 11654, USA, 57, F, 95645 11765, UK, 39, M, 77343 10081, UAE, 41,M, 83117 10503, France, 22, F, 25665 在整个数据集中有15个独特的国家，我想根据这15个独特的国家将数据集子集为15个数据帧

浏览 38提问于2020-09-28得票数 4

回答已采纳

1回答

Python/Pandas:比较两个数据帧中的多个列，如果未找到匹配，则删除行

、、

我正在学习Python和Pandas，并试图找出最有效的方法来比较两个数据帧上的多个选定列，以找到匹配的列。例如，如果我有以下两个数据帧： Frame 1 A B C D E F 001 10 0 0 10 0 10 Frame 2 A B C D E F 200 10 0 10 0 10 0 201 0 10 10 0 0 10 202 0 10 0 0 0 0 2

浏览 11提问于2019-09-15得票数 2

回答已采纳

1回答

使用pandas数据帧修改csv中的数据

、、

我有一个这样的结构；用来创建一个pandas数据帧： my_dict = { 'name' : ["joe", "jack", "jill", "joan", "jesse","jacob", "jonas"], 'age' : [20,27, 35, 55, 18, 21, 35], 'designation': ["VP", "CEO

浏览 6提问于2019-07-15得票数 0

回答已采纳

1回答

根据PySpark中另一个数据帧的列值更新列中的值

、、

我在PySpark：df1中有两个数据帧 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+ 和df2 +---+-----------------+ |id2| items2| +---+----

浏览 1提问于2018-10-22得票数 0

回答已采纳

2回答

Scala Spark将多列对分解为行

、

如何将多列对分解为多行？我有一个包含以下内容的数据帧 client, type, address, type_2, address_2 abc, home, 123 Street, business, 456 Street 我想要有一个包含以下内容的最终数据帧 client, type, address abc, home, 123 Street abc, business, 456 Street 我尝试使用下面的代码，但它返回了4条记录，而不是我想要的两条记录 df .withColumn("type", explode(array("type

浏览 41提问于2020-01-23得票数 3

回答已采纳

2回答