我有两个数据帧需要合并。数据帧共享所有相同的列。我基于一个共享变量worker_ID进行合并。然而,其他变量通常是不相交的:一个数据帧将有一个"NA“,另一个数据帧将有一个给定变量的另一个值。我如何才能以这样一种方式进行合并,使输出只保留非NA值?
x = worker_ID Var_1 Var_2 Var_3
1 33 NA NA
2 NA 46 NA
y = worker_ID Var_1 Var_2 Var_3
1 NA 75 NA
2 NA
我正在尝试重命名基于另一个数据帧的数据框的列。如何使用Scala实现这一点?
基本上,我的数据看起来像这样
DataFrame1
A B C D
1 2 3 4
我还有另一个表,它看起来像这个DataFrame2
Col1 Col2
A E
B Q
C R
D Z
我想相对于其他数据帧重命名我的第一个数据帧的列。因此,预期输出应如下所示:
E Q R Z
1 2 3 4
我尝试使用PySpark (由从复制的)编写代码,运行良好:
name_dict = datafram
我有一个200k行的数据帧,其中有一个名为"departament_name“的字符列,该列中的一些值包含一个特定的字符:"?”。例如:"GENERAL SAN MART?N“、”UNI?N“等。我想使用另一个750k行的数据帧替换这些值,该数据帧包含一个也名为"departament_name”的列,但此列中的值是正确的。按照这个例子,它将是:"GENERAL SAN MARTIN","UNION",等等。
我是否可以使用模式识别自动完成此操作,而无需创建字典(此问题有几个值)。我的目标是拥有一个统一的数据集,其中包含两个数据帧
这个问题非常类似于old one,但有一个重要的区别:我有一个基于多列的键。无论如何,就像在链接的问题中一样,我不需要2个数据帧的merge,而是一个新列的insert (基于vlookup等效项)。作为一个具体的例子,假设我有一个数据帧df2.dtypes Fruit object
Qty int64
Year int64 和另一个数据帧df3.dtypes Manager object
Fruit object
Year int64 我假设我可以为它们构建一个由Fruit和Year组成的密钥。我试着去做 df2.insert(1,
我有一个pandas数据帧,它的一个列保存了另一个数据帧的索引,我想在这个数据帧中创建另一个列,使用字典保存索引作为关键字,并从另一个数据帧中的列中获取值。
例如,
Dataset1
A B C
0 9 1 [1,3]
1 7 2 [0,1]
在上面的数据集中,列C的索引为dataset2。
Dataset2
A B C D
0 1 4 3 8
1 2 3 5 7
3 4 6 9 8
我的输出数据集在dataset1中应该有一个新列,其中key作为dataset2的索引,value作为dataset2中列D的值。所以输出应该是这样的,
Dataset1
A B C
我有两个熊猫数据帧:
数据帧1:
ITEM ID TEXT
1 some random words
2 another word
3 blah
4 random words
数据帧2:
INDEX INFO
1 random
3 blah
我想要将( dataframe 2的) INFO列的值与dataframe 1的TEXT列进行匹配。如果匹配,我希望看到一个新的列带有"1“。
如下所示:
ITEM ID TEXT MATCH
1 some random words
我有一个列表,其中包含大约45个8列的数据帧。现在,我想根据特定列中出现的特定值来设置数据帧的子集。代码: for z in list_dataframes:
if(z['Segmentation']=="FAST"):
list_fast.append(z) 给我一个错误,说明一个级数的真值是模棱两可的。有人能告诉我怎么解决这个问题吗?附注:另一个完全不同的问题是如何从包含空和非空数据帧的数据帧列表中删除空数据帧。
我有两只熊猫的数据框架,看起来是这样的:
data_frame_1:
index un_id city
1 abc new york
2 def atlanta
3 gei toronto
4 lmn tampa
data_frame_2:
index name un_id
1 frank gei
2 john lmn
3 lisa abc
4 jessica def
我需要通过un_id列在新