我有一个基于其他数据集创建的数据集。在我的新数据名中,一些列具有NaN值。我想在每一列上做一个日志。但是,我需要所有的行,即使它们有NAN值。在应用log之前,我应该如何处理NAN值?例如,考虑以下数据集:
a b c
1 2 3
4 5 6
7 nan 8
9 nan nan
我不想删除具有NaN值的行。我需要他们申请他们的日志。
例如,我需要在第6行中使用值7和8。谢谢。
我有一个数据框架df,其中一些行相对于列的子集是重复的:
A B C
1 Blue Green
2 Red Green
3 Red Green
4 Blue Orange
5 Blue Orange
我希望删除(或用虚拟字符串替换)有关B和C的重复行的值,而不删除整行,理想情况下生成:
A B C
1 Blue Green
2 Red Green
3 NaN NaN
4 Blue Orange
5 Nan NaN
根据这个线程:,我尝试过使用pd.Series.duplicat
我有下面的表格,它是稀疏的,但也有重复的列。
+------------+---------+
| LX ID | ISIN |
+------------+---------+
| A | X |
| B | Y |
| | Z |
| B | |
| | X |
| A | |
| B | Y |
| A | X |
+-
嗯,我有一个非常大的数据,简而言之,我可以说我有10K事件(行),在每个事件中,我有不同的站(列,最多有30个站),我想设置列的最大数量(例如20列),而那些有超过20列的事件被排除在外,
我的问题是如何找到有超过20列的行(在10K内),然后drop()它们。
例如,在下面的图片中,我希望将7个站点(列)设置为长度,因此应该删除超过7个站点的行。
我不知道做循环会不会起作用
for i in range(7,10):
if df.iloc[i]['station8','statoin9','station10']== True:
我所拥有的:
df
Name |Vehicle
Dave |Car
Mark |Bike
Steve|Car
Dave |
Steve|
我想从Name列中删除重复项,但只有在Vehicle列中的相应值为null时才行。我知道我可以用
df.dropduplicates(subset=['Name'])
对于任何一个Keep =,或者'First' or 'Last',但是我要寻找的是从Name列中删除副本的方法,其中Vehicle列的对应值是null。因此,基本上,如果Name列是而不是为null,则保留,然后删除其余的。如果名称没有重复
我有两列('Surname‘和'PostCode')。数据框已经过筛选,仅包含重复的姓氏: Surname | PostCode
Adams | NaN
Adams | NaN
Bryan | NX203
Bryan | NaN
Cormack | NaN
Cormack | NaN
Cormack | NZ233
Dylan | NaN
Dylan | NaN
Dylan | NaN 其中一些根本没有post代码。然而,对于那些已经有的,我想用任何东西来填充缺失的部分。例如,包含'Bryan‘的第二行应该用NX203填充(就像上面
我有一个数据帧,例如: A B C D E F G
0 9 34 1 1 Nan 9 3
1 Nan 34 0 9 Nan 0 2
2 0 8 Nan 3 9 11 0
3 0 8 15 3 9 11 0
4 Nan 6 1 3 Nan 2 3
5 1 6 1 3 44 2 3 我想检查哪些行在B、D和G列中有重复值。如您所见,第2行和第3行有重复值,第4行和第5行也有重复值。我必须删除重复的行,但我想删除具有NAN值的行(2和4)。 我尝试过
我有一张数据文件,看起来像:
PRIO Art Name Value
1 A Alpha 0
1 A Alpha 0
1 A Beta 1
2 A Alpha 3
2 B Theta 2
如何转换dataframe,使其具有所有唯一的名称作为列,并具有相应的值(注意,重复的行我想忽略)?所以在这种情况下:
PRIO Art Alpha Alpha_value Beta Beta_value Theta Theta_valu
我有许多具有以下结构的数据格式。
TRCODEP 10101 10201 20101 20201 20203
43826 4:00:00 NaN NaN NaN NaN
43827 NaN NaN NaN NaN NaN
43828 NaN 20:00:00 NaN NaN NaN
43829 NaN NaN NaN 20:35:00
因此,我正在寻找一种有效的方法来完成以下工作: 假设我有A列和B列,其中B包含重复的值。我需要设置col,以便它包含作为其副本的行的col中的值 |-----------|-----------|-----------|
| Col A | Col B | Col C |
|-----------|-----------|-----------|
| 1 | apple | |
|-----------|-----------|-----------|
| 2 | apple | 1
我有下面的协方差矩阵
a b c d
a 0.0161 0.0009 0.0008 0.0000001
b 0.0009 0.0163 NaN 0.0006
c 0.0008 NaN 0.0209 NaN
d 0 0.0006 NaN 0.0077
我想过滤这个矩阵,这样就只剩下那些非NaN的列和行了,有没有一种方法可以做到这一点,而不是嵌套循环?
所以这应该变成
a b d
a 0.0161 0.0009 0.0
我有一个类似于这个的Pandas数据帧:
age name sex
0 30 jon male
1 blue php null
2 18 jane female
3 orange c++ null
我正在尝试将每隔一行连接到前一行,添加额外的列:
age name sex colour language other
0 30 jon male blue php null
1 18 jane female oran
我有一个数据集,有各种网格站及其与其他网格站的连接,我需要从这些数据中绘制出传输线。它看起来像这样(在原始的dataframe中大约有100行):
>df
Name Latitude Longitude Link 1 Link 2 Link 3 Link 4 Link 5
0 A 34.466667 72.200000 B NaN NaN NaN NaN
1 B 33.766667 72.366667 A C D NaN
我正在尝试将包含重复行的数据帧转换为列,如下所示
INPUT
Key | Value
A | 1
B | 2
C | 3
A | 4
B | 5
C | 6
EXPECTED OUTPUT
A | B | C
1 | 2 | 3
4 | 5 | 6
有很多选项,比如pivot(),unstack(),groupby()等等,但是我不确定只有2列才能使用它,如输入中所示。
这是我试图在使用Pandas中读取的数据文件的一个例子。所有的文件都有不同数量的注释行,但是所有文件都用BEGIN开始数据部分,以END结尾,然后可能是换行符。
!Example data file
!With commands delimited by exclamation points
!Not always the some number of comment lines
BEGIN
300,-1.0342501,-0.07359
5298,-0.9889674,0.06514
1029,-0.981307,0.130398
1529,-0.971765,0.1945281
END
这
我是Python和Pandas的新手;我已经寻找了几天的解决方案,但没有成功……这就是问题所在: 我有一个类似下面的数据集,我需要剔除一些行的前几个值,以便每行中的最高值在列A中。在下面的示例中,第0行和第3行将丢弃列A中的值,第4行将丢弃列A和B中的值,然后将所有剩余的值向左移动。 A B C D
0 11 23 21 14
1 24 18 17 15
2 22 18 15 13
3 10 13 12 10
4 5 7 14 11 所需 A B C D
0 23 21 14 NaN
1