我有一个从-1到+1的Pandas系列随机数:
from pandas import Series
from random import random
x = Series([random() * 2 - 1. for i in range(1000)])
x
Output:
0 -0.499376
1 -0.386884
2 0.180656
3 0.014022
4 0.409052
...
995 -0.395711
996 -0.844389
997 -0.508483
998 -0.156028
我想知道第一年为各种项目带来的收入。
鉴于以下情况,数据文件:
ID Y1 Y2 Y3
0 NaN 8 4
1 NaN NaN 1
2 NaN NaN NaN
3 5 3 NaN
我想按行返回具有非空值的第一列的名称。
在这种情况下,我想返回:
['Y2','Y3',NaN,'Y1']
我的目标是将它作为一个列添加到原始的dataframe中。
下面的代码主要是工作的,但真的很笨重。
import pandas as pd
impor
我有一个包含几个列的dataframe,其中一些列包含NaN值。我希望每一行都创建另一个列,其中包含列总数减去第一个非NaN值之前的NaN值数。
原始数据:
ID Value0 Value1 Value2 Value3
1 10 10 8 15
2 NaN 45 52 NaN
3 NaN NaN NaN NaN
4 NaN NaN
我有一个包含3个序列和一个时间轴的pandas时间序列对象。我想训练一个带有时间窗口的神经网络,因此我需要创建一个由不同移位的重复pandas列组成的矩阵。我可以用pandas.concat手动完成,但这样做需要很长时间,而且灵活性也不高。我现在尝试的是:
# Make 40 columns with the original dataframe first column and
# make 20 columns with the original dataframe second column
param_array = pandas.DataFrame()
for i in range(
在Pandas df中,我尝试跨多个列放置重复项。每行的大量数据是NaN。
这只是一个例子,数据好坏参半,所以存在许多不同的组合。
df.drop_duplicates()
IDnum name formNumber
1 NaN AP GROUP 028-11964
2 1364615.0 AP GROUP NaN
3 NaN AP GROUP NaN
充满希望的输出:
IDnum name formNumber
1
我的每一行数据中的最后两个实数都是用误差测量的。我想用np.NAN替换它们。实数的数目随行而异(也就是说,每行已经有不同数量的NAN)。列标题表示测量号,索引是一个在单元格中的实验trial.Values,等于测量读数。有些试验的测量读数比其他的要多;因此,有些行的测量读数比其他的多。下面的代码创建了一个类似于我的数据框架。
import pandas as pd
import numpy as np
data = np.array(([1,2,3,4,5,2,np.NaN],
[2,2,3,2,3,np.NaN,np.NaN],[4,4,5,1,np.NaN,np.
import matplotlib.pyplot as plt
import matplotlib.image as img
import pandas as pd
import numpy as np
import seaborn as sns
%matplotlib inline
data = pd.read_csv('http://www.biointelligence.hu/ids/fuel_data_with_errors.txt', header=0, sep='\t')
data.fillna(method="backfill"
更新
Problem 1:我有一个数据集,其中很多值都是NaN。使用main.loc[main.isna().sum(axis=1) >= 2]输出来:
ID: GNDR COUNTRY ... BIKE CAR PBLC
1 0 NaN ... NaN NaN NaN
1 0 NaN ... NaN NaN NaN
16 1
我需要从pandas.DataFrame中删除满足不寻常条件的所有行。
如果有一个完全相同的行,除了它在列"C“中有Nan值之外,我想删除此行。
给定一个表:
A B C D
1 2 NaN 3
1 2 50 3
10 20 NaN 30
5 6 7 8
我需要删除第一行,因为它在列C中有Nan,但在列C中有绝对相同的行(第二行)和实数值。
但是,第三行必须保留,因为不存在具有相同A、B和D值的行。
你如何使用pandas来实现这一点?谢谢!
对于如下数据框架,如何计算not-null values列A, C, D在Pandas中的百分比?谢谢。
id A B C D
0 1 1.0 one 4.0 NaN
1 2 NaN one 14.0 NaN
2 3 2.0 two 3.0 -12.0
3 4 55.0 three NaN 12.0
4 5 6.0 two 8.0 12.0
5 6 NaN two 7.0 -12.0
6 7 -17.0 one NaN NaN