我喜欢在pandas dataframe中填充na,其中dataframe中的两列都在同一行上。 A B C
2 3 5
Nan nan 7
4 7 9
Nan 4 9
12 5 8
Nan Nan 6 在上面的数据框中,我希望将列A和列B都有Nan的行替换为“不可用”。 因此: A B C
2 3 5
Not available not available 7
4 7 9
Nan 4 9
12 5 8
Not available not available 6 我尝试了多种方法,但得到了不想要的结果
我有一个数据框架,它有一个名为SAM的列,它包含以下数据
SAM
3
5
9
Nan
Nan
24
40
Nan
57
现在,我想分别在12、15和43值中插入Nan (因为9+3=12、12+3=15和40+3=43)。换句话说,通过将Nan添加到上一行(也可以是Nan)来填充任何3行。
我知道这可以通过遍历for循环来完成。但我们能用矢量化的方式做吗?就像ffill的一些修改版本(如果我们没有连续的NaNs,它可以在这里使用),在pandas.fillna()中。
给定以下DataFrame
A B
0 -10.0 NaN
1 NaN 20.0
2 -30.0 NaN
我希望合并列A和B,用来自列B的值填充列A中的NaN单元格,然后删除列B,从而生成如下所示的DataFrame:
A
0 -10.0
1 20.0
2 -30.0
我通过使用iterrows()函数解决了这个问题。
完整的代码示例:
import numpy as np
import pandas as pd
example_data = [[-10, np.NaN], [np.NaN, 20], [-30, np.NaN]]
exampl
我试图使用Panda库的'loc‘函数在dataset中的一个列中计算缺少的值,但是代码没有成功执行。代码行如下所示。
# Impute missing data by mean weight of each sub-category in 'Item_Weight' column
data.loc[miss_bool,'Item_Weight'] = data.loc[miss_bool,'Item_Identifier'].apply(lambda x: item_avg_weight[x])
正在生成的错误如下,
data.loc
我想用最接近的(从左侧开始) e列的值填充not NaN列的NaN。
a b c d e
0 1 2.0 3.0 6.0 3.0
1 3 5.0 7.0 NaN NaN
2 2 4.0 NaN NaN NaN
3 5 6.0 NaN NaN NaN
4 3 NaN NaN NaN NaN
例如,对于e的第二行,它最接近的Not NaN列是e by position,然后我们以7.0为例,在Pandas中可以这样做吗?谢谢。
预期输出如下所示:
a b c d e
0 1 2.0
我尝试按列合并两个CVS文件,但遇到错误。
import os
import pandas as pd
os.chdir('/home/yovel/PycharmProjects/fantasyfinal')
a = pd.read_csv("statsmerger.csv")
b = pd.read_csv("team.csv")
b = b.dropna(axis=1)
merged = a.merge(b, on = 'player')
merged.to_csv("output1.csv", index
如何将这样格式的excel文件读入pandas DataFrame? a b c d e f
Type 1 22 Car Yes 2019
Train Yes
Type 2 25 Car No 2018
Notype 1 Car Yes 2019
Train 第一行有三列,它们是合并的单元格(2行),而其余的是单独的行 问题是如果我用 data = pd.read_excel("excel
我对altair互动图有点问题。下面是代码的一小部分。
import pandas as pd
import altair as alt
import numpy as np
import random
n=300
dat = pd.DataFrame()
dat['X_axis'] = np.linspace(start=0.0, stop=1000, num = n)
mean = 4
std = 1
dat['Y_axis']=np.random.normal(loc=mean, scale=std, size = n)
dat['anom
我正在努力检查具有相同行和列索引的两个pandas数据透视表(填充值1和Nan)之间的相似性百分比。我想计算相同的行数,并将它们除以总行数。给出基本的例子:
df1
column1 column2 column3
idx1 Nan 1 Nan
idx2 1 Nan 1
idx3 Nan Nan 1
df1
column1 column2 column3
idx1 1 Nan 1
i
我试图创建一个函数,用不同的数值尺度,在多个序列中填充缺失的数字,同时为每个系列生成一个常量列。
from tika import parser
import pandas as pd
import numpy as np
import io
rawtext = parser.from_file('D:\Selenium\Texto.txt')
text = rawtext['content']
f = io.StringIO(text)
f.readline()
data = f.read()
f.readline()
def fill(d):
id
我有一个表,如下:
Sample X Y Z P
A CAT DOG
B
C CAT TIGER
D RAT
我想用值1填充单元格,用0填充空单元格。而预期输出是
Sample X Y Z P
A 1 0 0 1
B 0 0 0 0
C 0 1 1 0
D 1 0 0 0
我用过
用0填充空单元格的df.fillna(0)。如
我试图使用KNN来计算python中的分类变量。
为了做到这一点,一种典型的方法是对前面的变量进行热编码。但是sklearn ()不处理NAs,因此需要将它们重命名为创建单独变量的内容。
可复制的小例子:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
#Create random pandas with categories to impute
data0 = pd.DataFrame