问题是如何在熊猫数据栏中用最频繁的级别填充NaNs?
在R randomForest包中有选项:A completed data matrix or data frame. For numeric variables, NAs are replaced with column medians. For factor variables, NAs are replaced with the most frequent levels (breaking ties at random). If object contains no NAs, it is returned unaltered.
在Pa
例如,我有一个包含城市名称列的pandas DataFrame,并且我已经有了一个大型预定义的城市名称列表,这些城市名称将在模型中用作虚拟变量。我希望列表中的每个城市名称都作为新列添加,然后用一串0和1填充,其中城市名称列中的字符串与虚拟变量的列名相匹配。
从我的角度来看,我需要做的事情大致如下:
for dv in dummy_var_list:
df[dv] = df[df[city_names]==dv]
我不确定这是否是一种有效或正确的方法。我需要加入某种'if‘声明或掩蔽,我不确定该怎么做。
例如,我有一个城市名称列表:
['paris','s
我想在Pandas中用'‘替换null:
final_data.replace("null","")
在dataframe中,null将替换为NaN。使用final_data.fillna(" ") NaN不替换为'‘。任何帮助都将不胜感激。
no ip
20457 NaN
20458 NaN
20459 NaN
20460 NaN
20461 127.0.0.1
20462 NaN
向pandas.DataFrame对象添加一行的简单任务似乎很难完成。有3个与此相关的堆栈溢出问题,没有一个给出有效的答案。
这就是我想要做的。我有一个DataFrame,我已经知道它的形状以及行和列的名称。
>>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z'])
>>> df
a b c d
x NaN NaN NaN
我的问题是泛型。好吧,再试一次。我想要一个在第一列a中包含每月日期的数据。THen,我想遍历这些日期并填充第b行和第c行中的值。
import pandas as pd
from pandas import *
import datetime as dt
#try to generate a dataframe with dates
#This ist the dataframe, but how can I fill the dates
dfa = pd.DataFrame(columns=['date', '1G', '10G'])
p
如何在pandas数据帧中填充NaN值?我的数据是这样的
id state zone
xxx AP south
xxx AP
xxx AP
xxx AP
xxx delhi north
xxx delhi
xxx delhi
xxx delhi
xxx delhi
基于已知zone只属于state的AP列,如何在south列中填充缺失的值,如何使用pandas来填充值?
我试图在我的DataFrame all_files_d中用0填充所有浮动列all_files_d值,然后将其放入一个空列表或名为ts的DataFrame中。
我的数据样本如下:
ColX ColY
56.9 6.4
67.5 NaN
NaN 8.9
NaN NaN
我尝试遵循这个问题代码,因为它似乎对一些用户有效,但是似乎存在NaN值,而且它没有填充任何内容:
这是我的密码:
ts = []
all_files_d.apply(lambda x: x
我正在尝试将.csv中的NULL值转换为NaN,然后使用这些编辑保存一个文件。下面代码中的f在数据中的正确位置具有NaN值。但是,我无法将其另存为.csv。错误显示在代码下方。
#take .csv with NULL and replaces with NaN - write numerical and NaN values to .csv
import csv
import numpy as np
import pandas
f = pandas.read_csv('C:\Users\mmso2\Google Drive\MABL Wind\_Semester 2 2016\W
考虑到我有一个熊猫系列,我想用零填充NaNs如果all值是NaN,如果all值是0或NaN值。
例如,我想用零填充下面的系列中的NaNs。
0 0
1 0
2 NaN
3 NaN
4 NaN
5 NaN
6 NaN
7 NaN
8 NaN
但是,我不想想要填充to (0)以下系列:
0 0
1 0
2 2
3 0
4 NaN
5 NaN
6 NaN
7 NaN
8 NaN
我查看了
我有一个看起来像这样的dataframe
Name Total
a 400
b 120
c 500
d 512
e 250
我有一个函数,它接受2个值,并在一些自定义后返回给我一个值,我想为每个Name创建一个column,如下所示
Name Total a b c d e
a 400
b 120
c 500
d 512
在pandas.fillna中,
method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
Method to use for filling holes in reindexed Series pad / ffill: propagate last valid observation forward to next valid backfill / bfill: use NEXT valid observation to fill gap
如何向后和向前填充值?似乎没有一种选择能做到这一点。
我在pandas中创建了一个分层数据帧:
import pandas as pd
import numpy as np
col_index = pd.MultiIndex.from_product([[0,1], ['a', 'b', 'c']])
df_outer = pd.DataFrame(index=range(4), columns=col_index)
print(df_outer)
0 1
a b c a b c
0 NaN Na
如果我有一个这样的数据帧: A
0 Ascent
1 NaN
2 NaN
3 Descent
4 NaN
5 Ascent 如何填充单词之间的值,使'Ascent‘和'Descent’之间的NaN值填充为'Above‘,而'Descent’和'Ascent‘之间的NaN值填充为'Below’。这样我就可以得到这样的Pandas数据帧: A
0 'Ascent'
1 'Above'
2 'Above'
3 'D
我有一个空数据,如:
import pandas as pd
df = pd.DataFrame(columns = ['A', 'B', 'C', 'D'])
我有另一个数据格式:
df1 =
A D B
20181010 12 13
20181010 14 13
20181010 5 13
20181010 7 13
我希望用来自df1的数据填充df,以获得另一个数据,如下所示:
A B C D
20181010 13 NaN