我担心的是使用熊猫来删除“未知”关键字中的空值。当我上传NaN文件时,这个特定的数据集恰好有所有带有此关键字的.csv空值作为默认值。
图片:关于数据集本身的信息如下:
<class 'pandas.core.frame.DataFrame'>
Index: 119 entries, ROMANIA to CZECH REPUBLIC
Data columns (total 7 columns):
authority 119 non-null object
date 119 non-null obje
我有一只熊猫数据,它从桌子上提取数据。该表可以是数据库中的任意给定表。表中可能有未知的列和数据类型。我使用的数据库是Redshift。
在获得熊猫DF中的数据后,我需要检查数值/十进制类型的列中的nan值,如果有任何具有nan值的列,则需要将值更改为0。
col_list_nan = pd.columns[pdf.isna().any()].tolist()
for i in col_list_nan:
pdf = pdf[i].replace(np.nan, 0)
如何更改列值并返回保留未更改的列和替换的列(0而不是nan )的完整数据帧( dataframe )
我有一个数据框架,如下所示:
boat_type boat_type_2
Not Known Not Known
Not Known kayak
ship Not Known
Not Known Not Known
ship Not Known
我想创建第三列boat_type_final,它应该如下所示:
boat_type boat_type_2 boat_type_final
Not Known Not Known cruise
Not Known kayak kayak
ship Not Kno
我有一个DataFrame:
test = database[['WEATHER']]
天气的一些值是“未知的”和“其他的”,这并没有给它带来太多的价值,所以我想把它们改为NaN。因此,我尝试使用以下代码:
for i in range(len(test)):
if test['WEATHER'][i] == "Other" or test['WEATHER'][i] == "Unknown":
test['WEATHER'][i] = np.nan
这个错误不断出现:
我的表格:
In [15]: csv=u"""a,a,,a
....: b,b,,b
....: c,c,,c
....: """
In [18]: df = pd.read_csv(io.StringIO(csv), header=None)
将空列填充为“未知”
In [19]: df
Out[19]:
0 1 2 3
0 a a NaN a
1 b b NaN b
2 c c NaN c
In [20]: df.fillna({2:'UNKNOWN'})
得到了错误
V
对于我的机器学习代码,我有一些带有'?‘的未知值在我的csv文件中。因此,我尝试用'Nan‘替换它们,但它抛出了一些错误。以下代码用于替换“?”我用过的。有没有人能解决这个问题?提前感谢!
import numpy
import pandas as pd
import matplotlib as plot
import numpy as np
df = pd.read_csv('cdk.csv')
x=df.iloc[:,0:24].values
y=df.iloc[:,24].values
from s
我有这些未知数和方程: u1,u2,...u10和eq1,eq2,...eq10。我目前正在使用vpasolve来解决它们,通常它们是值得计算的,但有时它们的值太低(<0.0001),所以我想要消除它们,在vpasolve解决了其余的(大约10分钟)之后,我应该验证它是否错误或不消除未知。
所以这意味着:
verif=zeros(10); %false value for removing unknowns
syms if verif(1)=0
write 'u1'
end
..。以此类推每10个未知数。vpasolve将有一种类似的方法来决定是否写了未知数和方程。这是我
我已经阅读了关于Fortran比较(和)中使用的的内容丰富的文章,我认为我已经大致掌握了所发生的事情。
我的问题更多的是关于NaN的一般使用。
假设我收集了一批reals,我还不知道它们的价值是什么。因此,我将它们全部设置为NaN,实际上,我使用NaN来表示“未分配”。对于这是否是一个好主意,似乎有一些,我已经阅读了使用巨型(1.0)或其他一些“神奇数字”的建议。
但是使用NaN似乎有真正的好处,因为任何涉及值NaN变量的计算都会导致NaN。这是有帮助的(在数学意义上可能是“正确的”)。
例如,如果x被设置为NaN,且y为1.23,则
z = x + y
z = x - y
z = x * y
我有一个长的代表分子态的数矩阵。子集可能如下所示:
states = [...
1 1 1 1
1 1 1 1
1 0 1 1
NaN 0 NaN NaN
1 0 1 0
1 0 1 1
NaN NaN NaN NaN
1 0 1 1
NaN NaN NaN NaN
1 1 0 0
];
其中NaN值用于表示未知的状态。实际上,这个列表可能有数十万个值。如果
我有一个如下形状的.txt文件。实际上,未知的值只是空白:
----Header---
Description,
a few lines of description
Still description
# RESIDUE AA STRUCTURE BP1 BP2
1 79 A G 0 0 97
2 80 A A - 0 0 28
3 81 A V E -A 134 0A 53
4 82 A F E -A 133