我正在对数据集进行预处理,得到了行imputer = imputer.fit(X:,1:3)的错误原因。我不明白吗?我理解imputer = Imputer(missing_values = "NaN",strategy =“means”),意思是用列和行中的平均值替换缺失的值。那么,我们是否试图将数据纳入模型,这正是我所不理解的?
import pandas as pd
from sklearn import svm
import matplotlib.pylot as plt %matplotlib inline
from sklearn.preprocessing i
我有一个表格的数据框架:
Weight Day Hour
NA M 0
NA M 1
2 M 2
1 M 3
4 T 0
5 T 1
NA T 2
2 T 3
3 W 0
3 W 1
1 W 2
NA W 3
对于权重中给定的NA值,我希望用Hour具有相同值的非NA值的平均值来替换它。例如,权重中的第一个值
我想将列中的所有负值按类别替换为平均值。我可以很容易地找到每个类别的平均值。就像train_df1.groupby(train_df1['item_category'])['item_cnt_day'].mean()。
item_category
Access 1.115664
Books 1.087056
CD 2.199036
CD games 1.361757
Card 1.421528
Consoles 1.2
我用sqlite制作了一张桌子,看上去如下:
Age Height
12 186
175
169
13
15 171
我希望用其列平均值替换每一列中缺少的值。我使用了update函数,但是表中似乎没有任何可见的更新。假设上面的表格叫做测试,我已经做过了
UPDATE test SET Age=13.3 WHERE Age IS NULL;
UPDATE test SET Height=175.25 WHERE Height IS NULL;
此外,我还想知道如何将平均值与select语句自动合并,而不必手动输入
我有一个包含数值的csv文件。
val row = withoutHeader.map{
line => {
val arr = line.split(',')
for (h <- 0 until arr.length){
if(arr(h).trim == ""){
val abc = avgrdd.filter {case ((x,y),z) => x == h && y == arr(dependent_col_index).toDouble} //crashing here
Python 3.9和Pandas 1.3.4
这里是df:
1 First Name Last Name fullname
2 Freddie Mercury Freddie Mercury
3 John Lennon John Lennon
4 David Bowie David Bowie
5 John Doe
6 Joseph Joseph
7 Jovi Jovi
我的代码目前只发现f