用Pandas填充缺失的值_pandas 填充缺失值_pandas 缺失值填充 - 腾讯云开发者社区

machine-learning、feature-extraction、kaggle、sklearn-pandas

我研究了特征工程中Kaggle的fill null方法。一些玩家用另一个对象值填充NA。例如，在性别列中有‘男性’、‘女性’和NA值。该方法是用另一个对象值填充NA，比如“中间”。在此之后，它处理没有任何null的性别属性，pandas也不会找到null。我想知道这种方法对机器学习模型的性能有很好的影响，还是对特征工程有很好的影响？除此之外，在数据集中没有知识发现的情况下，有没有其他好的方法来填充NA？

浏览 0提问于2016-12-05得票数 1

1回答

在Pandas中将分类要素转换为数值要素时出错

python、pandas、scikit-learn

我的数据帧包含一个分类特征'Street‘，它可以接受两个可能的值'Grvl’或'Pave‘中的一个。我正在尝试在拟合ML算法之前将这个分类特征转换为数值。我的代码如下所示 dataset['Street']=dataset['Street'].map({'Grvl':0,'Pave':1}).astype(int) 我已经用数据帧中出现次数最多的值填充了缺少的值 dataset['Street'].isnull().sum() 我收到以下错误 ValueError

浏览 6提问于2017-07-25得票数 1

2回答

使用np.nan而不导入numpy

python、pandas、numpy

我习惯于用NaN替换空字符串，并删除空数据。 import pandas as pd import numpy as np df.replace('', np.nan).dropna() 但是，我希望我的函数使用无服务器框架运行。我需要import numpy只是为了使用np.nan，它占用了我宝贵的250 my的包大小限制。导入pd.np.nan是可行的，但有人警告说，pandas.np模块已被废弃，并将从未来版本的熊猫中删除。是否有不导入numpy np.nan 而使用的解决方案？

浏览 5提问于2020-07-22得票数 2

回答已采纳

3回答

用0填充缺失值或任何常数项(如-999 )之间有什么区别？

machine-learning

大多数教科书说，要填充缺失的值，使用的是均值/中值(数字)和最频繁的(分类)，但我使用的是一个数据集，它有太多的缺失值，而且我不能删除这些列，因为它们很重要。 train.isnull().sum() TransactionID 0 isFraud 0 TransactionDT 0 TransactionAmt 0 ProductCD 0 ... id_36 449555 id_37 44955

浏览 0提问于2020-03-17得票数 0

回答已采纳

2回答

Pandas.DataFrame interpolate() with method='linear‘和'nearest’返回不一致的后续NaN结果

python、pandas、interpolation

我使用不同的方法探索pandas.DataFrame.interpolate()，linear和nearest，当尾部有缺失数据时，我发现这两种方法的输出不同。例如： import pandas as pd # version: '0.16.2' or '0.20.3' >>> a = pd.DataFrame({'col1': [np.nan, 1, np.nan, 3, np.nan, 5, np.nan]}) Out[1]: col1 0 NaN 1 1.0 2 NaN 3 3.0 4 Na

浏览 82提问于2019-02-21得票数 3

回答已采纳

1回答

从多列概念在pandas中的列中填充na

python、pandas

我喜欢在pandas dataframe中填充na，其中dataframe中的两列都在同一行上。 A B C 2 3 5 Nan nan 7 4 7 9 Nan 4 9 12 5 8 Nan Nan 6 在上面的数据框中，我希望将列A和列B都有Nan的行替换为“不可用”。因此： A B C 2 3 5 Not available not available 7 4 7 9 Nan 4 9 12 5 8 Not available not available 6 我尝试了多种方法，但得到了不想要的结果

浏览 16提问于2020-10-12得票数 0

1回答

用上面的数据填充空白单元格

python、pandas

我有如下数据： | ID | Name | Inv | Date | Value | PO | Type | Rate | Tax | Integ | |----------|-----------|-----|------------|-------|-----|-------|-------|-------|-------| | DEADBEEF | CHEMICALS | 321 | 19-11-2017 | 14288 | UK | State | 0.00% | 3000 | 0 | | |

浏览 0提问于2018-11-25得票数 2

回答已采纳

1回答

通过将x添加到前一行熊猫来填充na值

python、pandas、dataframe

我有一个数据框架，它有一个名为SAM的列，它包含以下数据 SAM 3 5 9 Nan Nan 24 40 Nan 57 现在，我想分别在12、15和43值中插入Nan (因为9+3=12、12+3=15和40+3=43)。换句话说，通过将Nan添加到上一行(也可以是Nan)来填充任何3行。我知道这可以通过遍历for循环来完成。但我们能用矢量化的方式做吗？就像ffill的一些修改版本(如果我们没有连续的NaNs，它可以在这里使用)，在pandas.fillna()中。

浏览 1提问于2016-12-14得票数 6

回答已采纳

2回答

熊猫如何从另一行中插入值

python、pandas、dataframe

我有个数据： import pandas as pd data = {'fruit': ['pear','pear','banana', 'pear', 'pear','apple', 'apple', 'cherry','cherry'], 'fruit_type': ['unknown','pear','unknown', 'unknown

浏览 3提问于2021-07-26得票数 1

回答已采纳

2回答

填充缺失的值并进行规范化

keras、pandas、normalization、missing-data、numpy

我有两列神经网络的训练数据，它们都是缺失的值。(还有许多其他列不缺少值。) 例如 Height | Weight 180 | 70 175 | N/A N/A | N/A 我希望填充缺失的值，并将列规范化。数据是高度和权重，所以我认为一个很好的填充值应该是0或-1。这是基于Python中的深度学习一书：通常，对于神经网络，输入缺失值为0是安全的，条件是0不是有意义的值。我假设0在值为150-200的数据集中没有意义。我还被建议通过减去每一列的平均值并除以std来规范数据。这两种方法都很好--我知道怎么做和为什么要这样做。我不明白的是如何把它们结合起来。我也可

浏览 0提问于2018-07-26得票数 8

1回答

合并熊猫DataFrame中的两列

python、pandas、dataframe

给定以下DataFrame A B 0 -10.0 NaN 1 NaN 20.0 2 -30.0 NaN 我希望合并列A和B，用来自列B的值填充列A中的NaN单元格，然后删除列B，从而生成如下所示的DataFrame： A 0 -10.0 1 20.0 2 -30.0 我通过使用iterrows()函数解决了这个问题。完整的代码示例： import numpy as np import pandas as pd example_data = [[-10, np.NaN], [np.NaN, 20], [-30, np.NaN]] exampl

浏览 0提问于2019-05-08得票数 1

回答已采纳

2回答

使用Python中Panda的“loc”函数计算缺失值时出错

python、pandas、machine-learning

我试图使用Panda库的'loc‘函数在dataset中的一个列中计算缺少的值，但是代码没有成功执行。代码行如下所示。 # Impute missing data by mean weight of each sub-category in 'Item_Weight' column data.loc[miss_bool,'Item_Weight'] = data.loc[miss_bool,'Item_Identifier'].apply(lambda x: item_avg_weight[x]) 正在生成的错误如下， data.loc

浏览 0提问于2018-08-01得票数 1

3回答

如何按分组填写缺失值？

stata、missing-data

我有以下数据结构。在每组中，一些观察结果缺少value。我知道每个组只有一个非缺失值(在本例中，组1的值为10，组2的值为11 )。缺失观察值的位置在组内是随机的(即不能用前一个/后一个值填充缺失值)。如何通过分组用一个非缺失值来填充缺失值？ group value 1 . 1 10 1 . 2 11 2 . 2 11 我目前的解决方案是循环，但我怀疑有一些聪明的bysort可以使用。 levelsof group, local(lm_group) foreach group in `lm_group' {

浏览 3提问于2015-12-03得票数 4

1回答

使用Python语言中最接近的非NaN列值填充NaN

python、pandas、dataframe

我想用最接近的(从左侧开始) e列的值填充not NaN列的NaN。 a b c d e 0 1 2.0 3.0 6.0 3.0 1 3 5.0 7.0 NaN NaN 2 2 4.0 NaN NaN NaN 3 5 6.0 NaN NaN NaN 4 3 NaN NaN NaN NaN 例如，对于e的第二行，它最接近的Not NaN列是e by position，然后我们以7.0为例，在Pandas中可以这样做吗？谢谢。预期输出如下所示： a b c d e 0 1 2.0

浏览 13提问于2020-02-07得票数 1

回答已采纳

1回答

按列名合并两个cvs文件

python、pandas、csv

我尝试按列合并两个CVS文件，但遇到错误。 import os import pandas as pd os.chdir('/home/yovel/PycharmProjects/fantasyfinal') a = pd.read_csv("statsmerger.csv") b = pd.read_csv("team.csv") b = b.dropna(axis=1) merged = a.merge(b, on = 'player') merged.to_csv("output1.csv", index

浏览 17提问于2019-10-21得票数 0

1回答

列缺失值时对Sklearn输入计算机的预处理

python、scikit-learn、preprocessor

我试着用Imputer来表示缺失的值。我想跟踪所有缺失值的列，但因为我不知道它们中有哪些(列)已经被处理过:是否也可以返回所有缺失值的列？归责注当axis=0时，只包含fit缺失值的列在转换时被丢弃。当axis=1时，如果有无法填充缺失值的行(例如，因为它们只包含缺失的值)，则会引发异常。 import pandas as pd import numpy as np from sklearn.preprocessing import Imputer data={'b1':[1,2,3,4,5],'b2':[1,2,4,4,0],'b3'

浏览 0提问于2018-06-14得票数 1

回答已采纳

1回答

如何在C#数据帧中转发填充缺失的值

c#、dataframe、missing-data、deedle

我试图在Deedle C#数据框架中转发fill值，就像在python中使用pandas.ffill()函数一样。熊猫的前填充，允许在行索引和列索引中向前填充。我希望在Deedle中也这样做，在同一行中取最近的无缺失值，但从不同的列取，所以跨行，这在python和大熊猫中非常简单。我对C#和Deedle库都很陌生，我在文档中所能找到的就是如何在不跨数据框架的系列中转发填充值。任何帮助都是非常感谢的，我对此很陌生，而且我似乎在任何地方都找不到这个库的任何实质性示例。这是我的数据框架的一个例子，我正试图跨行转发填充值。因此，col3中缺失值的填充值将成为col2等行中的最后一个值。 ------

浏览 0提问于2019-08-18得票数 2

回答已采纳

3回答

在基于时间序列的负荷预测问题中，如何处理缺失值

python、machine-learning、time-series、prediction

我正在分析包含http请求日志的aws日志文件，我需要预测下一分钟的预期负载(请求数量)。然而，我发现有些时间跨度没有任何日志。在这种情况下，我是假设这些时间内的负载仅为0，还是需要进行某种插值？ time load ----------------------------------- 2018-11-07 09:45:00 40 2018-11-07 09:46:00 45 2018-11-07 09:47:00 34 2018-11-07 09:48:00 56 然后在接下来的两个小时内没有日志，然后再一次：

浏览 3提问于2019-02-02得票数 0

1回答

如何处理丢失的日期数据？

machine-learning、python、pandas、feature-engineering、kaggle

我有一个名叫GarageYrBlt的专栏，上面列出了那所房子建车库的年份。对于本专栏，我有一个nan值。用“泰坦尼克号”竞赛中缺少的年龄值填充它是否有意义(这是一种常见的方法)？

浏览 0提问于2019-07-05得票数 1

回答已采纳

1回答

Statsmodels Python缺少值

python、pca、missing-data、statsmodels

我目前正在做一个项目，我必须补上一些缺失的值。我使用Python，我看到有一种算法可以进行缺失数据的填补。这种算法被称为Nipals。因此，我决定寻找一种方法来使用它，我看到statsmodels.multivariate.pca.PCA可以帮助我。我有一个名为A的numpy数组，它有n行p列。A有一些缺少的值，这些值是NaN值。我想使用PCA来填充A。但是，没有例子可以帮助我做到这一点。有人能帮我用Nipals算法填充A吗？谢谢。对不起，我是一个法语初学者，使用英文文档对我来说并不容易。

浏览 14提问于2018-02-13得票数 4

1回答

TypeError："value“参数必须是标量、字典或系列，但您在Python中传递了"DataFrame”

python、pandas

目前，我正在讨论主题问题。我不清楚为何会这样做，以及须作出甚麽修订。代码： table = df.pivot_table(values='LoanAmount', index='Self_Employed' ,columns='Education', aggfunc=np.median) def fage(x): return table.loc[x['Self_Employed'],x['Education']] #Replacing missing values df['LoanAmou

浏览 8提问于2018-11-24得票数 1

1回答

Python熊猫被零代替，实际上用以前的值代替。

python、pandas

pandas的replace函数将目标值替换为另一个值，正如预期的那样： >>> import pandas as pd >>> >>> >>> t = pd.Series([10,20,30]) >>> t 0 10 1 20 2 30 dtype: int64 >>> t.replace(to_replace=20, value=222) 0 10 1 222 2 30 dtype: int64 >>> from numpy

浏览 1提问于2020-11-04得票数 0

回答已采纳

1回答

excel中的合并单元格成为pandas中的NaN

python、excel、pandas

如何将这样格式的excel文件读入pandas DataFrame？ a b c d e f Type 1 22 Car Yes 2019 Train Yes Type 2 25 Car No 2018 Notype 1 Car Yes 2019 Train 第一行有三列，它们是合并的单元格(2行)，而其余的是单独的行问题是如果我用 data = pd.read_excel("excel

浏览 23提问于2019-09-02得票数 0

回答已采纳

2回答

解释前向填充和后向填充(数据填充)

dataset

我能用这种方式理解吗？如果任何陈述是错误的或不准确的，请告诉我。数据填充的原因:假设我有一个连续的数据(例如，每天的日志数据)，并且丢失了部分数据。为了进行一些计算(例如，平均值)，我们首先需要给缺失的部分赋值(例如，等于现有的数据)。前向填充和后向填充是两种数据填充方法。不同的是填充方向？例如，星期二的数据(缺失)等于周一的数据(现有的)正向填充。相反的是向后填充。

浏览 0提问于2019-08-19得票数 1

回答已采纳

2回答

在python中处理数据集中的缺失值

python、pandas、data-cleaning

如何选择是丢弃NaN值，还是用数据集中的平均值(或中位数)填充它？还有什么其他技术可以清除数据集中的缺失值？让数据为数字。(在python中)

浏览 0提问于2018-05-29得票数 2

1回答

Altair:值仍然被赋予，即使它们应该被停用

python、altair

我对altair互动图有点问题。下面是代码的一小部分。 import pandas as pd import altair as alt import numpy as np import random n=300 dat = pd.DataFrame() dat['X_axis'] = np.linspace(start=0.0, stop=1000, num = n) mean = 4 std = 1 dat['Y_axis']=np.random.normal(loc=mean, scale=std, size = n) dat['anom

浏览 2提问于2020-03-27得票数 1

1回答

熊猫填从最后一行符合一定的标准？

python、pandas、data-science

我有一只熊猫，它的部分看起来像这样(0是NaN的)： ... 18 19 20 197 14 28 14 198 14 0 14 200 0 0 0 201 0 0 0 202 15 23 12 203 16 0 18 204 0 0 0 205 0 0 0 ... 我需要用最后一行的值填充在特定列上有NaN的行，后者在这些列上没有NaN。在我的示例中，行200,201将使用来自第197行的值填充，而从第202行的第204 205行填充。 LE:第198行和第203行并不是在我感兴趣的所有列中都有Na

浏览 1提问于2019-03-03得票数 3

回答已采纳

1回答

检查两个数据帧(数据透视表)的相似性

python、pandas

我正在努力检查具有相同行和列索引的两个pandas数据透视表(填充值1和Nan)之间的相似性百分比。我想计算相同的行数，并将它们除以总行数。给出基本的例子： df1 column1 column2 column3 idx1 Nan 1 Nan idx2 1 Nan 1 idx3 Nan Nan 1 df1 column1 column2 column3 idx1 1 Nan 1 i

浏览 5提问于2021-03-09得票数 1

回答已采纳

1回答

相当于R 'MAX_VALUE‘的熊猫

r、python-3.x、pandas

我正在使用Pandas将R代码翻译成Python，我已经找到了相当于所有R操作的Pandas，但是现在我得到了以下R代码： dtfr %>% mutate(a_column = ifelse(a_column == "INFINITY", MAX_VALUE, a_column)) 这是我的熊猫等价物： dtfr['a_column'] = np.where(dtfr['a_column'] == 'INFINITY', MAX_VALUE, dtfr['a_column']) 我一直在寻找与Pandas中的

浏览 7提问于2022-01-02得票数 1

回答已采纳

1回答

奇怪的“重索引错误”将系列转换为DataFrame

python-3.x、pandas、dataframe

我有两个Series对象，从我的角度来看，它们看起来完全相同，只是它们包含不同的数据。我尝试将它们转换为DataFrames，并将它们作为单独的列放在同一个DataFrame中。出于某种原因，我无法理解，其中一个系列将高兴地转换为一个DataFrame，而另一个拒绝转换时，放置在一个容器(列表或迪克)。我得到一个重新索引错误，但没有重复的索引在这两个系列。 import pickle import pandas as pd s1 = pickle.load(open('s1.p', 'rb')) s2 = pickle.load(open('s2.p

浏览 1提问于2016-10-17得票数 0

回答已采纳

2回答

将空字符串替换为列的模式

python、pandas

我有以下pandas数据帧： df = pd.DataFrame([["hitesh","","HAIK"],["hitesh","red","ll"],["haikent","red","tt"],["","","HAIK"]]) 我正在尝试将数据帧的空字符串替换为每列的相应模式。我在努力 df= df.replace("" , df.mode()[0]) 但这只是用第一列模式替换了数

浏览 9提问于2017-03-10得票数 2

回答已采纳

1回答

如何在R中使用包含空白单元格的导入文件中的表？

r、import

我试图通过导入外部文件来使用我在外部文件上的一个表，并使用它来制作一些图形，但它给了我一个关于空格的错误消息，所以我在谷歌上看到一些人用-999填充它，所以我也这样做了，也尝试了null，但似乎没有一个有效，因为它似乎正在考虑这些值……如何才能使这些值被视为不存在？我的脚本： datafilename <- "SGX.txt" person.data <- read.table(datafilename,header=TRUE) panel.cor <- function(x, y, digits=2, prefix="", cex.co

浏览 4提问于2015-03-25得票数 0

2回答

从Dataframe对象-python筛选字符串和整数值

python、excel、pandas

我想在一个列中实现对excel文件的操作，该列有字符串和整数数据，但该列是对象类型。我的数据在Excel中如下所示：(字符串和数字的组合) Time Spent 3600 0 None 1800 0 我尝试了下面的代码 if (df['Time Spent']=='None').all(): df['Time Spent'] = 0 else: df['Time Spent'] = df['Time Spent'].astype('int')/3600 我所犯的错误 Index

浏览 1提问于2019-07-07得票数 3

回答已采纳

4回答

如何处理熊猫DataFrame中的缺失值？

python、python-3.x、pandas、dataframe、missing-data

我有一个Pandas Dataframe，它有一些缺失值。我想用一些不会影响统计数据的东西来填充缺失的值，这是我将对数据执行的操作。举个例子，如果在Excel中，你尝试对一个包含5个单元格和一个空单元格的单元格求平均值，那么平均值将是5。我希望在Python中也是如此。我尝试用NaN填充，但是如果我对某一列求和，例如，结果是NaN。我也尝试用None填充，但得到了一个错误，因为我对不同的数据类型求和。有人能帮忙吗？提前谢谢你。

浏览 25提问于2019-02-11得票数 0

回答已采纳

2回答

是否有一种方法可以用Flux 0值点来填充稀疏数据的结果？

influxdb、flux-influxdb

我每5分钟就有点散开，当值为0时，点就被省略了。我想用空值填充省略的数据。我知道用InfluxQL我能做到： group by time(5m) fill(0) 但是我使用的是InfluxDB 2。 from(bucket:"%v") |> range(start: %d) |> filter(fn: (r) => r._measurement == "volume" and r.id == "%v") |> window(every: 5m, peri

浏览 0提问于2021-07-04得票数 2

回答已采纳

2回答

Pandas:对NaN值进行`or`操作

python、pandas、dataframe

我有一个包含3列的DataFrame，这样每一列都可以有一个值NaN。我想根据这3个值填充第4列，以便对这些列应用or操作:如果第一列不是NaN，则获取它的值，否则检查第二列，依此类推。因为NaN值不是False，所以不能按原样使用or运算符。这是我附带的代码，但它不是Pythonic式的或者Pandas式的。有没有内置的函数可以做到这一点？或者，如果你有任何其他的建议？ import pandas as pd import numpy as np nan = np.NaN df = pd.DataFrame({"a": [nan, 1, nan], "b"

浏览 22提问于2021-07-06得票数 1

回答已采纳

1回答

如何将具有不同数量元素的多个列表转换为csv文件

python

我一直在尝试使用pandas将多个不同长度的列表转换为CSV文件 list_1 = [0,1,2] list_2 = [0,7] df = pd.DataFrame.from_records({"col1": list_1, "col2": list_2) df.to_csv("data.csv", sep=',',index=False) 然而，这段代码需要每个列表中相同数量的元素，而我一直找不到一段允许这样做的代码

浏览 18提问于2020-03-26得票数 0

回答已采纳

1回答

插值一个级数，并输出第二个(常数)级数的常数。

python、pandas、dataframe、missing-data

我试图创建一个函数，用不同的数值尺度，在多个序列中填充缺失的数字，同时为每个系列生成一个常量列。 from tika import parser import pandas as pd import numpy as np import io rawtext = parser.from_file('D:\Selenium\Texto.txt') text = rawtext['content'] f = io.StringIO(text) f.readline() data = f.read() f.readline() def fill(d): id

浏览 1提问于2020-09-13得票数 3

回答已采纳

1回答

通过对包含另一列中字符串值的子集的字典进行映射来创建dataframe列。作为它的关键

python、pandas、dataframe、dictionary

我有一个字典商店，它将outlet的名称作为键，将outlet的种类作为其值 stores = {'McDonalds':'Fast food','African and Eastern Beverage':'Alcohol','Baskin Robbins': 'ice Cream'} 我有一个pandas数据帧，其中包含插座的名称和分支位置(在Merchant列中)，其中一些包含MerchantType的NaN值我需要使用商店字典填充那些具有NaN值并匹配商家类型的行的MerchantTyp

浏览 13提问于2019-02-11得票数 1

回答已采纳

2回答

如何在pandas中替换包含值为1的单元格和为0的空单元格？

python、pandas

我有一个表，如下： Sample X Y Z P A CAT DOG B C CAT TIGER D RAT 我想用值1填充单元格，用0填充空单元格。而预期输出是 Sample X Y Z P A 1 0 0 1 B 0 0 0 0 C 0 1 1 0 D 1 0 0 0 我用过用0填充空单元格的df.fillna(0)。如

浏览 9提问于2020-03-12得票数 2

回答已采纳

2回答

包含字符串和数字重复项的pandas对象列

python、pandas

我有过 import pandas as pd import numpy as np a = pd.DataFrame({'A':['1', '0', '1.0', '0.0', 1.0, 0.0, 'not_ind', np.nan]}).astype('O') print(a['A'].unique()) 该值集为： array(['1', '0', '1.0', '0.0', 1.0, 0.0,

浏览 42提问于2020-12-02得票数 1

回答已采纳

1回答

ValueError:操作数不能一起广播

python、pandas、numpy、machine-learning、scikit-learn

我试图在数据集上应用Gaussian Naive Bayes模型来预测疾病。当我预测使用训练数据时，它的运行是正确的，但是当我试图预测使用测试数据时，它给了ValueError。 runfile(‘D:/ROFI/ML/心脏病/Prediction.py’，wdir=‘D:/ROFI/ML/心脏病’)回溯(最近一次调用)：文件""，第1行，在runfile中(‘D:/R菲/ML/心脏病/pretion.py’，wdir=‘D:/R菲/ML/心脏病’) 文件"C:\Users\User\Anaconda3\lib\site-packages\spyder\utils\

浏览 1提问于2017-06-19得票数 0

回答已采纳

1回答

pd.dataframe问题，索引13给出了一个错误吗？

python、pandas

因此，您可以看到，我的proteinID dataframe有4292个成员，当我试图打印它们时，我在索引13处得到一个错误，我不明白为什么。知道怎么回事吗？ print proteinID.shape print X_final.shape for i,prot in enumerate(X_final): print i print prot print proteinID[i] 这给了我： (4292L,) (4292L, 4L) 0 [ 0.01070217 0.86624627 0.30031799 1.0022054 ] Q9BV57 1

浏览 0提问于2015-11-05得票数 0

回答已采纳

1回答

处理数据集中的缺失值

validation、machine-learning、dataset、data-analysis

我们应该在多大程度上填充数据集中某个特征的缺失值，以便它不会变得多余？我有一个最多有42000个观察值的数据集。有三个特征丢失了大约20000,35000和7000值。我应该仍然通过填充这些缺失值来使用它们，还是应该丢弃这三个功能？在给定特征缺失值的数量的情况下，我们如何确定保留或转储特征的阈值？

浏览 1提问于2015-10-03得票数 0

2回答

一个热编码保存NAs以进行归责

python、scikit-learn、nan、missing-data、one-hot-encoding

我试图使用KNN来计算python中的分类变量。为了做到这一点，一种典型的方法是对前面的变量进行热编码。但是sklearn ()不处理NAs，因此需要将它们重命名为创建单独变量的内容。可复制的小例子： import pandas as pd import numpy as np from sklearn.preprocessing import OneHotEncoder from sklearn.impute import SimpleImputer #Create random pandas with categories to impute data0 = pd.DataFrame

浏览 9提问于2021-03-10得票数 0

回答已采纳

1回答

具有第一个非空唯一值的groupby agg

pandas

下面的代码给出错误 import pandas as pd import numpy as np df=pd.DataFrame({"item":['a','a','b'],"item1":['b','d','c']}) df.groupby("item").agg(model_list=("item1", np.unique)) 由于项目a有两个唯一值(即b和d)，如何修改它以返回第一个非空的唯一值？

浏览 28提问于2021-03-18得票数 0

2回答

如何对连续的列值进行分组(np.nan)？

python-3.x、pandas、numpy、dataframe

我得到了以下pandas.DataFrame，其中列value是输入数据，group是所需的输出。 import pandas as pd import numpy as np df = pd.DataFrame({'value': [0.1, 0.2, np.nan, 0.2, 0.3, 0.5, np.nan, 0.1], 'group': [1, 1, np.nan, 2, 2, 2, np.nan, 3]}) 我想为用np.nan分隔的每个连续数字段分配一个唯一的ID。我可能需要一些聚类方法来实现这一点，但我还找

浏览 17提问于2020-10-08得票数 0

回答已采纳

1回答

无法在pandas数据帧中执行空值分析

pandas、machine-learning、data-science

我想在这里执行空值分析。在这里，我提到了数据集的前两行 Shop_name Bikes_avaiable Shop_location Average_price_of_bikes Rating_of_shop NYC Velo Ninja,hbx Salida 5685$ 4.2 Bike Gallery dtr,mtg,Harley Davidson Por

浏览 16提问于2020-06-28得票数 0

2回答

dask数据帧读取地板模式差异

python、dataframe、parquet、dask

我所做的工作如下： import dask.dataframe as dd from dask.distributed import Client client = Client() raw_data_df = dd.read_csv('dataset/nyctaxi/nyctaxi/*.csv', assume_missing=True, parse_dates=['tpep_pickup_datetime', 'tpep_dropoff_datetime']) dataset是从Mathew所做的演示中提取出来的，并被用作dask data

浏览 0提问于2018-07-20得票数 2

回答已采纳

1回答

为什么“没有”在dataframe.loc中不起作用，但是"!= None“很好？

python、pandas

我目前正在使用，我希望在dataframe中选择没有任何实体属性的所有数据条目。 df_ = df.loc[df['entities'] != None] 看起来挺好的，但是 df_ = df.loc[df['entities'] is not None] 将引发KeyError，这是文件"pandas_libs\index.pyx"，第107行，>pandas._libs.index.IndexEngine.get_loc文件"pandas_libs\index.pyx"，第128行，>pandas._libs.

浏览 0提问于2019-08-27得票数 5