Pandas:使用.where()计算值将行保留为空

Pandas是一个开源的数据分析和数据处理工具，提供了丰富的数据结构和数据操作功能。其中，.where()是Pandas中的一个函数，用于根据条件对DataFrame或Series进行元素级别的筛选和替换。

使用.where()函数可以将行保留为空，具体操作如下：

首先，导入Pandas库并创建一个DataFrame对象：

import pandas as pd

data = {'A': [1, 2, 3, 4, 5],
        'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

使用.where()函数对DataFrame进行筛选和替换：

df = df.where(df['A'] > 3)

上述代码中，通过条件df['A'] > 3对DataFrame进行筛选，将满足条件的行保留下来，不满足条件的行则被替换为空。

查看结果：

print(df)

输出结果为：

     A    B
0  NaN  NaN
1  NaN  NaN
2  NaN  NaN
3  4.0  9.0
4  5.0  10.0

可以看到，满足条件的第4行和第5行被保留下来，而不满足条件的前三行被替换为空。

使用.where()函数的优势在于可以方便地进行条件筛选和替换操作，同时保持DataFrame的结构不变。

在云计算领域，腾讯云提供了一系列与数据分析和处理相关的产品和服务，例如腾讯云数据仓库（TencentDB）、腾讯云数据湖（Tencent Cloud Data Lake）等，可以帮助用户在云端高效地进行数据处理和分析任务。具体产品介绍和链接地址可以参考腾讯云官方网站。

相关·内容

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

在pandas中也有类似的操作 ? 查找空值在pandas检查空值是使用notna()和isna()方法完成的。...tips WHERE tip > 9; 在pandas中，我们选择应保留的行，而不是删除它们 tips = tips.loc[tips['tip'] <= 9] 五、分组在pandas中，使用groupby...在pandas中的等价操作为 ? 注意，在上面代码中，我们使用size()而不是count() 这是因为count()将函数应用于每一列，并返回每一列中非空记录的数量！....: 'value': np.random.randn(4)}) 内连接内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行，在SQL中实现内连接使用INNER...上面是UNION ALL保留重复值，如果希望删除可以使用 drop_duplicates() ?

3.5K3 1

图解四个实用的Pandas函数！

面对这样的需求我们可以选择自己写一个函数完成，但是使用pandas中的shift()可能是最好的选择，它可以将数据按照指定方式进行移动！...现在，当我们执行df.shift(1,fill_value=0)即可将数据往下移动一行，并用0填充空值 ? 现在，如果我们需要将前一天的股价作为新的列，则可以使用下面的代码 ?...同时可以对bin参数将结果划分为区间 ? 更多的细节与参数设置，可以阅读pandas官方文档。...mask() pandas中的mask方法比较冷门，和np.where比较类似，将对cond条件进行判断，如果cond为False，请保留原始值。如果为True，则用other中的相应值替换。 ?...但如果有相等的情况出现，那么可以使用first,last,all来进行保留 ?

8733 1

pandas数据清洗，排序，索引设置，数据选取

df.dropna(how='all')# 一行中全部为NaN的，才丢弃该行 df.dropna(thresh=3)# 每行至少3个非空值才保留缺失值填充fillna() df.fillna(0)...) # 将df的A列中 -999 全部替换成空值 df['A'].replace(-999, np.nan) #-999和1000 均替换成空值 obj.replace([-999,1000], np.nan...返回唯一值的数组（类型为array） df.drop_duplicates(['k1'])# 保留k1列中的唯一值的行，默认保留第一行 df.drop_duplicates(['k1','k2'],...take_last=True)# 保留 k1和k2 组合的唯一值的行，take_last=True 保留最后一行 ---- 排序索引排序 # 默认axis=0，按行索引对行进行排序；ascending...# 按值对Series进行排序，使用order()，默认空值会置于尾部 s = pd.Series([4, 6, np.nan, 2, np.nan]) s.order() df.sort_values

3.2K2 0

数据分析之Pandas VS SQL！

本文提供了一系列的示例，说明如何使用pandas执行各种SQL操作。 Pandas简介 Pandas把结构化数据分为了三类： Series，可以理解为一个一维的数组，只是index可以自己改动。...相关语法如下： loc，基于列label，可选取特定行（根据行index） iloc，基于行/列的位置 ix，为loc与iloc的混合体，既支持label也支持position at，根据指定行index...WHERE（数据过滤）在SQL中，过滤是通过WHERE子句完成的： ? 在pandas中，Dataframe可以通过多种方式进行过滤，最直观的是使用布尔索引： ?...在where字句中搭配NOT NULL可以获得某个列不为空的项,Pandas中也有对应的实现： SQL： ? Pandas： ? DISTINCT（数据去重） SQL： ? Pandas： ?...Pandas中对应的实现： ? 注意，在Pandas中，我们使用size()而不是count()。这是因为count()将函数应用于每个列，返回每个列中的非空记录的数量。具体如下： ?

3.1K2 0

python数据科学系列：pandas入门详细教程

，而后者是将原标签列归为数据，并重置为默认数字标签 set_axis，设置标签列，一次只能设置一列信息，与rename功能相近，但接收参数为一个序列更改全部标签列信息（rename中是接收字典，允许只更改部分信息...isin/notin，条件范围查询，即根据特定列值是否存在于指定列表返回相应的结果 where，仍然是执行条件查询，但会返回全部结果，只是将不满足匹配条件的结果赋值为NaN或其他指定值，可用于筛选或屏蔽值...各元素值是否为空的bool结果。...需注意对空值的界定：即None或numpy.nan才算空值，而空字符串、空列表等则不属于空值；类似地，notna和notnull则用于判断是否非空填充空值，fillna，按一定策略对空值进行填充，如常数填充...检测各行是否重复，返回一个行索引的bool结果，可通过keep参数设置保留第一行/最后一行/无保留，例如keep=first意味着在存在重复的多行时，首行被认为是合法的而可以保留删除重复值，drop_duplicates

13.8K2 0

-Pandas 清洗“脏”数据（一）

Pandas 是 Python 中很流行的类库，使用它可以进行数据科学计算和数据分。...下面介绍几个处理缺失数据的方法：为缺失数据赋值默认值去掉/删除缺失数据行去掉/删除缺失率高的列添加默认值我们应该去掉那些不友好的 NaN 值。但是，我们应该用什么值替换呢？...删除任何包含 NA 值的行是很容的： data.dropna() 当然，我们也可以删除一整行的值都为 NA： data.dropna(how='all') 我们也可以增加一些限制，在一行中有多少非空值的数据是可以保留下来的...删除一正列为 NA 的列： data.drop(axis=1, how='all') 删除任何包含空值的列： data.drop(axis=1. how='any') 这里也可以使用像上面一样的 threshold...规范化数据类型有的时候，尤其当我们读取 csv 中一串数字的时候，有的时候数值类型的数字被读成字符串的数字，或将字符串的数字读成数据值类型的数字。

3.8K7 0

pyspark之dataframe操作

、创建dataframe 3、选择和切片筛选 4、增加删除列 5、排序 6、处理缺失值 7、分组统计 8、join操作 9、空值判断 10、离群点 11、去重 12、生成新列 13、行的最大最小值...方法的SQL color_df.where("color like '%yellow%'").show() # 8.直接使用SQL语法 # 首先dataframe注册为临时表，然后执行SQL查询 color_df.createOrReplaceTempView...类似 pandas 的 where 或者 combine_first 方法 # pandas #where即if-else函数 np.where(isnull(a),b,a) # combine_first...方法 #如果a中值为空，就用b中的值填补 a[:-2].combine_first(b[2:]) #combine_first函数即对数据打补丁，用df2的数据填充df1中的缺失值 df1.combine_first...# 2.用均值替换缺失值 import math from pyspark.sql import functions as func # 导入spark内置函数 # 计算缺失值，collect()函数将数据返回到

10.4K1 0

pandas | DataFrame基础运算以及空值填充

数据对齐我们可以计算两个DataFrame的加和，pandas会自动将这两个DataFrame进行数据对齐，如果对不上的数据会被置为Nan（not a number）。...然后我们将两个DataFrame相加，会得到： ? 我们发现pandas将两个DataFrame加起来合并了之后，凡是没有在两个DataFrame都出现的位置就会被置为Nan。...我们发现使用了dropna之后，出现了空值的行都被抛弃了。只保留了没有空值的行，有时候我们希望抛弃是的列而不是行，这个时候我们可以通过传入axis参数进行控制。 ?...除了可以计算出均值、最大最小值等各种值来进行填充之外，还可以指定使用缺失值的前一行或者是后一行的值来填充。...我们可以看到，当我们使用ffill填充的时候，对于第一行的数据来说由于它没有前一行了，所以它的Nan会被保留。同样当我们使用bfill的时候，最后一行也无法填充。

3.8K2 0

数据分析利器 pandas 系列教程（四）：对比 sql 学 pandas

，真正的原因是因为 ==、> 运算符的优先级并不比 & 高，从左往右看，第一个运算 df['sex']=='male'的结果就是一个布尔值，然后这个布尔值再与 df['grade'] 作 & 运算，这样就报错了...这样选择出来的 dataframe，其 index 是不连续的，因为 pandas 的选择，连同原来的 index 一起选择了，符合条件的行，在原来的 dataframe 中，index 几乎不可能连续...grade from tb where grade>85 and grade<95) pandas 写法：not 符号 -，即 df[-((df['grade']>95) | (df['grade']...<85))] 4、集合资格测试 in 需求：选择分数为 89、95 之一的学生 sql 写法：select * from tb where grade in (89, 95) pandas 写法：df[...name，即只有 Bob、Alice 两人的共六门成绩左外连接保留左表中 name 中出现的而右表没有出现的，同时对应右表的 number 字段置空右外连接参见左外连接全外连接都置空 pandas

9721 0

数据科学 IPython 笔记本 7.7 处理缺失数据

例如，R 语言使用每种数据类型中的保留位组合，作为表示缺失数据的标记值，而 SciDB 系统使用表示 NA 状态的额外字节，附加到每个单元。...也就是说，附加了一个独立的布尔掩码数组的数组，用于将数据标记为“好”或“坏”。Pandas 可能源于此，但是存储，计算和代码维护的开销，使得这个选择变得没有吸引力。...考虑到这些约束，Pandas 选择使用标记来丢失数据，并进一步选择使用两个已经存在的 Python 空值：特殊浮点值NaN和 Python None对象。...空值上的操作正如我们所看到的，Pandas 将None和NaN视为基本可互换的，用于指示缺失值或空值。为了促进这个惯例，有几种有用的方法可用于检测，删除和替换 Pandas 数据结构中的空值。...默认情况下，dropna()将删除包含空值的所有行： df.dropna() 0 1 2 1 2.0 3.0 5 或者，你可以沿不同的轴删除 NA 值; axis = 1删除包含空值的所有列： df.dropna

4K2 0

我用Python展示Excel中常用的20个操

Pandas 在Pandas中可以结合NumPy生成由指定随机数(均匀分布、正态分布等)生成的矩阵，例如同样生成10*2的0—1均匀分布随机数矩阵为，使用一行代码即可：pd.DataFrame(np.random.rand...数据插入说明：在指定位置插入指定数据 Excel 在Excel中我们可以将光标放在指定位置并右键增加一行/列，当然也可以在添加时对数据进行一些计算，比如我们就可以使用IF函数(=IF(G2>10000...缺失值处理说明：对缺失值(空值)按照指定要求处理 Excel 在Excel中可以按照查找—>定位条件—>空值来快速定位数据中的空值，接着可以自己定义缺失值的填充方式，比如将缺失值用上一个数据进行填充...数据合并说明：将两列或多列数据合并成一列 Excel 在Excel中可以使用公式也可以使用Ctrl+E快捷键完成多列合并，以公式为例，合并示例数据中的地址+岗位列步骤如下 ?...Pandas 在Pandas中对数据进行分组计算可以使用groupby轻松搞定，比如使用df.groupby("学历").mean()一行代码即可对示例数据的学历进行分组并求不同学历的平均薪资，结果与Excel

5.5K1 0

【呕心总结】python如何与mysql实现交互及常用sql语句

这篇笔记，我将整理近一个月的实战中最常用到的 mysql 语句，同时也将涉及到如何在python3中与 mysql 实现数据交换。...列的名称，需要留心不使用保留词。我的技巧是，尽量用一些_来表达该数据，比如 article_title，press_date 这种命名虽然稍长，但易读，也不会装上保留词。...列的属性包括：类型，最大长度，是否为空，默认值，是否重复，是否为索引。通常，直接通过 pandas 的 pd.io.sql.to_sql() 一次性创建表格并保存数据时，列的默认属性并不合需求。...如果把【条件】部分不写，就相当于修改整列的值；想要修改特定范围，就要用到条件表达式，这和前面的查询部分是一致的，就不再重复。数据的删除，对于新手来说，是必须警惕的操作。因为一旦误操作，你将无力挽回。...如果条件留空，将保留表结构，而删除所有数据行。

2.9K2 0

Pandas必会的方法汇总，建议收藏！

9 .drop() 删除Series和DataFrame指定行或列索引。 10 .loc[行标签，列标签] 通过标签查询指定的数据，第一个值为行标签，第二值为列标签。...4 df.1oc[val1,val2] 通过标签，同时选取行和列 5 df.iloc[where] 通过整数位置，从DataFrame选取单个行或行子集 6 df.iloc[:,where] 通过整数位置...，从DataFrame选取单个列或列子集 7 df.iloc[where_i,where_j] 通过整数位置，同时选取行和列 8 df.at[1abel_i,1abel_j] 通过行和列标签，选取单一的标量...举例：使用iloc按位置区域提取数据 df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。...2 .dropna() 删除缺失数据 3 .info() 查看数据的信息，包括每个字段的名称、非空数量、字段的数据类型 4 .isnull() 返回一个同样长度的值为布尔型的对象（Series或DataFrame

4.7K4 0

高效的10个Pandas函数，你都用过吗？

Where Where用来根据条件替换行或列中的值。如果满足条件，保持原来的值，不满足条件则替换为其他值。默认替换为NaN，也可以指定特殊值。...，为False则在原数据的copy上操作 axis：行或列将df中列value_1里小于5的值替换为0： df['value_1'].where(df['value_1'] > 5 , 0) Where...Isin Isin也是一种过滤方法，用于查看某列中是否包含某个字符串，返回值为布尔Series，来表明每一行的情况。...简单说就是将指定的列放到铺开放到行上变成两列，类别是variable(可指定)列，值是value(可指定)列。...如果未指定, 请使用未设置为id_vars的所有列 var_name [scalar]：指代用于”变量”列的名称。

4.1K2 0

Python处理Excel数据-pandas篇

在计算机编程中，pandas是Python编程语言的用于数据操纵和分析的软件库。特别是，它提供操纵数值表格和时间序列的数据结构和运算操作。...# 非空值 data.dropna() # 删除空值 data.dropna() # 删除有空值的行 data.dropna(...# 至少保留两个非缺失值 data.strip() # 去除列表中的所有空格与换行符号 data.fillna(0) # 将空值填充...({ '语文':100,'数学':100,}) # 不同列填充不同值 data.fillna(method='ffill') # 将空值填充为上一个值 data.fillna...(method='bfill') # 将空值填充下一个值 data.fillna(method='bfill',limit=1) # 将空值填充下一个值，

3.8K6 0

Pandas必会的方法汇总，数据分析必备！

2 df.tail() 查询数据的末尾5行 3 pandas.qcut() 基于秩或基于样本分位数将变量离散化为等大小桶 4 pandas.cut() 基于分位数的离散化函数 5 pandas.date_range...9 .drop() 删除Series和DataFrame指定行或列索引。 10 .loc[行标签，列标签] 通过标签查询指定的数据，第一个值为行标签，第二值为列标签。...4 df.1oc[val1,val2] 通过标签，同时选取行和列 5 df.iloc[where] 通过整数位置，从DataFrame选取单个行或行子集 6 df.iloc[where_i,where_j...通过标签选取行或列 10 get_value 通过行和列标签选取单一值 11 set_value 通过行和列标签选取单一值举例：使用iloc按位置区域提取数据 df_inner.iloc[:3,:...2 .dropna() 删除缺失数据 3 .info() 查看数据的信息，包括每个字段的名称、非空数量、字段的数据类型 4 .isnull() 返回一个同样长度的值为布尔型的对象（Series或DataFrame

5.9K2 0

【数据准备和特征工程】数据清理

) ```python #这种方法可以将其转换为数值型，Pandas则变为Nan pd.to_numeric(s, errors='coerce') 转换为日期类型 ```python #可以将三列数据...3, 4}) df.isna() #返回m行n列，每个元素的值都会返回（True,False) df.isna().any() #只返回1列，只要有一个是False就整个属性的值就为False #方法二...= imp_mean.fit_transform(pdf2'Height-na'.values.reshape((-1, 1))) #以常数填充空值 df = pd.DataFrame({"name"...下面的代码将产生带有真值和假值的结果。带有False的数据点表示这些值是有效的，而True则表示有释放。...如果离群值不在利益分配范围内，则删除。考虑到数据的差距，使用抗离群值的统计工具，例如，稳健回归（用另一种参数估计方法）Robust_regression。

8532 0

大数据应用导论 Chapter02 | 大数据的采集与清洗

1.4、查看缺失值 ? 1.5、对保留下来的行中的缺失值进行填补 ? ?...# 异常值处理 # 使用nan空值去替换原来的年龄 df.loc[2,'age']=np.nan df.loc[114,'age']=np.nan # 缺失值统计 # isna的意思是是否为空值...# 查看存在缺失值的数据行 # where方法返回所有等于True的位置，分别存放在两个数组中 # 前一个是行，后一个是列 df.iloc[np.unique(np.where(df.isnull()...# 去掉存在超过3个缺失值的数据行 # thresh=4的意思是，除了缺失值意外事件的值还剩下4个或以上的，才保留 df = df.dropna(thresh=4) # thresh演示 df_tmp...# 再次查看存在缺失值的数据行 df.iloc[np.unique(np.where(df.isnull())[0])] ?

1.5K2 1

python数据处理 tips

在本文中，我将分享一些Python函数，它们可以帮助我们进行数据清理，特别是在以下方面：删除未使用的列删除重复项数据映射处理空数据入门我们将在这个项目中使用pandas，让我们安装包。...df.head()将显示数据帧的前5行，使用此函数可以快速浏览数据集。删除未使用的列根据我们的样本，有一个无效/空的Unnamed:13列我们不需要。我们可以使用下面的函数删除它。...注意：请确保映射中包含默认值male和female，否则在执行映射后它将变为nan。处理空数据 ? 此列中缺少3个值：-、na和NaN。pandas不承认-和na为空。...如果我们在读取数据时发现了这个问题，我们实际上可以通过将缺失值传递给na_values参数来处理这个缺失值。结果是一样的。现在我们已经用空值替换了它们，我们将如何处理那些缺失值呢?...在这种情况下，让我们使用中位数来替换缺少的值。 ? df["Age"].median用于计算数据的中位数，而fillna用于中位数替换缺失值。

4.4K3 0

首次公开，用了三年的 pandas 速查表！

本文收集了 Python 数据分析库 Pandas 及相关工具的日常使用方法，备查，持续更新中。...df.dropna(axis=1) # 删除所有包含空值的列 df.dropna(axis=1,thresh=n) # 删除所有小于 n 个非空值的行 df.fillna(x) # 用x替换DataFrame...对象中所有的空值 df.fillna(value={'prov':'未知'}) # 指定列的空值替换为指定内容 s.astype(float) # 将Series中的数据类型更改为 float 类型 df.index.astype...(), axis=1) # 取 best 列中值为列名的值写到 name 行上 df['value'] = df.lookup(df['name'], df['best']) s.where(s >...'2s' 为两秒 df.rolling(2).sum() # 在窗口结果基础上的窗口计算 df.expanding(2).sum() # 超出（大于、小于）的值替换成对应值 df.clip(-4, 6

7.4K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云