首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大佬们,如何把某一包含某个所在行给删除

一、前言 前几天在Python白银交流群【上海新年人】问了一个Pandas数据处理问题,一起来看看吧。 大佬们,如何把某一包含某个所在行给删除?比方说把包含电力这两个字删除。...这里【FANG.J】指出:数据不多的话,可以在excel里直接ctrl f,查找“电力”查找全部,然后ctrl a选中所有,右键删除。...二、实现过程 这里【莫生气】给了一个思路和代码: # 删除Column1包含'cherry' df = df[~df['Column1'].str.contains('电力')] 经过点拨,顺利地解决了粉丝问题...后来粉丝增加了难度,问题如下:但如果我同时要想删除包含电力与电梯,这两个关键,又该怎么办呢? 这里【莫生气】和【FANG.J】继续给出了答案,可以看看上面的这个写法,中间加个&符号即可。...顺利地解决了粉丝问题。 但是粉丝还有其他更加复杂需求,其实本质上方法就是上面提及,如果你想要更多的话,可以考虑下从逻辑 方面进行优化,如果没有的话,正向解决,那就是代码堆积。

16510

如何用Python将时间序列转换为监督学习问题

对于一个给定DataFrame,可以使用 shift() 函数移(前面的缺失NaN补全)或后移(后面的缺失NaN补全)来采集定长切片保存至。...可以看到,通过移序列,我们得到了一个原始监督学习问题( X 和 y 左右顺序是反)。忽略标签,第一数据由于存在NaN应当被丢弃。...可以看到,原本预测变为了输入(X),第二为输出(y)。再第一即可以用输入0预测输出1.0。...n_out:作为输出观测数量(y)。介于0..len(data)-1之间,可选参数,默认为1。 dropnan:是否删除具有NaN,类型为布尔。可选参数,默认为True。...除此之外,具有NaN已经从DataFrame自动删除。 我们可以指定任意长度输入序列(如3)来重复这个例子。

24.7K2110
您找到你想要的搜索结果了吗?
是的
没有找到

30 个小例子帮你快速掌握Pandas

选择特定 3.读取DataFrame一部分行 read_csv函数允许按读取DataFrame一部分。有两种选择。第一个是读取n。...8.删除缺失 处理缺失另一种方法是删除它们。“已退出”仍缺少。以下代码将删除缺少任何。...df.dropna(axis=0, how='any', inplace=True) axis = 1用于删除缺少。我们还可以为具有的非缺失数量设置阈值。...第一个参数是位置索引,第二个参数是名称,第三个参数是。 19.where函数 它用于根据条件替换行或。默认替换NaN,但我们也可以指定要替换。...method参数指定如何处理具有相同。first表示根据它们在数组(即顺序对其进行排名。 21.唯一数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。

10.6K10

Pandas_Study02

dropna() 删除NaN 可以通过 dropna 方法,默认按扫描(操作),会将每一NaN 那一删除,同时默认是对原对象副本操作,不会对原对象产生影响,也可以通过inplace 指示是否直接在原对象上操作...32 33 NaN """ dropna 方法可以选择删除 # 要删除或一全部都是nan 那一,可以通过下面的方式 print("del cols is all NaN\n"...axis = 1, thresh = 2)) # axis=1按操作,thresh 指示这一中有两个或以上NaN 被保留 通过布尔判断,也是可以实现删除 NaN 功能。...复杂 使用向前 或 向后 填充数据,依旧使用fillna 方法,所谓向前 是指 取出现NaN数据来填充NaN,向后同理 # 在df e 这一上操作,默认下按操作,向前填充数据...下NaN concat 函数 同样可以指定是按操作还是按操作。

18110

Pandas Sort:你 Python 数据排序指南

Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,都带有标记轴。您可以按以及索引对 DataFrame 进行排序。...熟悉 .sort_values() 您用于.sort_values()沿任一轴()对 D​​ataFrame 进行排序。...与 using 不同之处.sort_values()在于您是根据其索引或列名称对 DataFrame 进行排序,而不是根据这些: DataFrame 索引在上图中以蓝色标出。...在这个例子,您排列数据帧由make,model和city08,与按照升序排序和city08按降序排列。...city08像第一个示例一样按对 DataFrame 进行排序,但inplace设置为True: >>> >>> df.sort_values("city08", inplace=True) 请注意调用如何

13.9K00

python对100G以上数据进行排序,都有什么好方法呢

Pandas 排序方法入门 快速提醒一下,DataFrame是一种数据结构,都带有标记轴。您可以按以及索引对 DataFrame 进行排序。...熟悉 .sort_values() 您用于.sort_values()沿任一轴()对 DataFrame 进行排序。...与 using 不同之处.sort_values()在于您是根据其索引或列名称对 DataFrame 进行排序,而不是根据这些: DataFrame 索引在上图中以蓝色标出。...在这个例子,您排列数据帧由make,model和city08,与按照升序排序和city08按降序排列。...city08像第一个示例一样按对 DataFrame 进行排序,但inplace设置为True: >>> >>> df.sort_values("city08", inplace=True) 请注意调用如何

10K30

Python 实现Excel自动化办公《下》

#输出后五条数据,DateFrame类型带有标签数据 print("获取到所有的:\n{0}".format(pd1))#格式化输出所有数据 print(pd1.values) #输出是全部一个二维...输出第一 print(pd1.values[0:2])#查看第一,返回是一个二维ndarray print(pd1[0:3]) #返回是DateFrame类型数据,带有标签...print(pd1[0:3].values) #返回是ndarray类型数据,不带表头标签 print(pd1.sample(2).values) #获取指定行数,它是一个二维ndarray...=0,inplace=True) #删除指定 axis=0 表示,inplace=True表示在原有的数据上改变 pd1.drop('job',axis=1,inplace=True)#删除指定..."))#删除有空 print(df.dropna(axis=1,how="all"))#删除掉全是空 print(df.dropna(axis=0,how="all"))#删除掉全是空

77120

针对SAS用户:Python数据分析库pandas

也要注意Python如何为数组选择浮点数(或向上转型)。 ? 并不是所有使用NaN算数运算结果是NaN。 ? 对比上面单元格Python程序,使用SAS计算数组元素平均值如下。...默认情况下,.dropna()方法删除其中找到任何空整个。 ? ? .dropna()方法也适用于轴。axis = 1和axis = "columns"是等价。 ? ?...显然,这会丢弃大量“好”数据。thresh参数允许您指定要为保留最小非空。在这种情况下,"d"被删除,因为它只包含3个非空。 ? ? 可以插入或替换缺失,而不是删除。....PROC MI在这些示例范围之外。 .fillna(method="ffill")是一种“向”填充方法。 NaN被上面的“下”替换为相邻单元格。...在删除缺失之前,计算在事故DataFrame丢失记录部分,创建于上面的df。 ? DataFrame24个记录将被删除

12.1K20

数据科学 IPython 笔记本 7.7 处理缺失数据

默认情况下,dropna()将删除包含空所有: df.dropna() 0 1 2 1 2.0 3.0 5 或者,你可以沿不同删除 NA ; axis = 1删除包含空所有: df.dropna...(axis='columns') 2 0 2 1 5 2 6 但这也会丢掉一些好数据; 你可能更愿意删除全部为 NA 或大多数为 NA 。...这可以通过how或thresh参数来指定,这些参数能够精确控制允许通过数量。 默认是how ='any',这样任何包含空(取决于axis关键字)都将被删除。...你也可以指定how ='all',它只会丢弃全部为空/: df[3] = np.nan df 0 1 2 3 0 1.0 NaN 2 NaN 1 2.0 3.0 5 NaN 2 NaN 4.0...参数允许你为要保留/指定最小数量非空: df.dropna(axis='rows', thresh=3) 0 1 2 3 1 2.0 3.0 5 NaN 这里删除第一和最后一,因为它们只包含两个非空

4K20

教你预测北京雾霾,基于keras LSTMs多变量时间序列预测

本文讲解了如何在Keras深度学习库,为多变量时间序列预测开发LSTM模型。...看数据表可知,第一个24小时里,PM2.5这一有很多空。 因此,我们把第一个24小时里数据删掉。 剩余数据里面也有少部分空,为了保持数据完整性和连续性,只要将空填补为0即可。...下面的脚本处理顺序: 加载原始数据集; 将日期时间合并解析为Pandas DataFrame索引; 删除No(序号),给剩下重新命名字段; 替换空为0,删除第一个24小时数据。...'].fillna(0, inplace=True) # 删除24小时 dataset = dataset[24:] # 打印5 print(dataset.head(5)) # 保存数据到pollution.csv...()) 运行代码,打印出5已转换数据集。

1.1K30

Pandas基础知识

常用数据类型 Series 一维,带标签数组 DataFrame 二维,Series容器 取值 取: (1)df[:20] 20 (2)df[:20]['索引名'] 取指定对应...缺处理 pd.isnull(t) 返回数组NaN为True,否则为False pd.notnull(t) 返回数组NaN为False,否则为True t.dropna(axis=0) 删除包含...NaN t.dropna(axis=0, how='all', inplace=True) how为all时,某行全为NaN时才删除,为any时存在NaN删除整行 inplace为True时,...'].mean()) 只将指定索引对应NaN对应进行填充均值 合并 join() 按合并 df1.join(df2) merge()按合并 df1.merge(df2, on='操作列名...', how='inner')内连接(默认) 交集 df1.merge(df2, on='a')方法会将df1a和df2a进行比较,然后将相等对应整行进行合并,而且返回结果只包含具有可以合并

69610

NumPy入门指南(二) | Day2

,':'冒号代表从这个位置起后所有元素被获取 print(t1[0,:]) # [0 1 2 3 4 5] # t1括号里参数可以理解为索引为0,取第一;’,’ 后面是取数,不写默认索引为...整体理解就是取第一所有 # 取连续多行数组 print(t1[0:]) # 取连续多行数组, print(t1[0:2,:]) # 索引为0到2,2不取,取所有 ''' 运行结果:...print (np.delete(a,5)) print ('\n') print ('删除每一第二:') print (np.delete(a,1,axis = 1)) print ('\n'...下面我们来介绍如何判断数组nan个数: import numpy as np # 创建一个nan和inf a = np.nan b = np.inf print(a,type(a)) # nan...# 循环6次可以取到6数组,不含有nan;因此需要判断含是否有nan,含有nan才需要替换 # [ 0. 6. 12. 18

3.1K20

Python—关于Pandas缺失问题(国内唯一)

稍后我们将使用它来重命名一些缺失。 导入库后,我们将csv文件读取到Pandas数据框。 使用该方法,我们可以轻松看到几行。...这些是Pandas可以检测到缺失。 回到我们原始数据集,让我们看一下“ ST_NUM”。 ? 第三中有一个空单元格。在第七,有一个“ NA”。 显然,这些都是缺失。...非标准缺失 有时可能是缺少具有不同格式情况。 让我们看一下“Number of Bedrooms”一栏,了解我意思。 ? 在此列,有四个缺失。...从前面的示例,我们知道Pandas将检测到第7空单元格为缺失。让我们用一些代码进行确认。...更换 通常,您必须弄清楚如何处理缺失。 有时,您只是想删除这些,而其他时候,您将替换它们。 正如我之前提到,这不应该掉以轻心。我们将介绍一些基本推论。

3.1K40

如何把时间序列问题转化为监督学习问题?通俗易懂 Python 教程

监督学习 正式开始,我们需要更好地理解时间序列和监督学习数据形式。时间序列是一组按照时间指数排序数字序列,可被看成是一有序。...给定一个 DataFrame, shift() 函数可被用来创建数据副本,然后 push forward (NaN 组成添加到前面)或者 pull back(NaN 组成添加到末尾)。...可看到,把序列向前 shift 一个时间步,产生了一个原始监督学习问题,虽然 X 、y 顺序不对。无视标签。由于 NaN 第一需要被抛弃。...第二第二(输入 X)现实输入是 0.0,第一是 1 (输出 y)。 我们能看到,如果在 shift 2、3 …… 重复该过程,要如何创建能用来预测输出 y 长输出序列(X)。...这起到了通过在末尾插入新,来拉起观察作用。下面是例子: 运行该例子显示出,新最后一个是一个 NaN 。可以看到,预测可被作为输入 X,第二作为输出 (y)。

2.5K70

开发 | 如何把时间序列问题转化为监督学习问题?通俗易懂 Python 教程

监督学习 正式开始,我们需要更好地理解时间序列和监督学习数据形式。时间序列是一组按照时间指数排序数字序列,可被看成是一有序。...给定一个 DataFrame, shift() 函数可被用来创建数据副本,然后 push forward (NaN 组成添加到前面)或者 pull back(NaN 组成添加到末尾)。...可看到,把序列向前 shift 一个时间步,产生了一个原始监督学习问题,虽然 X 、y 顺序不对。无视标签。由于 NaN 第一需要被抛弃。...第二第二(输入 X)现实输入是 0.0,第一是 1 (输出 y)。 我们能看到,如果在 shift 2、3 ……重复该过程,要如何创建能用来预测输出 y 长输出序列(X)。...这起到了通过在末尾插入新,来拉起观察作用。下面是例子: 运行该例子显示出,新最后一个是一个 NaN 。可以看到,预测可被作为输入 X,第二作为输出 (y)。

1.6K50

猿创征文|数据导入与预处理-第3章-pandas基础

DataFrame类对象索引位于最左侧一索引位于最上面一,且每个索引对应着一数据。DataFrame类对象其实可以视为若干个公用索引Series类对象组合。...index:表示索引,默认生成0~N整数索引。 columns:表示索引,默认生成0~N整数索引。 dtype:表示数据类型。...fill_vlaue:表示缺失替代。 limit:表示向或者后向填充最大填充量。...变量.at[索引, 索引] 变量.iat[索引, 索引] 以上方式,"at[索引, 索引]"索引必须为自定义标签索引,"iat[索引, 索引]"索引必须为自动生成整数索引...变量[第一层索引] 变量[第一层索引][第二层索引] 以上方式,使用 变量[第一层索引] 可以访问第一层索引嵌套第二层索引及其对应数据; 使用 变量[第一层索引][第二层索引] 可以访问第二层索引对应数据

13.9K20

python数据清洗

数据质量直接关乎最后数据分析出来结果,如果数据有错误,在计算和统计后,结果也会有误。 所以在进行数据分析,我们必须对数据进行清洗。...需要考虑数据是否需要修改、如何修改调整才能适用于之后计算和分析等。 数据清洗也是一个迭代过程,实际项目中可能需要不止一次地执行这些清洗操作。...即删除 # how='all' 只要存在就删除 axis=0 按删除 axis=1 按删除 # 将内容转为DataFrame 类型 data = pd.DataFrame(data) #...否则数据显示有问题 数据被会names(标签)占用,可以先读取,获取 ,如果没有头标签,再设置names标签 其他参数: 文件读取部分数据 skiprows=2 跳过2 skiprows...=[2] 跳过下标为2那一 下标从0开始 nrows=2 读取n chunksize=2 每次读取行数 返回可可遍历列表对象 data = pd.read_csv('.

2.4K20
领券