首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如果一列的子串与另一列的字符串使用pandas匹配,该如何删除它?

在使用pandas进行字符串匹配时,可以使用字符串的str.contains()方法来判断一个字符串是否包含某个子串。如果要删除包含某个子串的字符串,可以使用~运算符对匹配结果取反,然后使用drop()方法删除对应的行。

下面是一个示例代码:

代码语言:txt
复制
import pandas as pd

# 创建一个包含字符串的DataFrame
df = pd.DataFrame({'col1': ['abc', 'def', 'ghi', 'jkl'],
                   'col2': ['xyz', 'uvw', 'pqr', 'mno']})

# 判断col1列中的字符串是否包含子串'ab'
mask = df['col1'].str.contains('ab')

# 删除包含子串'ab'的行
df = df[~mask]

print(df)

输出结果为:

代码语言:txt
复制
  col1 col2
1  def  uvw
2  ghi  pqr
3  jkl  mno

在这个例子中,我们使用str.contains()方法判断col1列中的字符串是否包含子串'ab',然后使用~运算符对匹配结果取反,得到一个布尔型的掩码。最后,使用这个掩码对DataFrame进行索引,删除包含子串'ab'的行。

需要注意的是,这只是一个示例代码,实际应用中需要根据具体的需求和数据结构进行相应的调整。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

查找字符串长度 在电子表格中,可以使用 LEN 函数找到文本中字符数。这可以 TRIM 函数一起使用删除额外空格。...查找位置 FIND电子表格函数返回字符串位置,第一个字符为 1。 您可以使用 Series.str.find() 方法查找字符串列中字符位置。find 搜索子字符串第一个位置。...如果找到字符串,则方法返回其位置。如果未找到,则返回 -1。请记住,Python 索引是从零开始。 tips["sex"].str.find("ale") 结果如下: 3....按位置提取 电子表格有一个 MID 公式,用于从给定位置提取字符串。获取第一个字符: =MID(A2,1,1) 使用 Pandas,您可以使用 [] 表示法按位置位置从字符串中提取字符串。...VLOOKUP 相比,merge 有许多优点: 查找值不需要是查找表一列如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表中所有,而不仅仅是单个指定支持更复杂连接操作

19.5K20

Pandas中替换值简单方法

使用内置 Pandas 方法进行高级数据处理和字符串操作 Pandas 库被广泛用作数据处理和分析工具,用于从数据中清理和提取特征。 在处理数据时,编辑或删除某些数据作为预处理步骤一部分。...在这篇文章中,让我们具体看看在 DataFrame 中中替换值和字符串。当您想替换每个值或只想编辑值一部分时,这会派上用场。 如果您想继续,请在此处下载数据集并加载下面的代码。...Pandas replace 方法允许您在 DataFrame 中指定系列中搜索值,以查找随后可以更改值或字符串。...否则,replace 方法只会更改“Of The”值,因为只会匹配整个值。 您可以通过匹配确切字符串并提供您想要更改整个值来完成我们上面所做相同事情,如下所示。...每当在值中找到时,它就会从字符串删除,因为我们传递第二个参数是一个空字符串

5.4K30

Pandas数据转换

,当axis='index'或=0时,对迭代对行聚合,行即为跨,axis=1同理 二、⭐️矢量化字符串 为什么要用str属性 文本数据也就是我们常说字符串Pandas 为 Series 提供了...这时候我们str属性操作来了,来看看如何使用吧~ # 将文本转为小写 user_info.city.str.lower() 可以看到,通过 `str` 属性来访问之后用到方法名 Python 内置字符串方法名一样...例如,现在想要匹配字符串前面的所有的字母,可以使用如下操作: user_info.city.str.extract("(\w+)\s+", expand=True) 如果使用多个组提取正则表达式会返回一个...例如,想要匹配出空字符串前面和后面的所有字母,操作如下: user_info.city.str.extract("(\w+)\s+(\w+)", expand=True) 测试是否包含 除了可以匹配外...大家如果感觉可以的话,可以去做一些小练习~~ 【练习一】 现有一份关于字符串数据集,请解决以下问题: (a)现对字符串编码存储人员信息(在编号后添加ID),使用如下格式:“×××(名字):×国人

10610

python数据科学系列:pandas入门详细教程

一列字符串进行通函数操作,而且自带正则表达式大部分接口 丰富时间序列向量化处理接口 常用数据分析统计功能,包括基本统计量、分组统计分析等 集成matplotlib常用可视化接口,无论是series...get,由于series和dataframe均可以看做是类字典结构,所以也可使用字典中get()方法,主要适用于不确定数据结构中是否包含标签时,字典get方法完全一致 ?...由于方法默认是按行进行检测,如果存在某个需要需要按删除,则可以先转置再执行方法 异常值,判断异常值标准依赖具体分析数据,所以这里仅给出两种处理异常值可选方法 删除,drop,接受参数在特定轴线执行删除一条或多条记录...字符串向量化,即对于数据类型为字符串格式一列执行向量化字符串操作,本质上是调用series.str属性系列接口,完成相应字符串操作。...时间类型向量化操作,如字符串一样,在pandas另一个得到"优待"数据类型是时间类型,正如字符串列可用str属性调用字符串接口一样,时间类型可用dt属性调用相应接口,这在处理时间类型时会十分有效。

13.8K20

一场pandasSQL巅峰大战(二)

本文将延续上一篇文章风格和思路,继续对比PandasSQL,一方面是对上文补充,另一方面也继续深入学习一下两种工具。...hive方面我们新建了一张表,并把同样数据加载进了表中,后续直接使用即可。 ? ? 开始学习 一、字符串截取 对于原始数据集中一列,我们常常要截取其字串作为新使用。...例如我们想求出每一条订单对应日期。需要从订单时间ts或者orderid中截取。在pandas中,我们可以将转换为字符串,截取其,添加为新。...在pandas中,我们采用做法是先把原来orderid转为字符串形式,并在每一个id末尾添加一个逗号作为分割符,然后采用字符串相加方式,将每个uid对应字符串类型订单id拼接到一起。...先来看pandas如何实现,这里我们需要用到literal_eval这个包,能够自动识别以字符串形式存储数组。

2.3K20

嘀~正则表达式快速上手指南(下篇)

首先,通过用空字符“”代替:\s* ,删除冒号及冒号姓名之间任何空格字符。然后删除姓名另一空格字符和角括号,再次使用空字符进行替换。...进行下一步前,我们应特别注意是+ 和 * 看起来很相似,但是它们差异很大。用日期字符串来举例: ? 如果使用 * 我们将匹配到大于等于零个结果,而 + 匹配大于等于一个结果。...emails_df['sender_email'] 选择了标记为 sender_email,接下来,如果匹配字符串 "maktoob" 或 "spinfinder" ,则str.contains...最后, 最外面的emails_df[] 返回 sender_email 视图,包含需要匹配目标字符串。干漂亮! 我们也可以单个检视邮件。 只需要以下4步。...第1步,查找包含字符串"@maktoob" "sender_email" 对应行索引。请留意我们是如何使用正则表达式来完成这项任务。 ?

4K10

Python科学计算之Pandas

值得注意是,由于操作符优先级问题,在这里你不可以使用关键字‘and’,而只能使用’&’括号 ? 好消息是,如果在你数据中有字符串,你也可以使用字符串方法来过滤数据。 ?...注意到你必须使用.str.[string method],你不能直接在字符串上直接调用字符串方法。这一语句返回1990年代所有条目。 ? 索引 前几部分为我们展示了如何通过操作来获得数据。...如果你想要多个索引,你可以简单地在列表中增加另一个列名。 ? 在上面这个例子中,我们把我们索引值全部设置为了字符串。这意味着我们不可以使用iloc索引这些列了。这种情况如何?我们使用loc。...那么,如果loc是字符串标签索引方法,iloc是数字标签索引方法,那什么是ix呢?事实上,ix是一个字符串标签索引方法,但是同样支持数字标签索引作为备选。 ?...这便是使用apply方法,即如何一列应用一个函数。如果你想对整个数据集应用某个函数,你可以使用dataset.applymap()。

2.9K00

直观地解释和可视化每个复杂DataFrame操作

诸如字符串或数字之类非列表项不受影响,空列表是NaN值(您可以使用.dropna()清除它们 )。 ? 在DataFrame df中Explode“ A ” 非常简单: ?...how参数是一个字符串表示四种连接 方法之一, 可以合并两个DataFrame: ' left ':包括df1所有元素, 仅当其键为df1键时才 包含df2元素 。...“inner”:仅包含元件键是存在于两个数据帧键(交集)。默认合并。 记住:如果使用过SQL,则单词“ join”应立即添加相联系。...因此,接受要连接DataFrame列表。 如果一个DataFrame另一列未包含,默认情况下将包含,缺失值列为NaN。...为了防止这种情况,请添加一个附加参数join ='inner',参数 只会串联两个DataFrame共有的。 ? 切记:在列表和字符串中,可以串联其他项。

13.3K20

6个提升效率pandas小技巧

product字符串类型,price、sales虽然内容有数字,但它们数据类型也是字符串。 值得注意是,price都是数字,sales列有数字,但空值用-代替了。...还可以看缺失值在占比是多少,用df.isna().mean()方法: df.isna().mean() ? 注意:这里isnull()和isna()使用效果一样。 那如何处理缺失值呢?...删除包含缺失值行: df.dropna(axis = 0) 删除包含缺失值: df.dropna(axis = 1) 如果一列里缺失值超过10%,则删除: df.dropna(thresh...') 用后一列对应位置值替换缺失值: df.fillna(axis=1, method='bfill') 使用一列平均值替换缺失值: df['Age'].fillna(value=df['Age...从多个文件中构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件中,但需要把读取到一个DataFrame中,这样需求如何实现?

2.8K20

盘点66个Pandas函数,轻松搞定“数据清洗”!

Pandas 是基于NumPy一种工具,工具是为解决数据分析任务而创建提供了大量能使我们快速便捷地处理数据函数和方法。...df.fillna(50) 输出: Pandas清洗数据时,判断重复值一般采用duplicated()方法。如果想要直接删除重复值,可以使用drop_duplicates() 方法。...在对文本型数据进行处理时,我们会大量应用字符串函数,来实现对一列文本数据进行操作[2]。...split 分割字符串,将一列扩展为多 strip、rstrip、lstrip 去除空白符、换行符 findall 利用正则表达式,去字符串匹配,返回查找结果列表 extract、extractall...如果想直接筛选包含特定字符字符串,可以使用contains()这个方法。 例如,筛选户籍地址中包含“黑龙江”这个字符所有行。

3.7K11

Pandas 秘籍:1~5

数据帧数据(值)始终为常规字体,并且是或索引完全独立组件。 Pandas 使用NaN(不是数字)来表示缺失值。 请注意,即使color仅包含字符串值,使用NaN表示缺少值。...如果您在使用索引运算符选择一列后尝试链接一个操作,则智能再次消失。 注意点表示法另一个原因是,它在流行问答网站 Stack Overflow 上在线使用数量激增。...这几乎索引运算符完全相同,只是如果其中一个字符串列名不匹配,则不会引发KeyError。...如果仔细观察,您会发现步骤 3 输出缺少步骤 2 所有对象。其原因是对象中缺少值,而 pandas 不知道如何处理字符串缺失值。 它会静默删除无法为其计算最小值所有。...步骤 3 中dropna方法具有how参数,参数默认为字符串any,但也可以更改为all。 设置为any时,它将删除包含一个或多个缺失值行。 设置为all时,删除缺少所有值行。

37.3K10

没错,这篇文章教你妙用Pandas轻松处理大规模数据

对象(object columns)主要用于存储字符串,包含混合数据类型。为了更好地了解怎样减少内存使用量,让我们看看 Pandas如何将数据存储在内存中。...内存使用量降低主要原因是我们对对象类型(object types)进行了优化。 在动手之前,让我们仔细看一下,数字类型相比,字符串是怎样存在 Pandas。...下面的图标展示了数字值是如何存储在 NumPy 数据类型中,以及字符串如何使用 Python 内置类型存储。 你可能已经注意到,我们图表之前将对象类型描述成使用可变内存量。...你可以看到,存储在 Pandas字符串大小作为 Python 中单独字符串大小相同。 使用分类来优化对象类型 Pandas 在 0.15版引入了 Categoricals (分类)。...首先,我们将每最终类型、以及名字 keys 存在一个字典中。因为日期需要单独对待,因此我们先要删除一列

3.6K40

Python数据分析实战基础 | 初识Pandas

其中count是统计每一列有多少个非空数值,mean、std、min、max对应分别是均值、标准差、平均值和最大值,25%、50%、75%对应则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格思维来处理数据,要逐渐养成一种向思维,每一列是同宗同源,处理起来是嗖嗖快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用格式之一了,Pandas字符串操作和原生字符串操作几乎一毛一样,唯一不同是需要在操作前加上".str"。...导致报错原因,是数值型数据和非数值型数据相互计算导致PANDAS把带“%”符号转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期,然后用to_datetime()函数将字符串类型转换成时间格式: ?

1.8K30

6个提升效率pandas小技巧

product字符串类型,price、sales虽然内容有数字,但它们数据类型也是字符串。 值得注意是,price都是数字,sales列有数字,但空值用-代替了。...还可以看缺失值在占比是多少,用df.isna().mean()方法: df.isna().mean() ? 注意:这里isnull()和isna()使用效果一样。 那如何处理缺失值呢?...删除包含缺失值行: df.dropna(axis = 0) 删除包含缺失值: df.dropna(axis = 1) 如果一列里缺失值超过10%,则删除: df.dropna(thresh...') 用后一列对应位置值替换缺失值: df.fillna(axis=1, method='bfill') 使用一列平均值替换缺失值: df['Age'].fillna(value=df['Age...从多个文件中构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件中,但需要把读取到一个DataFrame中,这样需求如何实现?

2.4K20

Python数据分析实战基础 | 初识Pandas

其中count是统计每一列有多少个非空数值,mean、std、min、max对应分别是均值、标准差、最小值和最大值,25%、50%、75%对应则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格思维来处理数据,要逐渐养成一种向思维,每一列是同宗同源,处理起来是嗖嗖快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用格式之一了,Pandas字符串操作和原生字符串操作几乎一毛一样,唯一不同是需要在操作前加上".str"。...导致报错原因,是数值型数据和非数值型数据相互计算导致PANDAS把带“%”符号转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期,然后用to_datetime()函数将字符串类型转换成时间格式: ?

2K12

Python数据分析实战基础 | 初识Pandas

其中count是统计每一列有多少个非空数值,mean、std、min、max对应分别是均值、标准差、最小值和最大值,25%、50%、75%对应则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格思维来处理数据,要逐渐养成一种向思维,每一列是同宗同源,处理起来是嗖嗖快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用格式之一了,Pandas字符串操作和原生字符串操作几乎一毛一样,唯一不同是需要在操作前加上".str"。...导致报错原因,是数值型数据和非数值型数据相互计算导致PANDAS把带“%”符号转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期,然后用to_datetime()函数将字符串类型转换成时间格式: ?

1.4K40

Python数据分析实战基础 | 初识Pandas

其中count是统计每一列有多少个非空数值,mean、std、min、max对应分别是均值、标准差、最小值和最大值,25%、50%、75%对应则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格思维来处理数据,要逐渐养成一种向思维,每一列是同宗同源,处理起来是嗖嗖快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用格式之一了,Pandas字符串操作和原生字符串操作几乎一毛一样,唯一不同是需要在操作前加上".str"。...导致报错原因,是数值型数据和非数值型数据相互计算导致PANDAS把带“%”符号转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期,然后用to_datetime()函数将字符串类型转换成时间格式: ?

1.7K30

一文带你快速入门Python | 初识Pandas

其中count是统计每一列有多少个非空数值,mean、std、min、max对应分别是均值、标准差、最小值和最大值,25%、50%、75%对应则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格思维来处理数据,要逐渐养成一种向思维,每一列是同宗同源,处理起来是嗖嗖快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用格式之一了,Pandas字符串操作和原生字符串操作几乎一毛一样,唯一不同是需要在操作前加上".str"。...导致报错原因,是数值型数据和非数值型数据相互计算导致PANDAS把带“%”符号转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期,然后用to_datetime()函数将字符串类型转换成时间格式: ?

1.3K01
领券