首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如果一列的子串与另一列的字符串使用pandas匹配,该如何删除它?

在使用pandas进行字符串匹配时,可以使用字符串的str.contains()方法来判断一个字符串是否包含某个子串。如果要删除包含某个子串的字符串,可以使用~运算符对匹配结果取反,然后使用drop()方法删除对应的行。

下面是一个示例代码:

代码语言:txt
复制
import pandas as pd

# 创建一个包含字符串的DataFrame
df = pd.DataFrame({'col1': ['abc', 'def', 'ghi', 'jkl'],
                   'col2': ['xyz', 'uvw', 'pqr', 'mno']})

# 判断col1列中的字符串是否包含子串'ab'
mask = df['col1'].str.contains('ab')

# 删除包含子串'ab'的行
df = df[~mask]

print(df)

输出结果为:

代码语言:txt
复制
  col1 col2
1  def  uvw
2  ghi  pqr
3  jkl  mno

在这个例子中,我们使用str.contains()方法判断col1列中的字符串是否包含子串'ab',然后使用~运算符对匹配结果取反,得到一个布尔型的掩码。最后,使用这个掩码对DataFrame进行索引,删除包含子串'ab'的行。

需要注意的是,这只是一个示例代码,实际应用中需要根据具体的需求和数据结构进行相应的调整。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

查找字符串长度 在电子表格中,可以使用 LEN 函数找到文本中的字符数。这可以与 TRIM 函数一起使用以删除额外的空格。...查找子串的位置 FIND电子表格函数返回子字符串的位置,第一个字符为 1。 您可以使用 Series.str.find() 方法查找字符串列中字符的位置。find 搜索子字符串的第一个位置。...如果找到子字符串,则该方法返回其位置。如果未找到,则返回 -1。请记住,Python 索引是从零开始的。 tips["sex"].str.find("ale") 结果如下: 3....按位置提取子串 电子表格有一个 MID 公式,用于从给定位置提取子字符串。获取第一个字符: =MID(A2,1,1) 使用 Pandas,您可以使用 [] 表示法按位置位置从字符串中提取子字符串。...VLOOKUP 相比,merge 有许多优点: 查找值不需要是查找表的第一列; 如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表中的所有列,而不仅仅是单个指定的列; 它支持更复杂的连接操作

19.6K20

Pandas中替换值的简单方法

使用内置的 Pandas 方法进行高级数据处理和字符串操作 Pandas 库被广泛用作数据处理和分析工具,用于从数据中清理和提取特征。 在处理数据时,编辑或删除某些数据作为预处理步骤的一部分。...在这篇文章中,让我们具体看看在 DataFrame 中的列中替换值和子字符串。当您想替换列中的每个值或只想编辑值的一部分时,这会派上用场。 如果您想继续,请在此处下载数据集并加载下面的代码。...Pandas 中的 replace 方法允许您在 DataFrame 中的指定系列中搜索值,以查找随后可以更改的值或子字符串。...否则,replace 方法只会更改“Of The”的列值,因为它只会匹配整个值。 您可以通过匹配确切的字符串并提供您想要更改的整个值来完成我们上面所做的相同的事情,如下所示。...每当在列值中找到它时,它就会从字符串中删除,因为我们传递的第二个参数是一个空字符串。

5.5K30
  • Pandas中的数据转换

    ,当axis='index'或=0时,对列迭代对行聚合,行即为跨列,axis=1同理 二、⭐️矢量化字符串 为什么要用str属性 文本数据也就是我们常说的字符串,Pandas 为 Series 提供了...这时候我们的str属性操作来了,来看看如何使用吧~ # 将文本转为小写 user_info.city.str.lower() 可以看到,通过 `str` 属性来访问之后用到的方法名与 Python 内置的字符串的方法名一样...例如,现在想要匹配空字符串前面的所有的字母,可以使用如下操作: user_info.city.str.extract("(\w+)\s+", expand=True) 如果使用多个组提取正则表达式会返回一个...例如,想要匹配出空字符串前面和后面的所有字母,操作如下: user_info.city.str.extract("(\w+)\s+(\w+)", expand=True) 测试是否包含子串 除了可以匹配出子串外...大家如果感觉可以的话,可以去做一些小练习~~ 【练习一】 现有一份关于字符串的数据集,请解决以下问题: (a)现对字符串编码存储人员信息(在编号后添加ID列),使用如下格式:“×××(名字):×国人

    13510

    python数据科学系列:pandas入门详细教程

    中的一列字符串进行通函数操作,而且自带正则表达式的大部分接口 丰富的时间序列向量化处理接口 常用的数据分析与统计功能,包括基本统计量、分组统计分析等 集成matplotlib的常用可视化接口,无论是series...get,由于series和dataframe均可以看做是类字典结构,所以也可使用字典中的get()方法,主要适用于不确定数据结构中是否包含该标签时,与字典的get方法完全一致 ?...由于该方法默认是按行进行检测,如果存在某个需要需要按列删除,则可以先转置再执行该方法 异常值,判断异常值的标准依赖具体分析数据,所以这里仅给出两种处理异常值的可选方法 删除,drop,接受参数在特定轴线执行删除一条或多条记录...字符串向量化,即对于数据类型为字符串格式的一列执行向量化的字符串操作,本质上是调用series.str属性的系列接口,完成相应的字符串操作。...时间类型向量化操作,如字符串一样,在pandas中另一个得到"优待"的数据类型是时间类型,正如字符串列可用str属性调用字符串接口一样,时间类型列可用dt属性调用相应接口,这在处理时间类型时会十分有效。

    15.1K20

    一场pandas与SQL的巅峰大战(二)

    本文将延续上一篇文章的风格和思路,继续对比Pandas与SQL,一方面是对上文的补充,另一方面也继续深入学习一下两种工具。...hive方面我们新建了一张表,并把同样的数据加载进了表中,后续直接使用即可。 ? ? 开始学习 一、字符串的截取 对于原始数据集中的一列,我们常常要截取其字串作为新的列来使用。...例如我们想求出每一条订单对应的日期。需要从订单时间ts或者orderid中截取。在pandas中,我们可以将列转换为字符串,截取其子串,添加为新的列。...在pandas中,我们采用的做法是先把原来orderid列转为字符串形式,并在每一个id末尾添加一个逗号作为分割符,然后采用字符串相加的方式,将每个uid对应的字符串类型的订单id拼接到一起。...先来看pandas中如何实现,这里我们需要用到literal_eval这个包,能够自动识别以字符串形式存储的数组。

    2.3K20

    嘀~正则表达式快速上手指南(下篇)

    首先,通过用空字符“”代替:\s* ,删除冒号及冒号与姓名之间的任何空格字符。然后删除姓名另一侧的空格字符和角括号,再次使用空字符进行替换。...进行下一步前,我们应特别注意的是+ 和 * 看起来很相似,但是它们差异很大。用日期字符串来举例: ? 如果使用 * 我们将匹配到大于等于零个的结果,而 + 匹配大于等于一个的结果。...emails_df['sender_email'] 选择了标记为 sender_email的列,接下来,如果在该列中匹配到 子字符串 "maktoob" 或 "spinfinder" ,则str.contains...最后, 最外面的emails_df[] 返回 sender_email 列视图,该列包含需要匹配的目标字符串。干的漂亮! 我们也可以单个检视邮件。 只需要以下4步。...第1步,查找包含字符串"@maktoob"的列 "sender_email" 对应的行索引。请留意我们是如何使用正则表达式来完成这项任务的。 ?

    4K10

    Python科学计算之Pandas

    值得注意的是,由于操作符优先级的问题,在这里你不可以使用关键字‘and’,而只能使用’&’与括号 ? 好消息是,如果在你的数据中有字符串,你也可以使用字符串方法来过滤数据。 ?...注意到你必须使用.str.[string method],你不能直接在字符串上直接调用字符串方法。这一语句返回1990年代的所有条目。 ? 索引 前几部分为我们展示了如何通过列操作来获得数据。...如果你想要多个索引,你可以简单地在列表中增加另一个列名。 ? 在上面这个例子中,我们把我们的索引值全部设置为了字符串。这意味着我们不可以使用iloc索引这些列了。这种情况该如何?我们使用loc。...那么,如果loc是字符串标签的索引方法,iloc是数字标签的索引方法,那什么是ix呢?事实上,ix是一个字符串标签的索引方法,但是它同样支持数字标签索引作为它的备选。 ?...这便是使用apply的方法,即如何对一列应用一个函数。如果你想对整个数据集应用某个函数,你可以使用dataset.applymap()。

    2.9K00

    直观地解释和可视化每个复杂的DataFrame操作

    诸如字符串或数字之类的非列表项不受影响,空列表是NaN值(您可以使用.dropna()清除它们 )。 ? 在DataFrame df中Explode列“ A ” 非常简单: ?...how参数是一个字符串,它表示四种连接 方法之一, 可以合并两个DataFrame: ' left ':包括df1的所有元素, 仅当其键为df1的键时才 包含df2的元素 。...“inner”:仅包含元件的键是存在于两个数据帧键(交集)。默认合并。 记住:如果您使用过SQL,则单词“ join”应立即与按列添加相联系。...因此,它接受要连接的DataFrame列表。 如果一个DataFrame的另一列未包含,默认情况下将包含该列,缺失值列为NaN。...为了防止这种情况,请添加一个附加参数join ='inner',该参数 只会串联两个DataFrame共有的列。 ? 切记:在列表和字符串中,可以串联其他项。

    13.3K20

    6个提升效率的pandas小技巧

    product列是字符串类型,price、sales列虽然内容有数字,但它们的数据类型也是字符串。 值得注意的是,price列都是数字,sales列有数字,但空值用-代替了。...还可以看缺失值在该列的占比是多少,用df.isna().mean()方法: df.isna().mean() ? 注意:这里isnull()和isna()使用效果一样。 那如何处理缺失值呢?...删除包含缺失值的行: df.dropna(axis = 0) 删除包含缺失值的列: df.dropna(axis = 1) 如果一列里缺失值超过10%,则删除该列: df.dropna(thresh...') 用后一列对应位置的值替换缺失值: df.fillna(axis=1, method='bfill') 使用某一列的平均值替换缺失值: df['Age'].fillna(value=df['Age...从多个文件中构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件中,但需要把它读取到一个DataFrame中,这样的需求该如何实现?

    2.9K20

    盘点66个Pandas函数,轻松搞定“数据清洗”!

    Pandas 是基于NumPy的一种工具,该工具是为解决数据分析任务而创建的。它提供了大量能使我们快速便捷地处理数据的函数和方法。...df.fillna(50) 输出: Pandas清洗数据时,判断重复值一般采用duplicated()方法。如果想要直接删除重复值,可以使用drop_duplicates() 方法。...在对文本型的数据进行处理时,我们会大量应用字符串的函数,来实现对一列文本数据进行操作[2]。...split 分割字符串,将一列扩展为多列 strip、rstrip、lstrip 去除空白符、换行符 findall 利用正则表达式,去字符串中匹配,返回查找结果的列表 extract、extractall...如果想直接筛选包含特定字符的字符串,可以使用contains()这个方法。 例如,筛选户籍地址列中包含“黑龙江”这个字符的所有行。

    3.8K11

    Pandas 秘籍:1~5

    数据帧的数据(值)始终为常规字体,并且是与列或索引完全独立的组件。 Pandas 使用NaN(不是数字)来表示缺失值。 请注意,即使color列仅包含字符串值,它仍使用NaN表示缺少的值。...如果您在使用索引运算符选择一列后尝试链接一个操作,则该智能再次消失。 注意点表示法的另一个原因是,它在流行的问答网站 Stack Overflow 上在线使用的数量激增。...这几乎与索引运算符完全相同,只是如果其中一个字符串与列名不匹配,则不会引发KeyError。...如果仔细观察,您会发现步骤 3 的输出缺少步骤 2 的所有对象列。其原因是对象列中缺少值,而 pandas 不知道如何处理字符串值与缺失值。 它会静默删除无法为其计算最小值的所有列。...步骤 3 中的dropna方法具有how参数,该参数默认为字符串any,但也可以更改为all。 设置为any时,它将删除包含一个或多个缺失值的行。 设置为all时,它仅删除缺少所有值的行。

    37.6K10

    没错,这篇文章教你妙用Pandas轻松处理大规模数据

    对象列(object columns)主要用于存储字符串,包含混合数据类型。为了更好地了解怎样减少内存的使用量,让我们看看 Pandas 是如何将数据存储在内存中的。...内存使用量降低的主要原因是我们对对象类型(object types)进行了优化。 在动手之前,让我们仔细看一下,与数字类型相比,字符串是怎样存在 Pandas 中的。...下面的图标展示了数字值是如何存储在 NumPy 数据类型中,以及字符串如何使用 Python 内置的类型存储。 你可能已经注意到,我们的图表之前将对象类型描述成使用可变内存量。...你可以看到,存储在 Pandas 中的字符串的大小与作为 Python 中单独字符串的大小相同。 使用分类来优化对象类型 Pandas 在 0.15版引入了 Categoricals (分类)。...首先,我们将每列的最终类型、以及列的名字的 keys 存在一个字典中。因为日期列需要单独对待,因此我们先要删除这一列。

    3.7K40

    Python数据分析实战基础 | 初识Pandas

    其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、平均值和最大值,25%、50%、75%对应的则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格的思维来处理数据,要逐渐养成一种列向思维,每一列是同宗同源,处理起来是嗖嗖的快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用的格式之一了,Pandas中字符串的操作和原生字符串操作几乎一毛一样,唯一不同的是需要在操作前加上".str"。...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式的字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增的日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

    1.8K30

    Python数据分析实战基础 | 初识Pandas

    其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格的思维来处理数据,要逐渐养成一种列向思维,每一列是同宗同源,处理起来是嗖嗖的快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用的格式之一了,Pandas中字符串的操作和原生字符串操作几乎一毛一样,唯一不同的是需要在操作前加上".str"。...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式的字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增的日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

    2K12

    6个提升效率的pandas小技巧

    product列是字符串类型,price、sales列虽然内容有数字,但它们的数据类型也是字符串。 值得注意的是,price列都是数字,sales列有数字,但空值用-代替了。...还可以看缺失值在该列的占比是多少,用df.isna().mean()方法: df.isna().mean() ? 注意:这里isnull()和isna()使用效果一样。 那如何处理缺失值呢?...删除包含缺失值的行: df.dropna(axis = 0) 删除包含缺失值的列: df.dropna(axis = 1) 如果一列里缺失值超过10%,则删除该列: df.dropna(thresh...') 用后一列对应位置的值替换缺失值: df.fillna(axis=1, method='bfill') 使用某一列的平均值替换缺失值: df['Age'].fillna(value=df['Age...从多个文件中构建一个DataFrame 有时候数据集可能分布在多个excel或者csv文件中,但需要把它读取到一个DataFrame中,这样的需求该如何实现?

    2.4K20

    Python数据分析实战基础 | 初识Pandas

    其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格的思维来处理数据,要逐渐养成一种列向思维,每一列是同宗同源,处理起来是嗖嗖的快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用的格式之一了,Pandas中字符串的操作和原生字符串操作几乎一毛一样,唯一不同的是需要在操作前加上".str"。...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式的字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增的日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

    1.4K40

    Python数据分析实战基础 | 初识Pandas

    其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...温馨提示:使用Pandas时,尽量避免用行或者EXCEL操作单元格的思维来处理数据,要逐渐养成一种列向思维,每一列是同宗同源,处理起来是嗖嗖的快。...06 常用数据类型及操作 1、字符串 字符串类型是最常用的格式之一了,Pandas中字符串的操作和原生字符串操作几乎一毛一样,唯一不同的是需要在操作前加上".str"。...导致报错的原因,是数值型数据和非数值型数据相互计算导致的。PANDAS把带“%”符号的转化率识别成字符串类型,我们需要先拿掉百分号,再将这一列转化为浮点型数据: ?...在实际业务中,一些时候PANDAS会把文件中日期格式的字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增的日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

    1.7K30
    领券