在dataframe列中搜索字符串模式，返回每个匹配项并连接到另一个dataframe

在数据分析和处理中，我们经常需要在DataFrame的列中搜索特定的字符串模式，并将匹配的项连接到另一个DataFrame。为了实现这个目标，我们可以使用Python中的pandas库提供的一些函数和方法。

首先，我们需要导入pandas库并加载我们的数据集。假设我们有两个DataFrame，分别为df1和df2。

import pandas as pd

# 加载数据集
df1 = pd.DataFrame({'col1': ['apple', 'banana', 'orange', 'grape'],
                    'col2': ['cat', 'dog', 'elephant', 'monkey']})

df2 = pd.DataFrame({'col3': ['apple juice', 'banana bread', 'orange juice', 'grapefruit'],
                    'col4': ['drink', 'food', 'drink', 'fruit']})

接下来，我们可以使用pandas的str.contains()函数来搜索字符串模式，并返回一个布尔值的Series，指示每个元素是否包含模式。

# 在df1的col1列中搜索字符串模式，并返回布尔值的Series
pattern = 'an'
matches = df1['col1'].str.contains(pattern)

然后，我们可以使用布尔值的Series来筛选出匹配的行，并将其连接到df2。

# 筛选出匹配的行，并连接到df2
result = df2[matches].reset_index(drop=True)

最后，我们可以打印出结果。

print(result)

这样，我们就可以在DataFrame的列中搜索字符串模式，并返回每个匹配项并连接到另一个DataFrame了。

关于腾讯云的相关产品，推荐使用腾讯云的云服务器（CVM）和云数据库MySQL（CDB）来支持数据处理和存储需求。您可以通过以下链接了解更多关于腾讯云的产品和服务：

腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云云数据库MySQL（CDB）：https://cloud.tencent.com/product/cdb

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pandas知识点-合并操作merge

merge()方法自动将所有列同时作为连接列，合并时取并集，所有的连接列在结果中都返回了，得到的效果就与按行合并一样。(理解how参数和on参数后就会明白，下文马上介绍)。二连接方式 ---- ?...inner内连取key列的交集outer外连取key列的并集left左连使用左边df的key列right右连使用右边df的key列三指定连接的列 ---- ?...合并时，先找到两个DataFrame中的连接列key，然后将第一个DataFrame中key列的每个值依次与第二个DataFrame中的key列进行匹配，匹配到一次结果中就会有一行数据。...上面的例子中，用于连接的列是key1,key2，k0,k0在两个DataFrame中都有，匹配到一次，k1,k1匹配到两次，k2,k2和k2,k3等都没有匹配成功，所以结果为三行(默认合并方式为inner...六连接列是否存在DataFrame中 ---- ? indicator: 在结果中增加一列，显示连接列是否存在于两个DataFrame中。

3.1K3 0

python数据科学系列：pandas入门详细教程

为了沿袭字典中的访问习惯，还可以用keys()访问标签信息，在series返回index标签，在dataframe中则返回columns列名；可以用items()访问键值对，但一般用处不大。...这里提到了index和columns分别代表行标签和列标签，就不得不提到pandas中的另一个数据结构：Index，例如series中标签列、dataframe中行标签和列标签均属于这种数据结构。...切片形式访问时按行进行查询，又区分数字切片和标签切片两种情况：当输入数字索引切片时，类似于普通列表切片；当输入标签切片时，执行范围查询（即无需切片首末值存在于标签列中），包含两端标签结果，无匹配行时返回为空...尤为强大的是，除了常用的字符串操作方法，str属性接口中还集成了正则表达式的大部分功能，这使得pandas在处理字符串列时，兼具高效和强力。例如如下代码可用于统计每个句子中单词的个数 ?...时间类型向量化操作，如字符串一样，在pandas中另一个得到"优待"的数据类型是时间类型，正如字符串列可用str属性调用字符串接口一样，时间类型列可用dt属性调用相应接口，这在处理时间类型时会十分有效。

13.8K2 0

通宵翻译Pandas官方文档，写了这份Excel万字肝货操作！

CSV 让我们从 Pandas 测试中加载并显示提示数据集，这是一个 CSV 文件。在 Excel 中，您将下载并打开 CSV。...列的选择在Excel电子表格中，您可以通过以下方式选择所需的列：隐藏列；删除列；引用从一个工作表到另一个工作表的范围；由于Excel电子表格列通常在标题行中命名，因此重命名列只需更改第一个单元格中的文本即可...查找子串的位置 FIND电子表格函数返回子字符串的位置，第一个字符为 1。您可以使用 Series.str.find() 方法查找字符串列中字符的位置。find 搜索子字符串的第一个位置。...如果匹配多行，则每个匹配都会有一行，而不仅仅是第一行；它将包括查找表中的所有列，而不仅仅是单个指定的列；它支持更复杂的连接操作；其他注意事项 1....查找和替换 Excel 查找对话框将您带到匹配的单元格。在 Pandas 中，这个操作一般是通过条件表达式一次对整个列或 DataFrame 完成。

19.5K2 0

《利用Python进行数据分析·第2版》第7章数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

正则表达式正则表达式提供了一种灵活的在文本中搜索或匹配（通常比前者复杂）字符串模式的方式。正则表达式，常称作regex，是根据正则表达式语言编写的字符串。...findall返回的是字符串中所有的匹配项，而search则只返回第一个匹配项。match更加严格，它只匹配字符串的首部。...（以特殊的匹配项对象形式返回）。...对于上面那个regex，匹配项对象只能告诉我们模式在原字符串中的起始和结束位置： In [156]: m = regex.search(text) In [157]: m Out[157]: <_sre.SRE_Match...None，因为它只匹配出现在字符串开头的模式： In [159]: print(regex.match(text)) None 相关的，sub方法可以将匹配到的模式替换为指定字符串，并返回所得到的新字符串

5.2K9 0

Pandas 2.2 中文官方教程和指南（十五）

，正则表达式中的组数为第一行） 1 组 >1 组 Index Index ValueError Series Series DataFrame 提取每个主题中的所有匹配项（extractall）与仅返回第一个匹配项的...DataFrame，每个元素一行，每个正则表达式捕获组一列 extractall() 对每个元素调用re.findall，返回一个 DataFrame，每个匹配项一行，每个正则表达式捕获组一列 len...正则表达式中的组数在第一行） 1 组 >1 组 Index Index ValueError Series Series DataFrame 提取每个主题中的所有匹配项（extractall）与仅返回第一个匹配项的...join() 使用传递的分隔符将 Series 中每个元素的字符串连接起来 get_dummies() 在分隔符上拆分字符串，返回虚拟变量的 DataFrame contains() 如果每个字符串包含模式...，返回一个 DataFrame，每个元素一行，每个正则表达式捕获组一列 extractall() 对每个元素调用re.findall，返回一个 DataFrame，每个匹配一行，每个正则表达式捕获组一列

1601 0

Pandas中的数据转换

提取第一个匹配的子串 extract 方法接受一个正则表达式并至少包含一个捕获组，指定参数 expand=True 可以保证每次都返回 DataFrame。...get_dummies() 在分隔符上分割字符串，返回虚拟变量的DataFrame contains() 如果每个字符串都包含pattern / regex，则返回布尔数组 replace() 用其他字符串替换...Series中的每个字符串 slice_replace() 用传递的值替换每个字符串中的切片 count() 计数模式的发生 startswith() 相当于每个元素的str.startswith(pat...) endswith() 相当于每个元素的str.endswith(pat) findall() 计算每个字符串的所有模式/正则表达式的列表 match() 在每个元素上调用re.match，返回匹配的组作为列表...extract() 在每个元素上调用re.search，为每个元素返回一行DataFrame，为每个正则表达式捕获组返回一列 extractall() 在每个元素上调用re.findall，为每个匹配返回一行

1031 0

数据科学入门必读：如何使用正则表达式？

每个名称都输出显示在方括号中，因为 re.findall 以列表形式返回匹配结果。如果我们想得到电子邮箱地址呢？...re.search() re.findall() 匹配的是一个模式在一个字符串中的所有实例然后以列表的形式返回它们，而 re.search() 匹配的是一个模式在一个字符串中的第一个实例，然后以 re...pandas dataframe 或表格中的一列。...每个 key 都会成为一个列标题，每个值都是一列中的一行。...前者是查找其中每个词，而后者是搜索其中每个字母。现在我们使用 | 来查找来自一个域名或另一个域名的电子邮件。

3.5K10 0

针对SAS用户：Python数据分析库pandas

info()方法返回DataFrame的属性描述。 ? 在SAS PROC CONTENTS的输出中，通常会发现同样的信息。 ? ? 检查 pandas有用于检查数据值的方法。...处理缺失数据在分析数据之前，一项常见的任务是处理缺失数据。Pandas使用两种设计来表示缺失数据，NaN（非数值）和Python None对象。...解决缺失数据分析的典型SAS编程方法是，编写一个程序使用计数器变量遍历所有列，并使用IF/THEN测试缺失值。这可以沿着下面的输出单元格中的示例行。...它将.sum()属性链接到.isnull()属性来返回DataFrame中列的缺失值的计数。 .isnull()方法对缺失值返回True。...通过将.sum()方法链接到.isnull()方法，它会生成每个列的缺失值的计数。 ? 为了识别缺失值，下面的SAS示例使用PROC格式来填充缺失和非缺失值。

12.1K2 0

Python 数据处理：Pandas库的使用

2.1 重新索引 2.2 丢弃指定轴上的项 2.3 索引、选取和过滤 2.4 用 loc 和 iloc 进行选取 2.5 整数索引 2.6 算术运算和数据对齐 2.7 在算术方法中填充值 2.8 DataFrame...字典键或Series索引的并集将会成为DataFrame的列标由列表或元组组成的列表类似于“二维ndarray" 另一个DataFrame 该DataFrame的索引将会被沿用，除非显式指定了其他索引...向前后向后填充时，填充不准确匹配项的最大间距（绝对值距离) level 在Multilndex的指定级别上匹配简单索引，否则选取其子集 copy 默认为True，无论如何都复制；如果为False，则新旧相等就不复制...在本例中，我们的目的是匹配DataFrame的行索引（axis='index' or axis=0）并进行广播。...后面的频率值是每个列中这些值的相应计数。

22.7K1 0

Pandas中替换值的简单方法

在这篇文章中，让我们具体看看在 DataFrame 中的列中替换值和子字符串。当您想替换列中的每个值或只想编辑值的一部分时，这会派上用场。如果您想继续，请在此处下载数据集并加载下面的代码。...import pandas as pd df = pd.read_csv('WordsByCharacter.csv') 使用“替换”来编辑 Pandas DataFrame 系列（列）中的字符串...Pandas 中的 replace 方法允许您在 DataFrame 中的指定系列中搜索值，以查找随后可以更改的值或子字符串。...也就是说，需要传递想要更改的每个值，以及希望将其更改为什么值。在某些情况下，使用查找和替换与定义的正则表达式匹配的所有内容可能更容易。...首先，如果有多个想要匹配的正则表达式，可以在列表中定义它们，并将其作为关键字参数传递给 replace 方法。然后，只需要显式传递另一个关键字参数值来定义想要的替换值。

5.4K3 0

直观地解释和可视化每个复杂的DataFrame操作

操作数据帧可能很快会成为一项复杂的任务，因此在Pandas中的八种技术中均提供了说明，可视化，代码和技巧来记住如何做。 ?...在表上调用堆栈后再调用堆栈不会更改该堆栈（原因是存在“ 0 ”）。 ? 堆叠中的参数是其级别。在列表索引中，索引为-1将返回最后一个元素。这与水平相同。...默认情况下，合并功能执行内部联接：如果每个DataFrame的键名均未列在另一个键中，则该键不包含在合并的DataFrame中。...另一方面，如果一个键在同一DataFrame中列出两次，则在合并表中将列出同一键的每个值组合。...为了防止这种情况，请添加一个附加参数join ='inner'，该参数只会串联两个DataFrame共有的列。 ? 切记：在列表和字符串中，可以串联其他项。

13.3K2 0

AI开发最大升级：Pandas与Scikit-Learn合并，新工作流程更简单强大！

数据一览在DataFrame中读取数据并输出前几行。...在必要情况下，可以将数据转换到新的空间。下面，我们导入一个hotencoder，将它实例化，并确保返回一个密集(而不是稀疏)的数组，然后用fit_transform方法对单个列进行编码。...当调用transform时，它使用每个列的这个存储平均值来填充缺失值并返回转换后的数组。 OneHotEncoder原理是类似的。在fit方法中，它会找到每个列的所有唯一值，并再次存储这些值。...所有的转换器都存储在named_transformers_ dictionary属性中。然后使用特征名、含有三项要素的元组中的第一项，来选择特定的转换器。...DataFrame中获取所有网格搜索结果网格搜索的所有结果都存储在cv_results_属性中。

3.5K3 0

Pandas知识点-连接操作concat

这些方法都可以将多个Series或DataFrame组合到一起，返回一个新的Series或DataFrame。每个方法在用法上各有特点，可以适用于不同的场景，本系列会逐一进行介绍。...concat()的第一个参数通常传入一个由Series或DataFrame组成的列表，表示将列表中的数据连接到一起，连接的顺序与列表中的顺序相同。也可以传入一个字典，后面会介绍。...这个例子中，两个DataFrame的行索引和列索引都不相等，将它们按行连接时，先将两个DataFrame的行拼接起来，然后在每行中没有数据的列填充空值。按列连接同理。...第二步，检索数据中的列索引，如果列索引相等，则结果兼容显示在同一列(例1)，如果列索引不相等，则分别显示，无数据的位置填充空值(例3)。三连接时取交集 ---- ?...如果取的是交集，修改行索引的过程为：先按取交集的方式连接，然后在结果中增加比修改的索引少的行，增加回的行中填充空值。五重设结果的索引 ---- ?

2K5 0

Python 数据分析（PYDA）第三版（三）

这些函数的可选参数可能属于几个类别：索引可以将一个或多个列视为返回的 DataFrame，并确定是否从文件、您提供的参数或根本不获取列名。...，并将任何区域特定的可变字符组合转换为一个通用的可比较形式 ljust, rjust 分别左对齐或右对齐；用空格（或其他填充字符）填充字符串的对侧，以返回具有最小宽度的字符串 正则表达式正则表达式提供了一种灵活的方式来在文本中搜索或匹配...虽然 findall 返回字符串中的所有匹配项，但 search 只返回第一个匹配项。更严格地说，match 仅在字符串开头匹配。...表 7.5：正则表达式方法方法描述 findall 返回字符串中所有非重叠匹配模式的列表 finditer 类似于 findall，但返回一个迭代器 match 在字符串开头匹配模式，并可选择将模式组件分段...；如果模式匹配，则返回一个匹配对象，否则返回 None search 扫描字符串以查找与模式匹配的内容，如果匹配，则返回一个匹配对象；与 match 不同，匹配可以出现在字符串的任何位置，而不仅仅是在开头

1960 0

Pandas知识点-合并操作join

在Pandas中，join()方法也可以用于实现合并操作，本文介绍join()方法的具体用法。一基础合并操作 ---- ?...inner 内连取行索引的交集 outer 外连取行索引的并集 left 左连使用左边df的行索引 right 右连使用右边df的行索引三设置用于连接的列 ---- ?...on: 指定合并时调用join()方法的DataFrame中用于连接(外连，内连，左连，右连)的列。默认为None，join()方法默认是使用行索引进行连接。...观察上面的例子，left1中有key列，而right1中没有key列，不过right1的行索引可以与left1的key列可以进行匹配，用左连接的方式得到结果。这个结果相当于如下的merge()操作。...lsuffix和rsuffix默认为空字符串，合并两个DataFrame时，join()方法不会自动给相同的列名加后缀进行区分，如果不给相同的列设置后缀会报错。

2.7K1 0

Python进阶之Pandas入门(三) 最重要的数据流操作

在这里，我们可以看到每一列的名称、索引和每行中的值示例。您将注意到，DataFrame中的索引是Title列，您可以通过单词Title比其他列稍微低一些的方式看出这一点。...、非空值的数量、每个列中的数据类型以及DataFrame使用了多少内存。...请注意，在我们的movies数据集中，Revenue和Metascore列中有一些明显的缺失值。我们将在下一讲中处理这个问题。快速查看数据类型实际上非常有用。...我们的movies DataFrame中有1000行和11列。在清理和转换数据时，您将需要经常使用.shape。例如，您可能会根据一些条件过滤一些行，然后想要快速知道删除了多少行。...drop_duplicates()的另一个重要参数是keep，它有三个可能的选项: first:(默认)删除第一次出现的重复项。 last:删除最后一次出现的重复项。 False:删除所有重复项。

2.6K2 0

数据科学 IPython 笔记本 7.10 组合数据集：合并和连接

一对一连接也许最简单的合并表达式是一对一连接，这在很多方面与“数据集的组合：连接和附加”中的按列连接非常相似。。...DataFrame都有一个employee列，并使用该列作为键自动连接。...另外，请记住，合并一般会丢弃索引，除了在索引合并的特殊情况下（参见left_index和right_index关键字，之后讨论）。多对一连接多对一连接中，两个键列中的一个包含重复条目。...如果左侧和右侧数组中的键列都包含重复项，则结果是多对多合并。结合一个具体的例子可能是最清楚的。考虑以下内容，我们有一个DataFrame，展示了与特定分组相关的一项或多项技能。...为连接指定集合运算在前面的所有例子中，我们在执行连接时掩盖了一个重要的考虑因素：连接中使用的集合运算的类型。当一个值出现在一个键列而不出现在另一个键列中时，会出现此情况。

9412 0

Pandas图鉴(三)：DataFrames

如果简单地在Jupyter单元中写df的结果恰好太长（或太不完整），可以尝试以下方法： df.head(5) 或 df[:5] 显示前五行。 df.dtypes返回列的类型。...从一个Series的dict（每个Series代表一个列；默认返回copy，它可以被告知返回一个copy=False的视图）。...DataFrame有两种可供选择的索引模式：loc用于通过标签进行索引，iloc用于通过位置索引进行索引。在Pandas中，引用多行/列是一种复制，而不是一种视图。...所有的算术运算都是根据行和列的标签来排列的：在DataFrames和Series的混合操作中，Series的行为（和广播）就像一个行-向量，并相应地被对齐：可能是为了与列表和一维NumPy向量保持一致...与普通模式相比，这种模式有些限制：它没有提供一个解决重复列的方法；它只适用于1:1的关系（索引到索引的连接）。因此，多个1:n的关系应该被逐一连接。'

3512 0

scikit-learn中的自动模型选择和复合特征空间

这不仅使你的代码保持整洁并防止训练集和测试集之间的信息泄漏，而且还允许你将转换步骤视为模型的超参数，然后通过网格搜索在超参数空间中优化模型。...在每个示例中，fit()方法不执行任何操作，所有工作都体现在transform()方法中。前两个转换符用于创建新的数字特征，这里我选择使用文档中的单词数量和文档中单词的平均长度作为特征。...因此，CountWords.transform()被设计为接受一个序列并返回一个数据流，因为我将使用它作为管道中的第一个转换器。...它的transform()方法接受列名列表，并返回一个仅包含这些列的DataFrame;通过向它传递不同的列名列表，我们可以在不同的特征空间中搜索以找到最佳的一个。...当我们只使用一个数字列n_words并使用词汇表中的所有单词(即max_features = None)时，可以获得最佳性能。在交叉验证期间，该模型的平衡精度为0.94，在测试集上评估时为0.93。

1.5K2 0

Pandas文本数据处理 | 轻松玩转Pandas（4）

提取第一个匹配的子串 extract 方法接受一个正则表达式并至少包含一个捕获组指定参数 expand=True 可以保证每次都返回 DataFrame。...get_dummies() 在分隔符上分割字符串，返回虚拟变量的DataFrame contains() 如果每个字符串都包含pattern / regex，则返回布尔数组 replace() 用其他字符串替换...Series中的每个字符串 slice_replace() 用传递的值替换每个字符串中的切片 count() 计数模式的发生 startswith() 相当于每个元素的str.startswith(pat...) endswith() 相当于每个元素的str.endswith(pat) findall() 计算每个字符串的所有模式/正则表达式的列表 match() 在每个元素上调用re.match，返回匹配的组作为列表...extract() 在每个元素上调用re.search，为每个元素返回一行DataFrame，为每个正则表达式捕获组返回一列 extractall() 在每个元素上调用re.findall，为每个匹配返回一行

1.6K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云