在dataframe中使用str.contains和正则表达式搜索单词很慢，有没有更好的方法？

在dataframe中使用str.contains和正则表达式搜索单词确实可能会比较慢，但有一些优化方法可以提升性能。

一种常见的优化方法是使用向量化操作。Pandas提供了许多向量化字符串操作的函数，例如str.contains()函数可以接受一个正则表达式模式，并返回一个布尔值的Series，表示每个元素是否包含匹配模式的子串。然而，由于正则表达式的匹配过程较为复杂，因此在大规模的数据集上，这种方法可能会变得很慢。

另一种更快速的方法是使用全文搜索引擎。全文搜索引擎通常使用倒排索引来加速关键词搜索。Elasticsearch是一种流行的全文搜索引擎，可以与Pandas结合使用。您可以将dataframe的数据导入Elasticsearch中，然后使用Elasticsearch的搜索功能来执行快速的字符串匹配。腾讯云提供了腾讯云搜索（Tencent Cloud Search）服务，可以实现类似的全文搜索功能。

除了使用全文搜索引擎，还可以考虑使用其他优化技术，例如索引和缓存。如果您的dataframe包含较大的数据集并且需要频繁进行字符串匹配操作，可以尝试为相关的列添加索引，以加快搜索速度。此外，使用缓存可以在重复的搜索操作中避免重复计算，提高性能。

总结起来，优化dataframe中使用str.contains和正则表达式搜索单词的方法包括：

使用向量化字符串操作函数，如str.contains()，尽量避免使用复杂的正则表达式模式。
考虑使用全文搜索引擎，如Elasticsearch或腾讯云搜索，以提高搜索性能。
对相关的列添加索引，以加速搜索操作。
使用缓存避免重复计算，提高性能。

相关的腾讯云产品和产品介绍链接：

腾讯云搜索（Tencent Cloud Search）：提供全文搜索服务，支持快速的字符串匹配功能。详细信息请参考：https://cloud.tencent.com/product/css
腾讯云数据库 Elasticsearch 版（TencentDB for Elasticsearch）：提供基于Elasticsearch的全文搜索引擎服务。详细信息请参考：https://cloud.tencent.com/product/es

在dataframe中使用str.contains和正则表达式搜索单词很慢，有没有更好的方法？

、、、、

我有一个超过200万行的数据库。我尝试使用regex查找同时包含这两个单词的行，如下所示： df1 = df[df['my_column'].str.contains(r'(?=.*second_word)')] 然而，当试图在jupyter notebook中处理它时，它要么需要超过一分钟的时间来返回这些行，要么它会使内核崩溃，我必须再试一次。有没有更有效的方法</e

浏览 67提问于2021-01-27得票数 1

回答已采纳

1回答

如何向dataframe添加列，条件是我的dataframe中的某些观察包含Python中的目标单词？

、、

以下是我的数据框架的样子：1 35 "businessman chairmanmusician (House of Freaks Gutterball)"我想要创建一个额外的列.1 3.......87.......base

浏览 0提问于2017-01-07得票数 2

16回答

根据子串标准过滤pandas DataFrame

、、、

我有一个包含一列字符串值的pandas DataFrame。我需要根据部分字符串匹配来选择行。像这样的成语返回一个布尔值。我熟悉df[df['A'] == "hello world"]的语法，但似乎找不到一种方法来对部分字符串匹配(比如'hello' )做同样的事情。

浏览 8提问于2012-07-06得票数 686

1回答

Python的series.str.contains框架中正则表达式中的变量

、、、、

在运行regex之前，我希望将regex的元素作为变量进行控制/编辑。在我使用的正则表达式中，我希望在包含2个单词的数据框中查找行，这些行最多由3个单词分隔。此代码使用不带外部变量的正则表达式标识word1和word2：import pandas as pd df = pd.DataFr

浏览 0提问于2020-10-15得票数 0

2回答

大熊猫巨蟒体内string.contains的逆转

、、、、

我的代码里有这样的东西：但是，我想要所有不包含Hello或World的行。我如何最有效地扭转这一局面？

浏览 0提问于2014-01-10得票数 38

回答已采纳

1回答

使用regex按行过滤pandas数据帧

、、、

我相信可能会有一个简单的解决方案，但我对Python还很陌生。我有一个包含字符串和NaN值的Pandas DataFrame。在这个Dataframe中，我想搜索字符串的特殊部分。这应该逐行完成，找到的字符串将被写入与数据帧相同行数的列表中(这意味着如果我正在查找的部分字符串不能在行中匹配，则列表中的条目应为'none

浏览 2提问于2019-02-25得票数 0

1回答

将regex格式应用于与大熊猫列匹配的术语列表

、、

我有以下DataFrame：2 websocket funny internet4 another one 我试图使用正则表达式与潘达斯的str.co

浏览 3提问于2021-01-27得票数 2

回答已采纳

7回答

在pandas的DataFrame上搜索"does-not-contain“

、、

我做了一些搜索，不知道如何通过df["col"].str.contains(word)过滤数据帧，但是我想知道是否有相反的方法:根据该集合的恭维过滤数据帧。例如:为了!(df["col"].str.contains(word))的效果。这可以通过DataFrame方法来完成吗？

浏览 2提问于2013-06-14得票数 209

回答已采纳

2回答

在python中从整个熊猫数据帧中选择和删除单词列表

测试，所以我有一个很大的数据集，我想删除所有包含多个单词的行，比如(‘Sample Data’，'TEST'，'Test')，我不确定该怎么做。我尝试过这样的一种方式： test_remove=df[df['Column1'].str.contains('test') |df['Column2'].str.contains('test')'Test'

浏览 25提问于2020-07-03得票数 1

回答已采纳

2回答

熊猫.基于子串的计数的表达方法

、、、

问题是，“兴奋和紧张”应该和“兴奋”放在一起。事实上，包含“兴奋”的字符串应该包含在一个组中，但“不那么兴奋”和“不兴奋”这样的字符串除外。同样的逻辑也适用于“担心”和“紧张”。(请注意，“兴奋和紧张”实际上属于“兴奋”和“紧张”两类) 您可以看到，典型的groupby不能工作，字符串搜索必须灵活。我有一个解决方案，但不知道你们是否都能找到一种更好的</e

浏览 2提问于2018-07-18得票数 3

回答已采纳

1回答

在pandas中搜索列中的字符串不起作用

、、

我试图在我的pandas dataframe中搜索以下字符串，但它无法找到该字符串，即使它存在于数据帧中。我的代码是：df_temp['name'].str.contains('Wilkes, Mrs.James (Ellen

浏览 0提问于2018-07-14得票数 0

3回答

统计pandas数据帧中每个特定单词的出现次数

、、

我想要计算数据帧中每个特定单词的出现次数。我目前使用的是str.containsn = a.apply(lambdax: 1).sum() 有没有一种方法可以匹配正则表达式并获得出现次数？在我的</

浏览 0提问于2013-07-10得票数 33

回答已采纳

3回答

使用str.contians查看列表中的单词在每个项中

、、

我正在尝试提取在str.contains()搜索中找到的单词，如下图所示(但使用的是熊猫和str.contains，而不是VBA)。我试图在VBA结果列中重新创建输出。searchfor = list(terms['term']) found = [reviews[&#

浏览 0提问于2020-01-29得票数 2

回答已采纳

8回答

搜索所有Pandas DataFrame列和过滤器中的字符串

、

本以为这将是直截了当的，但有一些困难，找到一种优雅的方法，在同一时间搜索数据中的所有列，以获得部分字符串匹配。基本上，我将如何将df['col1'].str.contains('^')应用于整个数据帧，并筛选到包含匹配记录的任何行？

浏览 8提问于2014-10-29得票数 60

回答已采纳

1回答

如果只有句子包含来自搜索列表的任何关键字，则从数据框文本列中选择句子

、、、、

我有一个数据框架，在一列中，我有一个全文，其中有多个非常长的句子。我使用NLTK对文本进行标记化，但现在我需要确保只从给定的完整单词的长列表中提取包含任意单词的句子。我写了下面的代码，但它的问题是，它不是作为一个整体检查文本中的单词，而是例如在搜索列表中找出一个给定的单词，比如'ti

浏览 0提问于2020-10-17得票数 1

2回答

Pandas DataFrame子集上的字符串修改

、、

我很难更新Pandas数据框子集中的字符串值在字段操作中，我可以使用正则表达式修改action列： df['action'] = df.action.str.replace('([^a-z0-9\._]{2,})','') 但是，如果字符串包含特定的单词，我不想修改它，所以我尝试只更新一个子集，如下所示： df[df['action'].str.contains(

浏览 22提问于2020-04-16得票数 0

回答已采纳

3回答

熊猫-搜索术语(不管搜索词的上下大小写如何)

、、

下面的代码搜索整个Dataframe中的字符串。df[df.apply(lambda x: x.astype(str).str.contains(search)).any(axis=1)] 然而，我有一个问题，如果搜索小组是大写字母，它就失败了。有没有任何方法可以搜索整个Dataframe，而不管在Dataframe中的搜索词是

浏览 4提问于2018-11-14得票数 1

回答已采纳

2回答

熊猫如何扫描字符串中包含的一行？

、

我想要得到包含在dataframe中的行，比如"ball“，并获取ID。因此，结果将是ID 'AA‘和ID 'AD’，因为AA_balls和AD_ballss在行中。我在谷歌上搜索过，但似乎没有具体的结果。人们通常问有关在特定列中搜索子字符串的问题，而不是所有列(一行)中的搜索问题。(2)将名称2

浏览 1提问于2018-03-16得票数 1

回答已采纳

1回答

正则表达式搜索-另一个单词中的单词

我有一个搜索要求。例如，我想在大量内容中搜索单词"Microsoft Account“。在大文本中，它可能被定义为"Microsoft_Account“或"Microsoft-Account”。我的搜索逻辑也应该识别上面的单词。有没有办法用正则表达式来实现呢？(可以通过拆分和循环搜索来完成，但如果有任何使用正

浏览 2提问于2018-11-23得票数 0

2回答

如果另一列中存在字符，则有条件地更新dataframe列

、、

我有一个dataframe，它由两个列组成，全名和姓氏。有时，姓氏列的填写不正确。在这种情况下，在括号之间的全名列中，姓氏将被视为最后一个单词。如果发现括号等于括号之间的单词，我想更新我的姓氏列。代码df = pd.DataFrame({ 'full':['bob john smith','s

浏览 7提问于2022-04-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在dataframe中使用str.contains和正则表达式搜索单词很慢，有没有更好的方法？

相关·内容

在dataframe中使用str.contains和正则表达式搜索单词很慢，有没有更好的方法？

如何向dataframe添加列，条件是我的dataframe中的某些观察包含Python中的目标单词？

根据子串标准过滤pandas DataFrame

Python的series.str.contains框架中正则表达式中的变量

大熊猫巨蟒体内string.contains的逆转

使用regex按行过滤pandas数据帧

将regex格式应用于与大熊猫列匹配的术语列表

在pandas的DataFrame上搜索"does-not-contain“

在python中从整个熊猫数据帧中选择和删除单词列表

熊猫.基于子串的计数的表达方法

在pandas中搜索列中的字符串不起作用

统计pandas数据帧中每个特定单词的出现次数

使用str.contians查看列表中的单词在每个项中

搜索所有Pandas DataFrame列和过滤器中的字符串

如果只有句子包含来自搜索列表的任何关键字，则从数据框文本列中选择句子

Pandas DataFrame子集上的字符串修改

熊猫-搜索术语(不管搜索词的上下大小写如何)

熊猫如何扫描字符串中包含的一行？

正则表达式搜索-另一个单词中的单词

如果另一列中存在字符，则有条件地更新dataframe列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐