使用regex和Pandas重命名列，以提取特定标点符号之间的内容

可以通过以下步骤实现：

导入所需的库：

import re
import pandas as pd

创建一个示例数据框：

data = {'text': ['Hello, world!', 'I love pandas.', 'Regex is awesome!']}
df = pd.DataFrame(data)

使用正则表达式和Pandas的str.extract()函数提取特定标点符号之间的内容，并将其作为新的列添加到数据框中：

pattern = r'(?<=, )(.*?)(?=!)'  # 提取逗号和感叹号之间的内容
df['extracted_text'] = df['text'].str.extract(pattern)

打印结果：

print(df)

输出结果：

                text extracted_text
0    Hello, world!          world
1  I love pandas.             NaN
2  Regex is awesome         is awesome

在上述代码中，我们使用正则表达式模式(?<=, )(.*?)(?=!)来匹配逗号和感叹号之间的内容。(?<=, )表示逗号后面的空格，(.*?)表示要提取的内容，(?=!)表示感叹号前面的内容。然后，我们使用str.extract()函数将匹配到的内容提取出来，并将其作为新的列添加到数据框中。

这个方法适用于需要提取特定标点符号之间内容的情况，例如提取引号之间的内容、括号之间的内容等。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云云数据库 MySQL 版：https://cloud.tencent.com/product/cdb_mysql
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iotexplorer
腾讯云移动开发平台（MTP）：https://cloud.tencent.com/product/mtp

使用regex和Pandas重命名列，以提取特定标点符号之间的内容

、、、

R '

浏览 35提问于2020-12-24得票数 1

回答已采纳

1回答

使用python或pyspark中的regex从字符串中提取所需的字符之间的数据。

、、、

我想从dataframe列的行中的字符串数据中提取几个字符之间的数据。例如，列中的数据如下所示：|subscription |因此，我应该在"[]“和带有单个元素<

浏览 3提问于2022-03-30得票数 -3

回答已采纳

1回答

C#中的Regex试图替换两个字符之间使用regex找到的字符串。

、

我试图使用C#替换段落中出现的所有特定名称。除姓名前后的字母外，还可以有任何字符。如果该段落以名称开头或结尾，则只要它符合上述要求，它将被替换(基本上包括在名称之前或之后没有任何内容的选项)。我正在使用regex "\b“和”忽略大小写“来捕获像"George或george”这样的排版。“等缩短的名称，我遇到了异常；因为\b正则表达式包含标

浏览 2提问于2017-10-25得票数 1

回答已采纳

1回答

JavaScript regex，大写字母的起始句仅在期中

、、

我试图让我的正则表达式返回段落文本的正确子字符串。我已经确定，最好的做法是把两个句号之间的任何句子都拉进去，并且只以大写字母开头(没有数字或标点符号)。到目前为止，我所得到的是两个句点之间的每一个句子(不是顺序句)，而且我也不知道如何抓住一个只以大写字母开头的句子。下面是这样的表达：var truncated

浏览 0提问于2015-09-24得票数 2

回答已采纳

2回答

如何在特定标点符号前不允许空格

、、、、

首先，我只允许使用几个标点符号，例如，只有点和逗号。它没有在这里显示，因为不需要，只是为了知道。"; string filtr1 = Regex.Replace(str, @"(\.|,){1,}", m => m.Value.First().ToString()); string filtr2 = Regex.Repl

浏览 3提问于2016-10-23得票数 1

回答已采纳

1回答

如何显示csv文件元素的计数？

、、、

我已经将一个.csv文件的内容放在数据列表中，下面的代码放在木星笔记本中with open("president_county_candidate.csv", "r") as f:contents = csv.reader(f) data.append(c) 我只能通过索引数获得一个元素，但这就给出了列表的整行如何选择特定的元素和计数？在图像中，您可以看到列表(数据

浏览 5提问于2022-03-26得票数 -1

回答已采纳

2回答

如何在java中使用\\p{Punct}检查文本行的开头：{“

、

给定一个以符号开头的字符串：{"并以："}结尾。行之间还有其他标点符号，如：、‘或“等。如何使用java regex实用程序来了解给定字符串是否以：{"开头。我试图使用以下方法返回布尔值：哪里和 string = {"name"

浏览 0提问于2012-09-10得票数 2

2回答

需要java正则表达式来匹配具有多个空格的子字符串，只有一个标点符号

、

我希望确保我匹配的子字符串只有一个可能的标点符号和尽可能多的空格。这是一个更长的REGEX的内部，目前有以下内容：但这将匹配所有标点符号和空格，因此它接受：、前的字符串。....the字符串之后当我希望它匹配的是之前的字符串和之后的字符串之间的任意数量<

浏览 0提问于2010-05-03得票数 4

1回答

Splunk搜索-由于NULL无法表化

、、、

我想从消息字段中提取"TimesAccesed“。<TimesAccessed>[^\"]+)"| rex field=Message "\"TotalTime\"\:\"(?

浏览 1提问于2022-07-26得票数 0

回答已采纳

1回答

使用regex替换Pandas中的整个列。

、

首先，我已经看过了关于这个主题的其他问题，它们要么对我的情况不起作用，要么我只是不理解它们。我在pandas中有一个数据帧，大约有8列。第8列是我想要使用正则表达式从该列的每个元素中提取特定部分的列。我看到的完成此操作的代码如下： new[8].replace(r'.*', r'Name=.*;', inp

浏览 1提问于2018-12-22得票数 0

1回答

有没有办法重命名重复的头文件并选择正确的列python？

、、、

我有一个大型电子表格文件(.xlsx)，我正在使用python pandas处理该文件。我注意到有重复的标题，我想重命名特定的列，而不应用于其余的列。| nan | 上表是我从一个excel文件中提取的数据我希望输出是这样的： Mo

浏览 0提问于2019-08-26得票数 0

4回答

文章(a/an/the)和数字(1-4位数)之间的RegEx短语

、、、、

我需要遍历几十个文件，在“/a/an”和一个可能的数字从1-4之间提取特定的短语，而忽略了诸如{}()[]这样的标点符号。示例懒惰的狗20观众0012 消除标点符号不是问题：sed 's/[][{}()]&#

浏览 2提问于2013-04-01得票数 0

回答已采纳

1回答

Python Dataframe -在正则表达式匹配之间提取多行

、、、、

我正在处理一个python 3.x项目，它需要读取一个需要过滤的大型TXT文件(例如，删除多个空格、空行、以某些字符串开头的行等)，最后通过REGEX匹配进行拆分。我现在正在做的是使用pandas dataframe来存储每一行(这使得使用pandas startswith()或endswith()删除行变得很容易)。另一方面，通过让文本文件的每一行对应于DataFrame中的一行，我不知道如何在<

浏览 5提问于2017-09-20得票数 0

3回答

使用java中的regex提取两个特定单词之间的子字符串

、

我想使用java提取特定两个单词之间的子字符串。This is an important example about regex for my work.我想提取"an“和"for”之间的所有内容。到目前为止我所做的是： String sentence = "This is an important example about reg

浏览 2提问于2011-08-15得票数 11

回答已采纳

1回答

如何删除python中的所有unicode表示

、、

我试图删除文档中所有特殊字符的表示形式，例如文档中的部分内容是：“world\u2019 s”，当我将其拆分时，它给出了['world', '\u2019', 's']，但我只需要单词(unicode和我已经删除了所有标点符号，这适用于通常显示的实际标点符号，而不是这些unicode表示。我还尝试使用regex来匹配以“\”开头的所有<em

浏览 1提问于2021-01-12得票数 1

回答已采纳

2回答

python生成的csv与转换的xlsx文件之间的大小差异

、、、

我编写了一个python程序，以特定的格式重命名文件名(大约500 k文件)。为了跟踪状态，我创建了一个数组status [[]]数组，我在其中追加了文件名、文件路径、状态(无论重命名是否成功)和错误(如果有的话)。流程完成后，使用csv将该数组导出到pandas。status_file = # path to csv file df_stat

浏览 8提问于2019-02-20得票数 0

回答已采纳

1回答

创建具有特定条件的正则表达式

、

我想创建一个正则表达式，用于从文本文件中提取块。块必须介于已知值和包含特定单词之间。我现在使用的是这样的 Regex.Matches (fileContent, $"START_BLOCK SOMEWORD[^#]+?END_BLOCK") .OfType<Match> ().Select (m => m.Value).ToList (); 它只返回以S

浏览 15提问于2019-10-03得票数 0

回答已采纳

1回答

为什么re.findall只匹配大数据集的前五行和最后五行？

我有一个excel文件，在一列中包含超过3700个条目。条目包含一个全名和一个数字，只有空格才能将两者分开。要提取数字，我使用以下方法：import pandas as pd index_number= re.findall(r'\d+', str(dataframe['entry'])) 输出只给出10个数字--第一个和

浏览 1提问于2022-01-10得票数 0

回答已采纳

2回答

搜索非标记字符串之间的内容。

、

我使用试图从这段旧代码中提取数据，感兴趣的内容不是在整洁的HTML标记之间，而是在字符串(包括标点符号和字母)之间。但是，与其获取每一段内容，我还得到了初始字符串的第一个实例和最后一个边界字符串的最后一个实例之间的所有内容。start1):q.rfind(end1)] content_of_interest_1

浏览 0提问于2015-06-02得票数 3

回答已采纳

2回答

用于提取带有几个换行符的标记之间内容的Regex和PHP

、、

如何提取带有几个换行符的标记之间的内容？<div class="test">任务:提取和第一个关闭的标记.之间的内容。<\/div>/ 只是想知道如何使用regex<

浏览 1提问于2010-06-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用regex和Pandas重命名列，以提取特定标点符号之间的内容

相关·内容

使用regex和Pandas重命名列，以提取特定标点符号之间的内容

使用python或pyspark中的regex从字符串中提取所需的字符之间的数据。

C#中的Regex试图替换两个字符之间使用regex找到的字符串。

JavaScript regex，大写字母的起始句仅在期中

如何在特定标点符号前不允许空格

如何显示csv文件元素的计数？

如何在java中使用\\p{Punct}检查文本行的开头：{“

需要java正则表达式来匹配具有多个空格的子字符串，只有一个标点符号

Splunk搜索-由于NULL无法表化

使用regex替换Pandas中的整个列。

有没有办法重命名重复的头文件并选择正确的列python？

文章(a/an/the)和数字(1-4位数)之间的RegEx短语

Python Dataframe -在正则表达式匹配之间提取多行

使用java中的regex提取两个特定单词之间的子字符串

如何删除python中的所有unicode表示

python生成的csv与转换的xlsx文件之间的大小差异

创建具有特定条件的正则表达式

为什么re.findall只匹配大数据集的前五行和最后五行？

搜索非标记字符串之间的内容。

用于提取带有几个换行符的标记之间内容的Regex和PHP

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐