正则表达式从dataframe中的一列中提取和拆分文本

正则表达式是一种用来匹配、查找和处理文本的工具，通过定义一种模式来描述待匹配的字符串。它可以从字符串中提取、替换、拆分等操作，非常适用于数据处理、文本挖掘、数据清洗等任务。

在Python中，可以使用re模块来处理正则表达式。要从DataFrame中的一列中提取和拆分文本，可以按照以下步骤进行：

导入所需的库：

import re
import pandas as pd

创建一个包含文本的DataFrame：

df = pd.DataFrame({'text': ['hello world', 'foo bar', 'spam eggs']})

使用正则表达式提取和拆分文本：

# 提取单词
df['words'] = df['text'].apply(lambda x: re.findall(r'\w+', x))

# 拆分字符串
df['split'] = df['text'].apply(lambda x: re.split(r'\s', x))

这样，就可以在DataFrame中得到提取后的结果。例如，对于上述示例DataFrame，提取结果如下：

          text          words            split
0  hello world  [hello, world]  [hello, world]
1      foo bar      [foo, bar]      [foo, bar]
2    spam eggs    [spam, eggs]    [spam, eggs]

注意，在使用正则表达式时，可以根据具体的匹配需求调整模式。上述示例中使用的\w+表示匹配一个或多个字母、数字或下划线，\s表示匹配一个空白字符。

对于上述问答内容，推荐使用腾讯云的云原生数据库TencentDB for MariaDB、腾讯云的人工智能服务腾讯云智能图像识别（Image Moderation）和腾讯云的音视频处理服务云点播（VOD）来支持相关的功能。

在'/‘前编写一个正则表达式来提取数字

、

我不想使用字符串拆分，因为我有数字1-99，并且有一列字符串在文本中的某处包含'#/#‘。在下面的示例中，我如何编写正则表达式来提取数字10： He got 10/19 questions right.

浏览 100提问于2019-03-28得票数 0

回答已采纳

1回答

正则表达式从dataframe中的一列中提取和拆分文本

、、、

我有一个包含两列的数据集-一列是日期，另一列是数据，值如下 date data 1-1-2019 [[{'user_id': 1111, 'joining_date': '2011-01-01', 'country': 'EN'}]] 我的问题是如何拆分这个值并创建一个新列(并获得作为列名的前缀)，如下所示？

浏览 12提问于2019-10-04得票数 0

回答已采纳

3回答

Postgres -如何分裂和加入？

、

是否有方法将列拆分成标记，并将它们连接起来(就像在Python、Java、Ruby等其他编程语言中一样) 我计划在http://之后和下一个斜杠之前使用regex提取所有内容。然后将url拆分为句点(.)，然后加入最后2个令牌。使用正则表达式，我可以从

浏览 1提问于2013-07-27得票数 2

回答已采纳

1回答

从Pandas列的元素中提取文本，写入新列

、、

我在Pandas DataFrame的一个列(COL_NAME)中获得了一些数据。我想提取“(”和“)”之间的一些文本(这些数据要么存在，要么根本不存在，尽管数据中可能有多组括号)。然后，我想将paren中的数据写入另一列，然后从原始字符串中删除'(XXX)‘。COL_NAME(info) text (yay!)None

浏览 1提问于2015-10-29得票数 3

回答已采纳

4回答

将"Name“分隔到"FirstName”和"LastName“列中

、

我很难弄清楚如何在一个数据帧中取一列"Name“，将其拆分为同一数据帧中的FistName和LastName的另外两列。挑战是我的一些名字有几个姓。本质上，我想把第一个单词(或字符串的元素)放在FirstName列中，然后将下面的所有文本(当然减去空格)放入LastName列中。这是我的DataFrame“团队” NAME <-

浏览 6提问于2014-10-21得票数 6

回答已采纳

2回答

将dataframe中的列拆分为包含文本而不是数字的列和包含R中没有文本的数字的列

、、

from others","","","")df<-cbind.data.frame(a,b,c)我想保留数据b/c中的文本和数字预期产出：我认为有意义的是以下几点：从步

浏览 3提问于2022-02-02得票数 0

6回答

如何将带超链接的url文本从字段中取出

我有一个包含超链接公式的列，例如：我希望获得额外的列，其中只会显示第一列中的urls (作为文本)，即在此示例中：有没有允许从超链接中提取url的功能？我也在考虑从第一列中

浏览 5提问于2015-02-12得票数 10

1回答

基于不同列的过滤器从Pandas DataFrame中提取文本

、、

一列是"State“，另一列是"Text”。我想创建一个名为"my_new_col“的新列，它只在State列= "Idaho”时才从"Text“列中提取单词"Lime”。Oregon","Idaho","Oregon"], 'Text': ["Lime Light","New Egg","Lime Inc",&quo

浏览 20提问于2021-02-10得票数 0

回答已采纳

1回答

用excel提取文本

、、、、

我每天都收到一些我需要分开的短信。我有数百行类似于下面的摘录：我需要从文本中提取单个片段，因此对于每个单独的单元格，我的结果需要日期、月份、公司、大小和价格。在这种情况下，结果将是：APR100我正在努力解决的问题是一致性。另一个给我带来困难的<

浏览 4提问于2021-02-16得票数 0

回答已采纳

2回答

在R中使用正则表达式拆分列

、、

我正在尝试将我的数据框中的列拆分为两列。列中的值如下所示：user_author-5期望的结果是：user_author 5number"), remove = FALSE但

浏览 0提问于2020-08-10得票数 0

1回答

重复行熊猫数据集

我有这样的数据集：hi 1 00 1 0 i=i+1

浏览 2提问于2017-10-02得票数 1

回答已采纳

1回答

Python 2.7:如何正确拆分CSV文件？

、、、

我正在尝试拆分从URL提取文本后得到的字符串。提取的数据被放在一个CSV文件中，我正在尝试分离数据。playerInfo = items[i].getText(separator=u'%|-').encode('utf-8').split('%|-')<div s

浏览 2提问于2018-02-13得票数 0

1回答

基于R的文本挖掘

、

我需要使用R进行文本挖掘的帮助Boy May 13 2015 "She is pretty", Tom我只想从人们所说的话中得到意见。list <

浏览 1提问于2015-09-15得票数 1

1回答

从日期和时间的混合中提取时间

试图从日期和时间混合的列中提取时间。=ARRAYFORMULA(RIGHT(K2:K,LEN(K2:K)-(FIND(":",K2:K)+1)))

浏览 1提问于2021-08-01得票数 0

回答已采纳

5回答

java中日期的正则表达式

、、

谁能告诉我，字符串"Feb. 26,2009 8:08 AM PST“在java中的正则表达式是什么？

浏览 1提问于2010-04-28得票数 0

3回答

带基10的int()文本无效:在尝试创建带有拆分'_‘的数据格式时

、、、、

我试图通过用特殊字符下划线'_‘分割文件名的不同部分来向现有的dataframe添加一个列。现在，我希望将的另一列添加到现有的dataframe中，它的值在“_”之后和.jpg之前，如row1中的1和row2.中的10。下面是我正在使用的代码，但我得到了带有base 10的</e

浏览 2提问于2021-09-27得票数 0

1回答

用python和scrapy在逗号上拆分

、

在使用scrapy从某个网站提取数据时，我有一个字段正在提取，该字段返回城市和我希望在逗号上拆分返回的数据，并将其第一部分存储在城市字段中，第二部分存储在代码用于提取数据的区域字段中：数据的输出是:一个名为region的列

浏览 2提问于2020-06-26得票数 0

回答已采纳

4回答

需要帮助才能找到合适的正则表达式

、、

我有一个pandas DataFrame，它有一列价格，其中包含各种形式的字符串，如US$250.00、MYR35.50和S$50，并且在开发合适的正则表达式以将非数值部分与数值部分分开时遇到了麻烦。我希望得到的最终结果是将这一单列价格拆分为两个新列。其中一列将以字符串形式保存按字母顺序排列的部分，并将其命名为"Currency"，而另一列将以"Price“形式保存数字

浏览 56提问于2017-02-07得票数 0

回答已采纳

1回答

在dataframe* Python的文本列中查找日期和时间*

、、、、

我正在尝试查找并提取包含文本句子的列中的日期和时间。示例数据如下。BECOME OK AROUND 10.45AM', 'today is 23/3/2013 @10:AM we have',...], } 我试过下面的datef

浏览 4提问于2021-03-17得票数 0

2回答

用Erlang re解析“&ndash；\”

我已经用mochiweb_html解析了一个HTML页面，并希望解析以下文本片段基本上，我想在空格和破折号上拆分字符串，并提取第一个字符中的数字。现在上面的字符串表示为下面的Erlang列表我试图使用以下正则表达式将其拆分： re:split([48,32,2

浏览 3提问于2009-09-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

正则表达式从dataframe中的一列中提取和拆分文本

相关·内容

在'/‘前编写一个正则表达式来提取数字

正则表达式从dataframe中的一列中提取和拆分文本

Postgres -如何分裂和加入？

从Pandas列的元素中提取文本，写入新列

将"Name“分隔到"FirstName”和"LastName“列中

将dataframe中的列拆分为包含文本而不是数字的列和包含R中没有文本的数字的列

如何将带超链接的url文本从字段中取出

基于不同列的过滤器从Pandas DataFrame中提取文本

用excel提取文本

在R中使用正则表达式拆分列

重复行熊猫数据集

Python 2.7:如何正确拆分CSV文件？

基于R的文本挖掘

从日期和时间的混合中提取时间

java中日期的正则表达式

带基10的int()文本无效:在尝试创建带有拆分'_‘的数据格式时

用python和scrapy在逗号上拆分

需要帮助才能找到合适的正则表达式

在dataframe* Python的文本列中查找日期和时间*

用Erlang re解析“&ndash；\”

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐