从不带NA的字符串匹配创建新列

在数据处理和分析中，经常需要从现有的字符串数据中提取信息，并创建新的列来存储这些信息。如果不带NA的字符串匹配是指在数据框（如Pandas DataFrame）中，基于某些字符串模式来创建新列，且该过程需要忽略缺失值（NA），那么以下是一些基础概念和相关操作：

基础概念

字符串匹配：在文本中查找特定模式或子串的过程。
正则表达式：一种强大的文本处理工具，用于匹配字符串中的复杂模式。
Pandas DataFrame：Python中用于数据操作和分析的一个核心库，提供了数据结构和数据处理工具。

类型与应用场景

简单模式匹配：如提取电子邮件地址、电话号码等。
复杂模式匹配：如从日志文件中提取特定事件或错误代码。
数据清洗：在数据分析前对数据进行预处理。

示例代码

假设我们有一个包含用户信息的DataFrame，其中一列是'info'，包含了用户的电子邮件地址和其他信息，我们想要创建一个新列'email'来存储提取出的电子邮件地址。

import pandas as pd
import re

# 示例数据
data = {'info': ['User1 john@example.com', 'User2 jane.doe@example.org', None, 'User4 info@example.net']}
df = pd.DataFrame(data)

# 定义电子邮件的正则表达式模式
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'

# 使用正则表达式提取电子邮件地址，并创建新列
df['email'] = df['info'].dropna().apply(lambda x: re.search(email_pattern, x).group() if re.search(email_pattern, x) else None)

print(df)

遇到的问题及解决方法

问题：在提取过程中遇到了NoneType错误，因为某些行没有匹配到电子邮件地址。

原因：当re.search()没有找到匹配项时，它会返回None，而尝试从None对象上调用.group()方法会导致错误。

解决方法：在使用.group()之前，先检查re.search()是否返回了一个有效的匹配对象。

df['email'] = df['info'].dropna().apply(lambda x: re.search(email_pattern, x).group() if re.search(email_pattern, x) else None)

在这个修正后的代码中，我们通过if re.search(email_pattern, x)来确保只有在找到匹配项时才调用.group()方法。

通过这种方式，我们可以安全地从字符串中提取信息，并创建新的列，同时处理可能出现的缺失值或未匹配到的情况。

从不带NA的字符串匹配创建新列

.*)\\s<h1>')[, 2] 它提供了一行，结果是 "keep me here" NA 如何才能使结果成为新的列，其中包含任何内容的每一行都接收0而不是NA？

浏览 35提问于2020-08-13得票数 0

回答已采纳

4回答

根据R中其他三列的值创建新列

我有个数据：df1 1 NA NA3 3 NA <

浏览 9提问于2022-05-08得票数 2

回答已采纳

2回答

如何根据与特定字符串匹配的多列的值创建新列？

我有这样的数据框架： eye_problemsdisorders_f6148_0_1=c("A","C","D",NA,"D","A","C",NA,"B","A"),,"C",NA,"C","A","B"), eye_problemsdisorder

浏览 0提问于2019-07-29得票数 0

3回答

如何根据与特定字符串匹配的多个列的值创建新列？

_0_3=c("C","A","D","D","B","A",NA,NA,"A","B"), eye_problemsdisorders_f6148_0_4=c("D","D",NA,"B","A","C",NA,"C","A&quo

浏览 20提问于2019-07-30得票数 1

2回答

R数据中基于Regex的字符串重映射

、、

我试图通过循环遍历在其他数据文件中定义的正则表达式来清理一些数据文件中混乱的、免费的、捕获的字符串。例如：text <- c(NA, "messy1 messy2", "MESSY2,,, messy1", "ignore")mapout <-

浏览 4提问于2017-02-28得票数 1

回答已采纳

1回答

在保持相同的名称列和不同的值列的同时，将多个值转换为

year2", ) %>% mutate(year2=str_sub(year2, 22,25)) 3. 2016 xxx xxxxea

浏览 5提问于2022-10-18得票数 1

回答已采纳

3回答

如何根据来自另一数据based的列对一个数据based的多列重新编码？

、、

我希望基于df1中的两列在df2中创建新的列。df1有多个列("x“、"y”、"z")，可能值为0、1或NA。df2有两列："a“和"b”。列"b“的值包括df1的列名(尽管df2$a中的一些值可能以df1中的列形式出现)。"w",

浏览 6提问于2022-10-30得票数 1

2回答

对具有特定字符串名的多个列进行字符串匹配

、、

我对在一组列上进行字符串检测很感兴趣。如果找到该字符串(在本例中为ZSD)，我希望返回列号/名称。如果找到多个匹配项，我希望返回包含该字符串的最后一个列名/列号。我需要的输出是一个新的列zsd.level a.zsd b.zsd c.zsd d.zsd zsd.level 'ZSD'

浏览 38提问于2021-10-17得票数 2

回答已采纳

1回答

如何在一个表上运行这个函数？

我有一个函数，它创建一个check列，如果有值，则使用一个字符串，对于NA，使用一个不同的字符串。我想在一个表上运行这个函数，但是我不知道如何运行。我希望有一个可以跨每一列运行的函数，否则它不可能接受一个由colname组成的向量。} 输出应该是一个显示NA或字符串的新列(例如"drat is wrong")，所以如果有10<

浏览 0提问于2019-08-07得票数 0

1回答

检查字符串列表中的字符串是否位于Pandas DataFrame列

、、

我是Python新手，我有一个关于将列表中的字符串与df中的列匹配的问题。当我运行以下命令时，我希望创建一个名为" match“的新列，如果列表中的字符串与列中的字符串之间存在匹配，则" match”列和相应行中的值应该为True，如果没有匹配</

浏览 0提问于2019-05-16得票数 7

回答已采纳

3回答

在匹配条件时写入其他列

、、

我想创建一个新列，只在它与特定条件匹配时(这里是x > 2 )，然后直接为条件(x > 2)返回TRUE的这些行覆盖另一个现有列(在这里为auxiliary)。5 NA df %>% 5 5 Calculation done 10

浏览 6提问于2022-01-06得票数 1

回答已采纳

2回答

使用R中的正则表达式(grepl函数)从数据中的列中提取多个所需模式的正确方法是什么？

、、、、

我有一个dataframe (也可以使用我生成的CSV文件)，它有7列和近百万行。我特别感兴趣的是从存在于单个列中的整个数据字符串中获取5个不同的"ID“，并希望创建具有特定”ID“作为列标题的新列，name.The数据如下所示-SPIDER ID, PUBCHEM ID, SMALL ID, C

浏览 0提问于2018-07-18得票数 1

回答已采纳

3回答

替换与矩阵中字符串匹配的dataframe中的字符串

、、、、

我有一个包含一系列NA和字符串的dataframe df，以及两个矩阵，match和value具有相同的ncol和nrow。match具有df中所有可能的字符串 我想将df中的字符串替换为value中的字符串。如果df中的字符串与match中的值匹配，则可以将其替换为位于位置的value 中的字符串</

浏览 1提问于2017-03-10得票数 0

回答已采纳

2回答

基于其他列的匹配创建新列，但在NAs出现时忽略它们

、

我正在尝试创建一个新列，其依据是同一行的多个列之间是否存在直接字符匹配。然后，如果这些列之间有完全匹配，我想在新列中放一个1，如果这些列中至少有1个不匹配，我想放一个0。以下是数据的一个示例： ID var1 var2 var32 2 def xyz jkl 3<

浏览 6提问于2019-06-04得票数 1

回答已采纳

1回答

如何快速查找同义词，并从查找表中返回最高阶同义词？

、、

我想要创建一个函数，该函数接收字符串列表，并将它们与包含多个(>100)列的数据帧中的字符串匹配。然后将所有匹配的字符串返回到一个新的dataframe中。在string4的情况下，它不在col1中找到，而是在col2中找到，因此它只返回string2。如果字符串3停止，则string6返回string3。"string1 x

浏览 0提问于2017-11-03得票数 1

回答已采纳

1回答

在两个不同的数据帧R中匹配字符串后，将字符串替换为常用短语

、、

尝试编写一行代码，将数据帧某列中的字符串与引用字符串进行比较，如果匹配，则替换为常用词。例如，搜索A列并在B列中查找匹配项，然后将匹配的字符串替换为单词'name‘v2 <- c("corey", "emily")v1 = "name joe joe name joe"ifels

浏览 4提问于2017-04-12得票数 0

2回答

按名称匹配行

、、、

我有2个数据集(基因名称的列表/列)，例如：SUMO2COPB2CAPNS1df2 SUMO2CAPNS1我想创建一个新的数据集，它有2列，基因名称匹配。第一列包含所有df1基因，第二列包含所有匹配的df2基因。NA的第二列没有匹配</

浏览 1提问于2019-12-24得票数 0

3回答

使用R中的"NA“值在测试数据集中创建目标变量列

、、、

在此之前，我必须向测试数据集添加一个新列，以匹配训练数据集的列数。我正在使用"NA‘值在测试数据集中创建一个新列，这是我使用的代码：编译这段代码后，我得到了这个错误： Check

浏览 0提问于2018-09-25得票数 0

2回答

R根据列值从两个表添加列到表

、

TableA <- data.frame("Values" = c(6, 2, 3)) 我希望向Table1中添加另一列，其中包含来自TableA和TableB的值，但是来自TableA的值必须放在"Desc“列中包含"A”的行中，而TableB值必须放在"Desc“列中包含"B”的行中。表A中<

浏览 0提问于2014-08-12得票数 0

回答已采纳

1回答

使用重复值从数据帧中删除列

、、

我有以下数据框架，其中包含字符和数字，以及NA： df <- data.frame(a=c("notfound","NOT FOUND","NOT FOUND"), b=c(NA,"NOT FOUND"NOT FOUND"), c=c("not found",2,3), d=c("not found","NOT FOUND","NOT FOUND"), e=c("234&

浏览 3提问于2019-12-30得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从不带NA的字符串匹配创建新列

基础概念

相关优势

类型与应用场景

示例代码

遇到的问题及解决方法

相关·内容

从不带NA的字符串匹配创建新列

根据R中其他三列的值创建新列

如何根据与特定字符串匹配的多列的值创建新列？

如何根据与特定字符串匹配的多个列的值创建新列？

R数据中基于Regex的字符串重映射

在保持相同的名称列和不同的值列的同时，将多个值转换为

如何根据来自另一数据based的列对一个数据based的多列重新编码？

对具有特定字符串名的多个列进行字符串匹配

如何在一个表上运行这个函数？

检查字符串列表中的字符串是否位于Pandas DataFrame列

在匹配条件时写入其他列

使用R中的正则表达式(grepl函数)从数据中的列中提取多个所需模式的正确方法是什么？

替换与矩阵中字符串匹配的dataframe中的字符串

基于其他列的匹配创建新列，但在NAs出现时忽略它们

如何快速查找同义词，并从查找表中返回最高阶同义词？

在两个不同的数据帧R中匹配字符串后，将字符串替换为常用短语

按名称匹配行

使用R中的"NA“值在测试数据集中创建目标变量列

R根据列值从两个表添加列到表

使用重复值从数据帧中删除列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐