访问dataframe列中的子串以创建新列

在数据处理和分析中，Pandas库是一个非常强大的工具，特别是其DataFrame对象，它是处理结构化数据的基石。当你需要从DataFrame的一列中提取子串并创建一个新列时，可以使用Pandas提供的字符串操作方法。

基础概念

DataFrame是Pandas中的一个二维标签数据结构，它可以存储多种类型的数据，并且具有灵活的行索引和列索引。字符串操作方法允许你对DataFrame中的字符串数据进行各种处理。

类型与应用场景

类型：字符串提取、替换、分割、连接等。
应用场景：数据清洗、特征工程、数据预处理等。

示例代码

假设我们有一个DataFrame，其中一列包含完整的姓名，我们想要从中提取姓氏来创建一个新列。

import pandas as pd

# 创建一个示例DataFrame
data = {'FullName': ['John Doe', 'Jane Smith', 'Alice Johnson']}
df = pd.DataFrame(data)

# 使用str accessor提取姓氏
df['LastName'] = df['FullName'].str.split().str[1]

print(df)

输出将是：

     FullName LastName
0    John Doe      Doe
1  Jane Smith    Smith
2  Alice Johnson  Johnson

遇到的问题及解决方法

问题：在提取子串时，可能会遇到缺失值或异常数据，这会导致错误。

原因：缺失值或不符合预期格式的数据会在应用字符串操作时引发异常。

解决方法：

使用str.contains检查数据是否符合预期的模式。
使用fillna处理缺失值。
使用try-except块来捕获和处理异常。

# 假设我们有一个包含缺失值的DataFrame
data_with_na = {'FullName': ['John Doe', None, 'Alice Johnson']}
df_with_na = pd.DataFrame(data_with_na)

# 使用fillna处理缺失值，并使用try-except捕获异常
try:
    df_with_na['LastName'] = df_with_na['FullName'].fillna('').str.split().str[1]
except Exception as e:
    print(f"An error occurred: {e}")

print(df_with_na)

在这个例子中，我们使用fillna('')来确保即使有缺失值，字符串操作也不会失败。

通过这种方式，你可以安全地处理包含子串提取的数据，并且能够应对数据中的不一致性。

访问dataframe列中的子串以创建新列

、、

我有一个数据框 df = pd.DataFrame(np.random.randint(0,10,size=(5, 1)), columns=list('A'))4 2 我想创建一个新的专栏new A 0 this-text 2

浏览 9提问于2020-12-02得票数 0

1回答

如果数据帧存在于另一数据帧列中，则搜索该数据帧的子串

、、、、

我需要一些帮助，在dataframe1的化学物质列中搜索字符串或子字符串，并检查它是否存在于dataframe2中，然后在dataframe1中创建一个新列，以从dataframe2返回相应的化学物质名称列

浏览 6提问于2020-10-07得票数 0

回答已采纳

1回答

循环遍历dataframe以提取匹配字典的子字符串

、、、、

我试图在dataframe中循环一列，如果它包含字典中的值，则使用环列中的子字符串创建一个新列。更具体地说，如果地址列中的单个行在州名和缩写字典中包含状态，则将状态缩写附加到将成为新列的列表中。下面的代码适用于完全匹配，但不扫描行以

浏览 0提问于2016-05-03得票数 1

回答已采纳

1回答

从列表中删除重复子字符串

、、、

我有一个带有product_type列的dataframe，该列在字符串中包含重复的子字符串：product_typetote bag,bag df_1['unique_type']

浏览 7提问于2022-09-08得票数 0

回答已采纳

1回答

如果现有列的值包含特定子字符串，则创建新的pd.DataFrame列

、、、

我有一个DataFrame，如下所示：0 cat 2 tree4 flowersubstring1 = 'cat|og'生

浏览 10提问于2020-03-04得票数 1

回答已采纳

1回答

检查字符串以在中创建新列。

、、、、

我有一个带有交易对的Spark dataframe列，我需要使用它来创建一个新列，其中包含硬币的名称。第一列" bot“包含"Polkadot/USD"，我需要一个名为”硬币“的新列，它只包含bot列的子字符串"Polkadot”。其他行也一样。基本上，新<em

浏览 2提问于2021-07-26得票数 1

回答已采纳

2回答

如何在列中添加特定值？

如果列中的值nazwisko‘以“a”结尾，那么新列中的值是“女性”，否则是“男性”？

浏览 5提问于2020-08-02得票数 0

回答已采纳

1回答

如何使用相等的条件来操作基于另一个Dataframe的Pandas dataframe？

、、

我想要做的是根据以下条件在dataframe中创建一个名为EDesc的新列(注意，EDesc、FG和F Gping包含String类型值(文本)，而其余的列是数字/浮动类型。B中的值ECode相匹配，然后在要在dataframe A中创建的新列EDesc中，添加与B

浏览 0提问于2019-04-06得票数 0

回答已采纳

2回答

熊猫，在字符串列表和df列值(作为列表)之间找到匹配(任意)来创建新列？

、

我需要遍历我的dataframe的行，以尝试查找是否有任何或更多的列表项包含在一个列(String)的值中。我试图在列表项和dataframe列值之间找到子字符串匹配。然后，我需要为一个新列分配匹配的值，或者在没有匹配的情况下传递NaN。不只是任何，而是所有匹配的字符串部分。

浏览 5提问于2019-08-13得票数 2

回答已采纳

2回答

应用Dataframe中的子串操作创建新列

、、

我想根据字母的位置执行子字符串操作，这样输出将如下所示为了创建新列，我必须使用子字符串操作 ? "HI"), 3, 4).as("d")) val df3=df2.select(col("*"), substring(col("d"), 3, 4).as("e")).show() 现在我面临的问题是1>I我无法得到实际

浏览 6提问于2019-12-12得票数 0

回答已采纳

1回答

无法在功能工具实体集中添加关系

、

新特性工具，在创建实体时获取此错误我怀疑功能工具期望一对多的关系，有方法来指定一对一的关系吗？

浏览 1提问于2021-10-18得票数 0

回答已采纳

3回答

使用外部函数的WithColumn

、、、

我在DataFrame中有以下列的数据现在我需要创建一个新的DataFrame，它有一个名为expense的新列，它是根据pexpense，cexpense列计算的。棘手的部分是，计算算法不是我创建的UDF函数，而是一个外部函数，需要从一个<em

浏览 7提问于2017-08-28得票数 0

回答已采纳

1回答

将datetime转换为string python

、、

我有一个pandas dataframe，它有一个叫做"time“的日期时间列。从该列中，我只想以给定的语法提取年-月-日期，并使用该值作为字符串创建一个新列。请帮帮我！

浏览 12提问于2021-03-03得票数 1

1回答

使用Python向子字符串添加值的建议

、、

我正在寻找关于如何让python将子字符串中的空空间转换为破折号(-)的建议。在下面的dataframe列中，A有原始数据，需要向其中有空格的子字符串中添加一个破折号，以获得列B。

浏览 0提问于2019-04-25得票数 1

回答已采纳

1回答

在dataframe列中搜索列表中的术语，将找到的项添加到新列中。

示例dataframe: 'Text': ["Lived in Alaska"]})示例列表：我需要什么我希望创建一个名为x的</em

浏览 1提问于2022-09-12得票数 1

回答已采纳

3回答

创建新列以显示dplyr中跨字符串的部分匹配。

、

我正在尝试创建一个新列，以显示在我的dataframe中的两个列中是否存在跨字符串的匹配。几乎是我所要求的，但是我不想过滤，而是创建一个新的列来显示是否有匹配(真还是假)。下面是一个示例dataframe： he saw

浏览 5提问于2018-08-13得票数 3

回答已采纳

1回答

如何比较Python dataframe中的子字符串以创建新列？

、、

一列" team“包含球员所属的团队，另一列"Game Info”包含有关游戏的信息。Game Info列如下所示 SAC@HOU 12/09/2019东部时间08:00 而Team列可以包含"SAC“或"HOU”。我正在尝试创建一个包含对手的新列。目前我尝试的是 df.insert(7, "Opp", '&#

浏览 12提问于2019-12-09得票数 0

回答已采纳

1回答

在熊猫数据中创建、删除和访问列

、

我有一个dataframe df，并认为我也可以通过以下操作创建一个新列：这不起作用，因为我只给dataframe一个属性Age，并给它分配数字4。而且，当我尝试df.head()时，输出也没有显示Age列。因此，我想知道是否有一种方法可以从dataframe中删除Age，我如何在我的dataframe中创建一个列Age，其中只填充了4<

浏览 5提问于2014-09-22得票数 1

回答已采纳

1回答

重新排序源列，以匹配PySpark中目标数据的顺序

、、

我在目标表中有一个固定的火花DataFrame订单：源(col3字符串、如何使用DataFrame重新排列源DataFrame以匹配目标DataFrame的列顺序？源应该重新排序，如下所示，以匹配目标DataFrame

浏览 0提问于2019-06-27得票数 0

回答已采纳

2回答

将dataframe列名从骆驼案例转换为蛇案例

、、

我想将Pandas DataFrame的列标签更改为有谁可以帮我？

浏览 7提问于2022-12-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

访问dataframe列中的子串以创建新列

基础概念

相关优势

类型与应用场景

示例代码

遇到的问题及解决方法

相关·内容

访问dataframe列中的子串以创建新列

如果数据帧存在于另一数据帧列中，则搜索该数据帧的子串

循环遍历dataframe以提取匹配字典的子字符串

从列表中删除重复子字符串

如果现有列的值包含特定子字符串，则创建新的pd.DataFrame列

检查字符串以在中创建新列。

如何在列中添加特定值？

如何使用相等的条件来操作基于另一个Dataframe的Pandas dataframe？

熊猫，在字符串列表和df列值(作为列表)之间找到匹配(任意)来创建新列？

应用Dataframe中的子串操作创建新列

无法在功能工具实体集中添加关系

使用外部函数的WithColumn

将datetime转换为string python

使用Python向子字符串添加值的建议

在dataframe列中搜索列表中的术语，将找到的项添加到新列中。

创建新列以显示dplyr中跨字符串的部分匹配。

如何比较Python dataframe中的子字符串以创建新列？

在熊猫数据中创建、删除和访问列

重新排序源列，以匹配PySpark中目标数据的顺序

将dataframe列名从骆驼案例转换为蛇案例

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐