使用regex和lambda根据另一个列值拆分列数据框中的文本

，可以通过以下步骤实现：

导入必要的库：

import pandas as pd
import re

创建一个示例数据框：

data = {'文本列': ['A-123', 'B-456', 'C-789']}
df = pd.DataFrame(data)

定义一个函数，使用正则表达式和lambda函数来拆分文本列：

def split_text(row):
    pattern = r'([A-Z])-([0-9]+)'
    match = re.match(pattern, row['文本列'])
    if match:
        return match.group(1), match.group(2)
    else:
        return None, None

df[['字母列', '数字列']] = df.apply(lambda row: pd.Series(split_text(row)), axis=1)

打印结果：

print(df)

输出结果：

   文本列 字母列 数字列
0  A-123    A  123
1  B-456    B  456
2  C-789    C  789

在这个例子中，我们使用正则表达式模式([A-Z])-([0-9]+)来匹配文本列中的字母和数字部分。然后，通过lambda函数将匹配结果拆分为两列，并将结果存储在新的字母列和数字列中。

这种方法适用于需要根据特定模式拆分文本列的情况，例如将"A-123"拆分为字母"A"和数字"123"。使用正则表达式和lambda函数可以灵活地处理各种拆分需求。

推荐的腾讯云相关产品：腾讯云云服务器（https://cloud.tencent.com/product/cvm）和腾讯云云数据库MySQL版（https://cloud.tencent.com/product/cdb_mysql）可以提供稳定的计算和存储资源，用于支持数据处理和存储需求。

相关·内容

AI办公自动化：Excel表格数据批量整理分列

工作任务：下面表格中的，、分开的内容进行批量分列在chatgpt中输入提示词：你是一个Python编程专家，完成一个脚本编写任务，具体步骤如下：读取Excel文件：""F:\AI自媒体内容\AI行业数据分析...”；单元格分拆完成后，把所有分拆出去的单元格内容追加到A列当前内容的后面；然后对A列数据进行分类汇总，汇总方式为计数，分类汇总结果保存到Excel文件：F:\AI自媒体内容\AI行业数据分析\AI行业数据来源....xlsx 注意：每一步都要输出信息处理异常和错误：确保你的代码能够处理可能遇到的异常，如文件损坏、权限问题等。...(r'\d+', '', str(x)).strip()) # 初始化一个列表存储拆分后的数据 split_data = [] # 分拆单元格内容 http://logging.info("分拆单元格内容...") df[first_column_name] = split_df.apply(lambda x: ', '.join(x.dropna()), axis=1) # 拆分后的内容追加到第一列当前内容的后面

821 0

Power Query 真经 - 第 7 章 - 常用数据转换

图 7-10 配置【透视列】时所需进行的选择切记要确保在启动【透视列】命令前，选择希望用于【透视列】列标题，因为一旦进入对话框，就会提示用户选择包含想根据列标题进行汇总值的列，用户不能在对话框中更改它...就像在 Excel 数据透视表中一样，会发现默认值是数字列的【求和】和基于文本列的是【计数】。但与 Excel 不同的是，还会发现一个【不要聚合】的选项，将在本书后面的章节中将使用这个选项。...7.3 拆分列拆分列，是另一种常用操作（特别是在从 “平面” 文件导入时），是根据某种分隔符或模式将数据点从单个列中拆分出来。...这一次，需要对【按分隔符拆分列】选项进行更多的控制，在这个对话框中从上到下操作如下所示。【分隔符】是换行符，这需要使用一个特殊的字符代码来实现。...例如在本例中，拆分列为多行与拆分列为多列后再逆透视是等价的，而列头带有额外信息与内容位置一一对应，导致使用拆分列为多列后再逆透视成为了本场景下的正确方法，虽然步骤多了一点，但正确性是第一位的。）

7.3K3 1

《利用Python进行数据分析·第2版》第7章数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。...对于许多数据集，你可能希望根据数组、Series或DataFrame列中的值来实现转换工作。...，则它会根据数据的最小值和最大值计算等长面元。...如果DataFrame的某一列中含有k个不同的值，则可以派生出一个k列矩阵或DataFrame（其值全为1和0）。...正则表达式正则表达式提供了一种灵活的在文本中搜索或匹配（通常比前者复杂）字符串模式的方式。正则表达式，常称作regex，是根据正则表达式语言编写的字符串。

5.2K9 0

盘点66个Pandas函数，轻松搞定“数据清洗”！

head()方法和tail() 方法则是分别显示数据集的前n和后n行数据。如果想要随机看N行的数据，可以使用sample()方法。...df.sample(3) 输出：如果要检查数据中各列的数据类型，可以使用.dtypes；如果想要值查看所有的列名，可以使用.columns。...此外，isnull().any()会判断哪些”列”存在缺失值，isnull().sum()用于将列中为空的个数统计出来。...他们通常也与匿名函数lambda一起使用。 df["数量"].apply(lambda x: x+1) 输出：文本数据操作之前我们曾经介绍过经常被人忽视的：Pandas 文本型数据处理。...在对文本型的数据进行处理时，我们会大量应用字符串的函数，来实现对一列文本数据进行操作[2]。

3.7K1 1

Pandas之实用手册

pandas 的核心是名叫DataFrame的对象类型- 本质上是一个值表，每行和每列都有一个标签。...：使用数字选择一行或多行：也可以使用列标签和行号来选择表的任何区域loc：1.3 过滤使用特定值轻松过滤行。...例如，这是Jazz音乐家：以下是拥有超过 1,800,000 名听众的艺术家：1.4 处理缺失值许多数据集可能存在缺失值。假设数据框有一个缺失值：Pandas 提供了多种方法来处理这个问题。...最简单的方法是删除缺少值的行：fillna()另一种方法是使用（例如，使用 0）填充缺失值。1.5 分组使用特定条件对行进行分组并聚合其数据时。...例如，按流派对数据集进行分组，看看每种流派有多少听众和剧目：Pandas 将两个“爵士乐”行组合为一行，由于使用了sum()聚合，因此它将两位爵士乐艺术家的听众和演奏加在一起，并在合并的爵士乐列中显示总和

1381 0

根据身份证号码自动生成出生日期、性别、年龄

标签：Excel技巧有时候，我们需要根据身份证号码来自动生成出生日期、性别和年龄，有多种方法来实现，下面介绍几种，供参考。首先，我们来生成出生日期。...方法1：使用分列功能选择要生成出生日期的身份证号码，单击功能区“数据”选项卡“数据工具”组中的“分列”。在弹出的“文本分列向导”对话框中，选择“固定宽度”，如下图1所示。...图2 单出“下一步”，选取数据预览中的日期数据，选择“列数据格式”中的“日期”，然后选择要拆分数据的目标区域，如下图3所示。图3 单击“完成”，结果如下图4所示。...可见，在单元格D2中已经拆分出了出生日期。图4 此时，我们可以删除列C和列E，仅保留出生日期列。...其实，在“文本分列向导”第3步中，可以依次选择日期数据两侧的列，然后选取“不导入此列（跳过）”选项，Excel会将这些数据忽略，仅导入日期数据列，如下图5所示。

4551 0

Pandas的apply, map, transform介绍和性能测试

Transform必须返回一个与它所应用的轴长度相同的数据框架。也就是说即使transform与返回聚合值的groupby操作一起使用，它会将这些聚合值赋给每个元素。...所以无论自定义聚合器是如何实现的，结果都将是传递给它的每一列的单个值。来看看一个简单的聚合——计算每个组在得分列上的平均值。 ...我们还可以构建自定义聚合器，并对每一列执行多个特定的聚合，例如计算一列的平均值和另一列的中值。性能对比就性能而言，agg比apply稍微快一些，至少对于简单的聚合是这样。...结果类似于额外的拆栈操作。我们这里尝试重现它。我们将使用我们的原始数据框并添加一个城市列。假设我们的三个学生 John、James 和 Jennifer 都来自波士顿。 ...总结 apply提供的灵活性使其在大多数场景中成为非常方便的选择，所以如果你的数据不大，或者对处理时间没有硬性的要求，那就直接使用apply吧。

1.9K3 0

Pandas实现列表分列与字典分列的三个实例

然后我使用agg函数直接对Datafream分列： df.agg({"补回原因": lambda x: x, "tmp": pd.Series}) 结果： ?...首先，读取数据： df = pd.read_excel("分组聚合并分列.xlsx") df 结果： ?...Series的内部方法： df.groupby("姓名")["得分"].apply(lambda x:x.to_list()) 使用Series内部方法的性能比python列表方法转换快一些。...fillna表示填充缺失值，传入""表示将缺失值填充为空字符串。下面重命名一下列名： _.rename(columns=lambda x: f"得分{x+1}") 结果： ?...而result["counts"] = df.counts则将原始数据的counts列添加到结果列中。

1.8K1 0

最新iOS设计规范四｜3大界面要素：视图(Views)

两个方向都要测试警示框。在横向模式和纵向模式下，警示框可能会有所不同。优化警示框文本，使其在任何方向上都无需滚动就能很好地阅读。警示框标题和内容尽可能写一些短小的、描述性比较强的多文本警告标题。...分列视图由一个两列或三列的界面组成，分别显示一个主列，一个可选的补充列和一个辅助内容窗格。主列中的更改将导致可选补充列中内容的更改。...拆分视图提供与选项卡栏相同的快速导航，同时更好地利用了大屏幕。为每种类型的列选择适当的样式。对于显示侧栏的主列，请使用侧栏外观。此外观适用于应用程序级导航和集合列表，例如Mail中的邮箱。...对于显示列表视图的补充列，请使用普通边栏外观。这种外观适合于单个内容的列表，例如邮箱中的消息。在主要和补充列中持续突出显示任务选择。...显示不全的文字和词语很难被阅读和理解。超长的文本被截断在所有表格单元格样式中都是自动的，只是根据你使用的单元格样式和发生截断的位置，它可能会出现或多或少的问题。可为“删除”按钮自定义标题。

8.4K3 1

Power Query技巧：更强大的拆分

标签：Power Query 在Excel中，拆分是一项常见的任务，而Excel中的“分列”功能只能将单列文本拆分成多列。...如果想拆分并提取文本中的数字，或者将文本拆分成多行，那么使用Power Query是一个好的选择。示例工作表如下图1所示。图1 我们想要获取列B中的数字，有几种方法。...将其下拉至数据单元格末尾，结果如下图3所示。图3 虽然在列B中的数字改变时列C中的数字同步变化，但公式复杂。下面使用Power Query来解决。...1.单击功能区“数据”选项卡“获取和转换数据”组中的“获取数据——来自文件——从工作簿”。 2.在“导入数据”对话框中，选择数据所在的工作簿，单击“导入”按钮。...图7 下面，再尝试使用Power Query将文本拆分成多行，如上图1中的示例工作表，列A中单元格A1的数据为Excel和Power BI，想将其拆分成两行。

1.8K5 0

Power Query 真经 - 第 5 章 - 从平面文件导入数据

5.1.2 程序如何解析平面数据程序在解析数据时，需要知道如下三件事。数据点是否由单个字符、一组字符或一致的宽度分隔。一个完整的记录和另一个完整的记录是由什么字符或字符列分隔的。...选择【使用区域设置】（在菜单的底部）。然后会出现【使用区域设置更改类型】的对话框，在这里可以指定 Power Query 关于数据的原始来源和格式，如图 5-6 所示。...5.3.3 按位置拆分列下一步是开始拆分列。此时，基本的方法是按字符数进行拆分，对所需要的字符数做一个有根据的猜测，然后再完善这个猜测。...由于日期中的字符数是 “10” 个，先尝试 “12” 个字符。转到【主页】【拆分列】【按字符数】，弹出的对话框中【字符数】下面填写 “12”，【拆分】下面选择【重复】【确定】。...图 5-20 处理的结果 5.3.7 通过分隔符拆分列根据重新聚合的数据，很明显新的列是由 “-” 字符分隔的。

5.1K2 0

一看就会的Pandas文本数据处理

在pandas 1.0版本之前，object是唯一的文本类型，在一列数据中如果包含数值和文本等混合类型则一般也会默认为object。...方法split()返回的是一个列表我们可以使用get 或 []符号访问拆分列表中的元素我们还可以将拆分后的列表展开，需要使用参数expand 同样，我们可以限制分隔的次数，默认是从左开始（rsplit...文本拼接文本拼接是指将多个文本连接在一起，基于str.cat()方法比如，将一个序列的内容进行拼接，默认情况下会忽略缺失值，我们亦可指定缺失值连接一个序列和另一个等长的列表，默认情况下如果有缺失值...，则会导致结果中也有缺失值，不过可以通过指定缺失值na_rep的情况进行处理连接一个序列和另一个等长的数组（索引一致）索引对齐在索引对齐中，我们还可以通过参数join来指定对齐形式，默认为左对齐...文本提取我们在日常中经常遇到需要提取某序列文本中特定的字符串，这个时候采用str.extract()方法就可以很好的进行处理，它是用正则表达式将文本中满足要求的数据提取出来形成单独的列。

1.4K3 0

Tidyverse|数据列的分分合合，一分多，多合一

第一列的ID，和人为添加的ID2，名称不规则，我们只需要前面的基因名。...二合久可分-一列拆多列使用separate函数，将“指定”分隔符出现的位置一列分成多列 2.1 默认，不指定分隔符 data %>% separate(ID, into = c("Gene",...2.4，按照第几个字符拆根据第几个字符拆分，适合数据规整的，，，可以用来将TCGA中的sampleID转为常见的16位，需要先转置 data2 %>% select(Gene1,contains...() %>% #数据转置，样本为行名 rownames_to_column(var="Sample") %>% #行名变为数据中的列 separate(Sample, into = c("Sample...可参考：盘一盘Tidyverse| 筛行选列之select，玩转列操作 Tips： 1）数据分列可以先默认试一下，如2.1所示 2）使用R的帮助，一定！

3.6K2 0

3000字详解Pandas数据查询，建议收藏

() 根据文本内容来筛选首先我们可以根据文本内容直接来筛选，返回的是True如果文本内容是相匹配的，False如果文本内容是不匹配的，代码如下 mask = df['type'].isin(['TV...False 根据关键字来筛选我们可以根据某个关键字来筛选数据，数据集当中的listed-in包含的是每部电影的种类，当然很多电影并不只有一个种类，而是同时涉及到很多个种类，例如某一部电影既有“科幻”元素...na=False) 其中的case=False表明的是忽略字母的大小写问题，na=False表明的是对于缺失值返回的是False， df[mask].head() output 而要是文本数据当中包含了一些特殊符号...lambda方法来筛选文本数据中的应用有一些筛选数据的方式可能稍显复杂，因此需要lambda方法的介入，例如 cols_to_check = ['rating','listed_in','type'...axis=1) 上面的例子当中是来查看director这一列是否被包含在了cast这一列当中，结果如下 df[mask].head() output filter方法我们还可以通过filter方法来筛选文本的数据

4932 0

pandas数据分析输出excel产生文本形式存储的百分比数据，如何处理？

但遇到一个问题：当我的老板和同事们打开 excel 文件时，发现百分比数值无法正常显示，提示为“文本形式存储的数据”。 ? 想让此类百分比数值正常显示，我该怎么办呢？ ?...在工作中，当我们需要输出文档给团队查阅，必须自己为文档的质量负责，而非要求或期望我的老板和同事来处理。 2、立即生效、简单好用的笨办法。...手动打开excel文件，选中“文本形式存储的数据”的一列数据，点击“数据 - 分列” 在弹出的菜单中点击两次“下一次”，然后点击“完成”即可。...如果单个文件中此类“文本形式存储的数据”较多，或你需要频繁输出该类文件，那么当然更好的做法是：直接优化脚本，从根源上解决问题。...在这种情况下，我只能从以下2个结果中二选一：显示为百分数，打开 excel 表格时有异常提示：以文本形式存储的数据（即现状）显示为小数，打开excel 表格时无异常提示想要显示为小数，则直接注释掉脚本中的

3.1K1 0

看了这个例子，一辈子记住这个有趣的函数，以后给内容配对就有思路了

有朋友在微信公众号的后台发消息提问：怎么同时对两列合并的文本进行逆透视？...看图：逆透视是多列（列名）都逐个放到行里变明细数据哦，而上面想要的结果列和原始数据的列是一毛一样的，只是要把列里面的内容拆分、配对展开…… 数据简化模拟如下：...所以，首先第一步，不管怎么着，先把列给拆分了，但是，这里不好用拆分列的功能来做，为什么？...1、不能拆分到行：因为要分别对两列的内容进行拆分且找配对关系，先拆任何一列都会使配对关系丢失； 2、不能拆分到列：因为要拆分的内容的项数是不固定的。...） Step 04：第二次展开，提取值（因为配对好的内容本身是要在同一行里的，分隔符按需要选择即可，后面拆分列时用，这里选择空格） Step 05：提取出来后，再按前面选择的分隔符简单分列即可

9264 0

【技能get】简单而有效的 EXCEL 数据分析小技巧

If()：我认为在EXCEL众多函数之中最有用的一个。当特定的事件在某个条件下为真，并且另一个条件为假时，可以使用这个公式来进行条件运算。例如：你想对每个销售订单进行评级，“高级”和“低级”。...数据清洗 1.删除重复值：EXCEL有内置的功能，可以删除表中的重复值。它可以删除所选列中所含的重复值，也就是说，如果选择了两列，就会查找两列数据的相同组合，并删除。 ?...如上图所示，可以看到A001 和 A002有重复的值，但是如果同时选定“ID”和“Name”列，将只会删除重复值（A002，2）。...按照下列步骤操作可以删除重复值：选择所需数据-转到数据面板-删除重复值 ? 2.文本分列：假设你的数据存储在一列中，如下图所示： ? 如上如所示，我们可以看到A列中单元格内容被“；”所区分。...我们需要将其进行分列，建议使用EXCEL的文本分列功能。按照下面的步骤可以实现分列： 1.选择A1：A6 2.点击：数据—分列 ? 上图中，有两个选项，“分隔符号”和“固定宽度”。

3.4K9 0

翻译 | 简单而有效的EXCEL数据分析小技巧

3.4K10 0

Python数据分析实战之技巧总结

数据分析实战中遇到的几个问题？...—— Pandas的DataFrame如何固定字段排序 —— 保证字段唯一性应如何处理 —— 透视表pivot_table函数转化长表注意问题 ——Pandas的DataFrame数据框存在缺失值NaN...Q2：注意保证字段唯一性，如何处理 #以名称作为筛选字段时，可能出现重复的情况，实际中尽量以字段id唯一码与名称建立映射键值对，作图的时候尤其注意，避免不必要的错误，可以做以下处理： 1、处理数据以id...Q5、如何对数据框进行任意行列增、删、改、查操作 df1=df.copy() #复制一下 # 增操作 #普通索引，直接传入行或列 # 在第0行添加新行 df1.loc[0] = ["F","1月",...，将样本数据划分出不同的等级方法一：使用一个名为np.select()的函数，给它提供两个参数：一个条件，另一个对应的等级列表。

2.4K1 0

R语言-向量和数据框

一、R语言的数据类型向量（vector）矩阵（Matrix）数组（Array）数据框（Data frame） List 向量是由元素组成的，元素可以是数字或者字符串。...到4个元素 x[-(2:4)]#除了第2-4个元素 x[c(1,5)] #第1个和第5个元素（2）根据值 x[x==10]#等于10的元素 x[x<0] x[x %in% c(1,2,5)]#存在于向量...c（1，2，5）中的元素三、数据框 1、注意先把数据集放在工作目录下 2、读取 read.table(file = "×××.txt") a<-read.table(file = "×××.txt")...#上述括号中可添加以下代码 header= T #设置表格列名 sep = "" #设置分列（通常会根据制表符分列，不须设置） 3、查看 colnames(a) #查看列名 rownames(a)...") #保存其中一个变量 load("test.RData") #再次使用RData时的加 6、提取元素 #注意上面讲数据赋值给a，故提取时变量名为a - a[x,y]#第x行第y列 - a[x,]#第

1561 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云