使用apply和regexpr向数据帧添加多列

的方法是通过apply函数和正则表达式来实现。具体步骤如下：

首先，创建一个空的数据帧，用于存储添加多列后的结果。

new_df <- data.frame()

使用apply函数遍历数据帧的每一行，并对每一行的特定列应用正则表达式。

apply(df, 1, function(row) {
  # 在这里编写正则表达式的逻辑
})

在apply函数的匿名函数中，使用regexpr函数来对特定列的值进行匹配。

apply(df, 1, function(row) {
  # 使用regexpr函数匹配特定列的值
  result <- regexpr(pattern, row[column_index])
})

根据匹配结果，将新的列添加到新的数据帧中。

apply(df, 1, function(row) {
  # 使用regexpr函数匹配特定列的值
  result <- regexpr(pattern, row[column_index])
  
  # 将匹配结果添加到新的数据帧中
  new_df <- rbind(new_df, cbind(row, new_column=result))
})

最后，返回新的数据帧。

new_df

这样就可以使用apply和regexpr向数据帧添加多列了。请注意，上述代码中的"df"是指原始数据帧，"pattern"是指用于匹配的正则表达式模式，"column_index"是指要应用正则表达式的特定列的索引。根据具体的需求，可以调整代码中的参数和逻辑。

相关·内容

微信大数据挑战赛：第1周周星星方案汇总

比赛分为初赛和复赛两个阶段：初赛阶段提供百万量级的无标注数据和十万量级的有标注数据用于训练；- 复赛阶段训练数据和初赛相同，主要区别是初赛阶段只提供视频抽帧特征，而复赛阶段提供视频抽帧原始图像。...数据比赛分为初赛和复赛两个阶段：初赛阶段提供百万量级的无标注数据和十万量级的有标注数据用于训练；复赛阶段训练数据和初赛相同，主要区别是初赛阶段只提供视频抽帧特征，而复赛阶段提供视频抽帧原始图像....], ] 视频帧的特征使用预训练模型提取的视频帧特征。每秒抽取一帧进行提取。每个视频最多提供前32帧的特征，超出的部分不会被使用。...csv文件中包含两列：id 和 category_id，中间用逗号分隔。 csv文件的行数应与测试集的样本数量相同。视频 id 顺序可以不同。...同时，分类体系包含一级分类和二级分类，在评测中会分别计算并取平均值。考虑实际使用，我们希望参赛选手使用的模型是简单而高效的，不鼓励使用超大模型和各种复杂ensemble。

6201 0

R语言ggmap空间可视化机动车交通事故地图

p=12350 ---- 在本文中，我使用ggmap可视化纽约市的交通事故。数据来自纽约市开放数据。我的数据范围是2012年至2015年。...该数据跟踪车辆的类型，发生事故的街道的名称以及事故的经度和纬度坐标。两个坐标都保存为单个字符变量，称为“ LOCATION”。...在下面，我加载数据，删除所有没有位置坐标的事故，并解析LOCATION变量以获取经度和纬度坐标。...我还解析日期变量以创建年份变量，并使用该变量创建两个数据集：一个数据集包含2013年的所有车辆事故，另一个数据集包含2014年的所有车辆事故。...我使用stat_density2d（）向该地图添加了一个二维密度层。我对2013年和2014年的数据都执行此操作，并使用gridExtra的grid.arrange（）并排放置地图。

9053 0

如果 .apply() 太慢怎么办？

如果你在Python中处理数据，Pandas必然是你最常使用的库之一，因为它具有方便和强大的数据处理功能。...如果我们想要将相同的函数应用于Pandas数据帧中整个列的值，我们可以简单地使用 .apply()。Pandas数据帧和Pandas系列（数据帧中的一列）都可以与 .apply() 一起使用。...因此，要点是，在简单地使用 .apply() 函数处理所有内容之前，首先尝试为您的任务找到相应的 NumPy 函数。将函数应用于多列有时我们需要使用数据中的多列作为函数的输入。...这比对整个数据帧使用的 .apply() 函数快26倍！！总结如果你尝试对Pandas数据帧中的单个列使用 .apply()，请尝试找到更简单的执行方式，例如 df['radius']*2。...如果你想要对Pandas数据帧中的多个列使用 .apply()，请尽量避免使用 .apply(,axis=1) 格式。

1341 0

左手用R右手Python系列13——字符串处理与正则表达式

学习数据分析，掌握一些灵巧的分析工具可以使得数据清洗效率事半功倍，比如在处理非结构化的文本数据时，如果能够了解一下简单的正则表达式，那么你可以免去大量的冗余代码，效率那叫一个高。...值输出第一个匹配模式的开始位置和长度，而regexpr则会输出所有的匹配模式和长度。...从输出上来看，regexpr忽略了第一个记录中最后的几个数字，但是gregexpr成功捕获并返回其开始位置和长度，但是也导致其输出结果冗长繁琐，一般不常用到。...这时候大家肯定会疑惑到底re.search和re.findall如何区别运用，各自的使用场景是什么。...好了，R语言和派森中的有关字符串处理与正则支持函数基本就这些了（并未包含完，主要我使用的也很有限，这几个是很高频的需求，可以解决数据清洗中的大部分问题）。

1.6K4 0

PySpark UD(A)F 的高效使用

3.complex type 如果只是在Spark数据帧中使用简单的数据类型，一切都工作得很好，甚至如果激活了Arrow，一切都会非常快，但如何涉及复杂的数据类型，如MAP，ARRAY和STRUCT。...这意味着在UDF中将这些列转换为JSON，返回Pandas数据帧，并最终将Spark数据帧中的相应列从JSON转换为复杂类型 [2enpwvagkq.png] 5.实现将实现分为三种不同的功能: 1)...除了转换后的数据帧外，它还返回一个带有列名及其转换后的原始数据类型的字典。 complex_dtypes_from_json使用该信息将这些列精确地转换回它们的原始类型。...不同之处在于，对于实际的UDF，需要知道要将哪些列转换为复杂类型，因为希望避免探测每个包含字符串的列。在向JSON的转换中，如前所述添加root节点。...但首先，使用 complex_dtypes_to_json 来获取转换后的 Spark 数据帧 df_json 和转换后的列 ct_cols。

19.4K3 1

python中fillna_python – 使用groupby的Pandas fillna

我试图使用具有相似列值的行来估算值....例如,我有这个数据帧 one | two | three 1 1 10 1 1 nan 1 1 nan 1 2 nan 1 2 20 1 2 nan 1 3 nan 1 3 nan 我想使用列[‘one...’]和[‘two’]的键,这是相似的,如果列[‘three’]不完全是nan,那么从列中的值为一行类似键的现有值’3′] 这是我的愿望结果 one | two | three 1 1 10 1 1 10...我尝试了向前填充,这给了我相当奇怪的结果,它向前填充第2列.我正在使用此代码进行前向填充. df[‘three’] = df.groupby([‘one’,’two’], sort=False)[‘three...解决方法: 如果每组只有一个非NaN值,则每组使用ffill(向前填充)和bfill(向后填充),因此需要使用lambda： df[‘three’] = df.groupby([‘one’,’two’]

1.7K3 0

ffmpeg 入门_python入门笔记

后续会针对内容和排版一步步的优化，如果你被这凌乱的内容辣到了眼睛，请谅解哈哈哈～ 2019.06.18 第一章 FFmpeg简介第二章 FFmpeg工具使用基础 ---- 简介书中开头用几个实例操作...Decoding 3 编码 Encoding 4 封装 Muxing 其中需要经过六个步骤 1 读取输入源 2 进行音视频的解封装（调用libavformat中的接口实现） 3 解码每一帧音视频数据...（调用libavcodec中的接口实现） 3.5 转换参数 4 编码每一帧音视频数据（调用libavcodec中的接口实现） 5 进行音视频重新封装（调用libavformat中的接口实现）...第一列总共有三个字段，第一个字段是时间轴支持，第二个字段是分片线程处理支持，第三个字段是命令支持第二列是滤镜名第三列是转换方式，如音频转音频，视频转视频，创建音频，创建视频等第四列是滤镜作用说明...-showmode 1 1.mp3 ffplay -vismv pf 1.mp4 查看B帧和P帧的预测信息 pf P帧向前运动估计显示 bf B帧向前运动估计显示 bb B帧向后运动估计显示

1.7K3 0

《FFmpeg从入门到精通》读书笔记（一）

1.5K2 0

涨姿势！看骨灰级程序员如何玩转Python

']）选择仅具有数字特征的子数据帧。...df.head() 在上面的代码中，我们定义了一个带有两个输入变量的函数，并使用apply函数将其应用于列'c1'和'c2'。但“apply函数”的问题是它有时太慢了。...例如，如果要将列'c'舍入为整数，请执行round(df ['c']，0)而非使用apply函数： 1....print(df[:5].to_csv()) 你可以使用此命令准确地打印出写入文件的前五行数据。另一个技巧是处理混合在一起的整数和缺失值。...如果列同时包含缺失值和整数，则数据类型仍将是float而不是int。导出表时，可以添加float_format ='%。0f'将所有浮点数舍入为整数。

2.3K2 0

AWK基础教程

如果输入数据不是固定格式，通常会使用sed、grep等工具来过滤、清洗为awk可以处理的形式。 2....每一列代表固定含义，便于数据分析输入文件每一行的相同列类型一致，如果每一列含义不同，那就失去了数据分析的意义。比如本文的第一个演示数据，第一列表示地区，第二列表示总人口等。...比如数据结构数组等。它们只能用在动作里。如下示例使用if-else统计第二列大于4462177 和小于4462177的分别有多少行。...### /regexpr/ 等价于 $0 ~ /regexpr/ ### !/regexpr/ 等价于 $0 !~ /regexpr/ $ awk '!...比如下面提取第二列和最后一列进行MySQL入库。这在数据量大的时候很管用。比如几万、几亿的数据可以快速转化为SQL语句。

7005 0

10招！看骨灰级Pythoner如何玩转Python

]）选择仅具有数字特征的子数据帧。...如果你想计算两列“c1”和“c2”的最大值，你可以： df[‘maximum’] = df.apply(lambda x: max(x[‘c1’], x[‘c2’]), axis = 1) # 但你会发现它比这个命令慢得多...例如，如果要将列 c 舍入为整数，请执行round（df [ c ]，0）而非使用apply函数： df.apply(lambda x: round(x[ c ], 0), axis = 1) 6....你可以使用.isnull（）和.sum（）来计算指定列中缺失值的数量。...另一个技巧是处理混合在一起的整数和缺失值。如果列同时包含缺失值和整数，则数据类型仍将是float而不是int。导出表时，可以添加float_format = ％。0f 将所有浮点数舍入为整数。

2.3K3 0

R语言ggmap空间可视化机动车交通事故地图|附代码数据

p=12350 最近我们被客户要求撰写关于空间可视化的研究报告，包括一些图形和统计输出。在本文中，我使用ggmap可视化纽约市的交通事故数据来自纽约市开放数据。...我的数据范围是2012年至2015年。该数据跟踪车辆的类型，发生事故的街道的名称以及事故的经度和纬度坐标。两个坐标都保存为单个字符变量，称为“ LOCATION”。...在下面，我加载数据，删除所有没有位置坐标的事故，并解析LOCATION变量以获取经度和纬度坐标。...我还解析日期变量以创建年份变量，并使用该变量创建两个数据集：一个数据集包含2013年的所有车辆事故，另一个数据集包含2014年的所有车辆事故。...我使用stat_density2d（）向该地图添加了一个二维密度层。我对2013年和2014年的数据都执行此操作，并使用gridExtra的grid.arrange（）并排放置地图。

1652 0

帮助数据科学家理解数据的23个pandas常用代码

（13）将数据帧转换为NUMPY数组 df.as_matrix（）（14）获得数据帧的前N行 df.head(n) （15）按特征名称获取数据 df.loc [FEATURE_NAME]...数据帧操作（16）将函数应用于数据帧这个将数据帧的“height”列中的所有值乘以2 df["height"].apply(lambda height:2 * height) 或 def multiply...(x): return x* 2 df["height"].apply(multiply) （17）重命名列我们将数据帧的第3列重命名为“size” df.rename（columns= {...df.columns [2]：'size'}，inplace= True）（18）获取列的唯一条目在这里，我们将获得“名称”列的唯一条目 df["name"].unique() （19）访问子数据帧...在这里，我们抓取列的选择，数据帧中的“name”和“size” new_df= df [[“name”，“size”]] （20）数据的摘要信息 # Sum of values in a data

2K4 0

Python pandas十分钟教程

Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息，介绍如何使用Pandas的不同函数进行数据探索和操作。...也就是说，500意味着在调用数据帧时最多可以显示500列。默认值仅为50。此外，如果想要扩展输显示的行数。...df.info()：提供数据摘要，包括索引数据类型，列数据类型，非空值和内存使用情况。 df.describe()：提供描述性统计数据。....apply的行或列中应用函数。...按列连接数据 pd.concat([df, df2], axis=1) 按行连接数据 pd.concat([df, df2], axis=0) 当您的数据帧之间有公共列时，合并适用于组合数据帧。

9.8K5 0

R语言中 apply 函数详解

因此，在Python和R中都有大量的函数和工具可以帮助我们完成这项任务，这一点也不奇怪。今天，我们将使用R并学习在R中转换数据时使用最广泛的一组“apply”函数。...这组函数提供了对数据的高效和快速操作。当我们只想处理某些列时，这特别有用。这组函数称为apply()函数。...我们可以看到如何使用apply()函数来总结数据。同样，让我们试着沿着每列求和： sum_cols <- apply(data, 2, sum) sum_cols ?...因此，在处理具有不同数据类型特性的数据帧时，最好使用vapply()。 tapply() 简单地说，tapply()允许我们将数据分组，并对每个分组执行操作。...因此，在处理数据帧时，mapply是一个非常方便的函数。现在，让我们看看如何在实际数据集上使用这些函数。

20K4 0

调试HotSpot源代码（配视频）

使用GDB运行如上实例生成的Class文件，具体命令如下： gdb --args ....命令描述 backtrace(bt) 查看各级函数调用及参数 finish 连续运行到当前函数返回为止，然后停下来等待命令 frame(f) n 从当前栈帧移到到n栈帧 info(i) locals...查看当前栈帧局部变量的值 list(l) 列出源代码，接着上次的位置往下列，每次列10行ll list(l) 行号列出从指定行开始的源代码 list(l) 函数名列出指定的函数的源代码 next(...vmargs之间配置-vm和/home/mazhi/workspace/jdk1.7.0_72/bin即可。...设置完相关信息后，单击Apply进行保存。

1.3K4 0

Python入门之数据处理——12种有用的Pandas技巧

这里可以使用布尔索引实现。你可以使用以下代码： ? ? # 2–Apply函数 Apply是一个常用函数，用于处理数据和创建新变量。...在利用某些函数传递一个数据帧的每一行或列之后，Apply函数返回相应的值。该函数可以是系统自带的，也可以是用户定义的。举个例子，它可以用来找到任一行或者列的缺失值。 ? ?...这可以使用交叉表验证，如下图所示： ? ? 这些是绝对值。但是，要获得快速的见解，用百分比更直观。我们可以使用apply 函数来实现： ? ?...# 7–合并数据帧当我们需要对不同来源的信息进行合并时，合并数据帧变得很重要。假设对于不同物业类型，有不同的房屋均价（INR/平方米）。让我们定义这样一个数据帧： ? ?...现在，我们可以将原始数据帧和这些信息合并： ? ? 透视表验证了成功的合并操作。请注意，“value”在这里是无关紧要的，因为在这里我们只简单计数。

4.9K5 0

加速数据分析，这12种高效Numpy和Pandas函数为你保驾护航

借助于 extract()，我们还可以使用 and 和 or 等条件。...Pandas 适用于以下各类数据: 具有异构类型列的表格数据，如 SQL 表或 Excel 表；有序和无序 (不一定是固定频率) 的时间序列数据；带有行/列标签的任意矩阵数据（同构类型或者是异构类型...above dframe.apply(fn) isin() lsin () 用于过滤数据帧。...当一个数据帧分配给另一个数据帧时，如果对其中一个数据帧进行更改，另一个数据帧的值也将发生更改。为了防止这类问题，可以使用 copy () 函数。...Changed value'# printing data print(new) print(data) select_dtypes() select_dtypes() 的作用是，基于 dtypes 的列返回数据帧列的一个子集

7.5K3 0

NumPy、Pandas中若干高效函数！

借助于 extract()，我们还可以使用 and 和 or 等条件。...Pandas 适用于以下各类数据: 具有异构类型列的表格数据，如SQL表或Excel表；有序和无序 (不一定是固定频率) 的时间序列数据；带有行/列标签的任意矩阵数据（同构类型或者是异构类型）；其他任意形式的统计数据集...above dframe.apply(fn) isin() lsin() 用于过滤数据帧。...当一个数据帧分配给另一个数据帧时，如果对其中一个数据帧进行更改，另一个数据帧的值也将发生更改。为了防止这类问题，可以使用copy ()函数。...Changed value'# printing data print(new) print(data) select_dtypes() select_dtypes()的作用是，基于dtypes的列返回数据帧列的一个子集

6.5K2 0

12 种高效 Numpy 和 Pandas 函数为你加速分析

6.2K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云