与python re相比，为什么spark regexp_extract太慢？

与Python的re模块相比，Spark的regexp_extract函数可能会较慢的原因有以下几点：

分布式计算：Spark是一个分布式计算框架，它将数据分成多个分区并在多个节点上进行并行处理。这种分布式计算的方式可能会导致数据传输和通信的开销，从而影响regexp_extract函数的性能。
数据规模：Spark通常用于处理大规模数据集，而不仅仅是单个文本字符串。regexp_extract函数在处理大规模数据时可能会遇到性能瓶颈，因为它需要对每个数据分区进行正则表达式匹配。
正则表达式复杂度：正则表达式的复杂度对性能也有影响。如果使用的正则表达式非常复杂，包含大量的匹配规则和回溯操作，那么regexp_extract函数的性能可能会受到影响。

为了提高Spark的regexp_extract函数的性能，可以考虑以下几点：

数据预处理：在使用regexp_extract函数之前，可以尝试对数据进行预处理，例如过滤掉不需要的数据、缩小数据范围等，以减少正则表达式匹配的数据量。
使用更简单的正则表达式：尽量使用简单的正则表达式，避免复杂的匹配规则和回溯操作，以提高性能。
调整Spark的配置参数：可以根据具体情况调整Spark的配置参数，例如增加Executor的内存、调整并行度等，以优化Spark的性能。
使用其他更高效的方式：如果regexp_extract函数的性能仍然无法满足需求，可以考虑使用其他更高效的方式来实现相同的功能，例如使用字符串处理函数、自定义UDF等。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark服务：https://cloud.tencent.com/product/spark

页面内容是否对你有帮助？

有帮助

没帮助

与python re相比，为什么spark regexp_extract太慢？

、、、

最近我遇到一个需求，我尝试用pyspark regexp_extract更改python re，将re更改为pyspark regexp_extract背后的原因是spark更快。通过比较by pyspark和re工艺的处理速度，得出like re比by pyspark regexp_extract更快的结论。有没有什么特别的原因导致regexp_extract慢。提前感谢

浏览 21提问于2020-09-11得票数 0

1回答

星星之差AttributeError：'NoneType‘对象没有属性'_jvm’

、、、

from pyspark.sql.functions import col, regexp_extract return regexp_extract(x,re_string,0) d

浏览 3提问于2022-04-28得票数 0

回答已采纳

1回答

如何在Apache Spark中的Dataframe上运行Python中的Regex

、、

我正尝试在Apache中的dataframe上运行Python中的Regex。df是准则如下：m = re.search("[Pp]ython", df)我收到以下错误消息：以下内容将起作用但是我想让regex做个数据处理

浏览 0提问于2021-04-29得票数 1

回答已采纳

1回答

在火星雨中不能用1小时的翻滚窗口进行分组

、、、

Python代码：import findsparkfrom pyspark.sql import SparkSession, SQLContextfrom pyspark.sql.functions import split, regexp_extract sc = spark.sparkCont

浏览 4提问于2020-09-09得票数 1

回答已采纳

1回答

Apache的perl？

、

因此，我的计划是: 1)找出什么是，2)想出如何与perl对话。我们很早就在这里..。我很难接受“您只能通

浏览 2提问于2018-12-16得票数 1

1回答

火花速度性能

、

我有用于单机的程序(在Python中)，也为Spark实现了同样的程序。这个程序基本上只读取一个字段并将其保存回来的.json。使用Spark，我的程序在一个主程序和一个从程序上运行慢大约100倍，然后运行单个节点标准的Python程序(当然，我从文件中读取并保存到那里)。所以，我想问一问，问题可能在哪里？我想问一下，与本地的非平行单节点程序相比，是否有可能丢失了什么，或者是否认为Spark速度太慢了。

浏览 1提问于2014-10-18得票数 0

回答已采纳

14回答

为什么Linux缺少游戏？

、、、

与Windows甚至OS相比，为什么这个平台的游戏开发速度太慢？

浏览 0提问于2010-07-15得票数 27

回答已采纳

1回答

为什么我的Python脚本与Matlab相比太慢了？

、、

我正在考虑从Matlab到Python (NumPy)的转换。因此，作为学习任务，我尝试在Python上重写一个简单的随机模型。python脚本返回正确的答案，但运行速度太慢！Python需要3分钟，而Matlab只需要3秒。我做错了什么？figure(1)plot(Band, RMS_Omega);xlabel('Bandwidth, Hz'); ylabel('RMS \omega, Hz');Python

浏览 1提问于2017-07-03得票数 1

1回答

在PySpark中，SparkSession和Databricks的Spark-CSV模块在导入CSV文件方面有什么不同？

、、

from pyspark.sql import SQLContextspark= SparkSession.builder.appName('Spark Session 1').getOrCreate() df = spark.read.csv('mtcars.csv', header= True) 2)我可以使用Databricks的Spark-C

浏览 28提问于2019-10-18得票数 2

回答已采纳

1回答

UDF引起警告: CachedKafkaConsumer不在UninterruptibleThread中运行(KAFKA-1894)

、、、、

words = lines.select( split(lines.value, ' ') )prog = re.compile(pattern) ret = [] if result

浏览 0提问于2018-01-17得票数 8

回答已采纳

1回答

Python中一个表达式中相同变量的双重赋值--它有什么用途吗？

、、、、

有这样一条线： .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \ .config("spark.sql.catalog.spark_catalog", "org.apac

浏览 7提问于2022-06-01得票数 0

回答已采纳

1回答

当您可以在spark中完成大部分工作时，为什么要使用火花核心API (RDD)？

、、

spark似乎对于查询计划器来说是高度优化的，因此，与通过scala (或python.)使用Core (RDD)相比，使用spark似乎是一个更好的选择。我遗漏了什么吗？

浏览 0提问于2016-03-13得票数 1

回答已采纳

1回答

我如何提高火花读csv的性能？

、、

见MVElibrary(dplyr) conf$spark.executor.memory <- "60GB"conf$spark.executor.cores <- 6sc <-

浏览 3提问于2018-11-01得票数 1

1回答

Spark和PySpark之间是否存在特征奇偶

、、、

我听到一个常见的主题在运行，我只应该在Spark上使用Scala进行严肃的编程(1.5.1)。真正的超级用户使用Scala。据说Python对于分析是很好的，但是最终应该将代码写到Scala来完成。我听到的原因有很多：谢谢

浏览 1提问于2015-10-06得票数 1

2回答

PySpark对Spark* -哪一个是性能高效的？UDF还坏吗？*

、、、、

我一直在阅读很多博客，试图了解从PySpark、ScalaSpark和Spark中哪些是性能高效的。在此之前，我知道ScalaSpark更好一些，因为Spark在JVM中运行，并且存在Python<->JVM数据序列化/反序列化的开销，这降低了的效率。这还行吗？ Scala可以创建吗？

浏览 9提问于2022-06-18得票数 -2

3回答

与Python相比，OpenCV MatchTemplate in C#太慢了

、、、、

我用Python编写了一个很好的解决方案，但需要安装几个库和大量的burocratic设置才能工作。我决定在VisualStudioCommunity2017上使用C#中的GUI构建它，但是在第一个成功的函数中，结果要比用Python慢得多。而实际上它应该更快。代码实质上只是在海草图像搜索中做针，通过从一个文件夹中获取所有图像，并在干草堆中测试每个指针(总共60幅图像)，在python中，我返回字符串，但在C#中，我只打印。我用Python编写的代码如下： retorno

浏览 0提问于2018-04-24得票数 7

回答已采纳

2回答

在Perl中，Python等同于$1，或者正则表达式中的任何其他特殊变量是什么？

、

我刚刚完成了从Perl到Python的转换，并对re模块感到失望。我正在寻找Python中的$1或正则表达式中的任何其他特殊变量。.*)>/$2/;，我也试图在Python中这样做。谢谢!

浏览 0提问于2012-08-11得票数 6

1回答

在s3 pyspark作业中创建单个地块文件

、、

我已经写了一个pyspark程序，它从cassandra读取数据，并将数据写入aws s3。在写入拼图之前，我必须重新划分(1)或合并(1)，因为这会创建一个单独的文件，否则它会在s3中创建多个s3文件。使用repartition(1)或coalesce(1)有性能问题，我觉得创建一个大的分区对于巨大的数据不是一个好的选择。有什么方法可以在不影响性能的情况下在s3中创建单个文件？

浏览 0提问于2020-12-09得票数 0

3回答

如何在windows 8命令提示符中运行pyspark应用程序

、、、、

我有一个用Spark上下文编写的python脚本，我想运行它。我试图将IPython与Spark集成，但我无法做到这一点。环境变量路径: C:/Users/Name/Spark-1.4;C:/Users/Name/Spark-1.4/bin📷

浏览 0提问于2015-06-21得票数 9

回答已采纳

3回答

在Python中是否存在通用数字字段筛子(GNFS)的现有实现？

在Python中是否存在GNFS保理的内置或在线实现？我需要一个版本，可以很容易地用来对其他程序中的整数进行因子分解，所以我需要导入，最好是与Python 3相比，或者只需要最小的更改。我需要这个版本来考虑长度超过90位数的(多个)数字，而且椭圆曲线分解太慢了。我已经在线检查过了，只能找到Perl和C++实现。如果没有，是否有任何在线资源可以指导我逐步实现这个算法？

浏览 12提问于2015-04-09得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

与python re相比，为什么spark regexp_extract太慢？

相关·内容

与python re相比，为什么spark regexp_extract太慢？

星星之差AttributeError：'NoneType‘对象没有属性'_jvm’

如何在Apache Spark中的Dataframe上运行Python中的Regex

在火星雨中不能用1小时的翻滚窗口进行分组

Apache的perl？

火花速度性能

为什么Linux缺少游戏？

为什么我的Python脚本与Matlab相比太慢了？

在PySpark中，SparkSession和Databricks的Spark-CSV模块在导入CSV文件方面有什么不同？

UDF引起警告: CachedKafkaConsumer不在UninterruptibleThread中运行(KAFKA-1894)

Python中一个表达式中相同变量的双重赋值--它有什么用途吗？

当您可以在spark中完成大部分工作时，为什么要使用火花核心API (RDD)？

我如何提高火花读csv的性能？

Spark和PySpark之间是否存在特征奇偶

PySpark对Spark* -哪一个是性能高效的？UDF还坏吗？*

与Python相比，OpenCV MatchTemplate in C#太慢了

在Perl中，Python等同于$1，或者正则表达式中的任何其他特殊变量是什么？

在s3 pyspark作业中创建单个地块文件

如何在windows 8命令提示符中运行pyspark应用程序

在Python中是否存在通用数字字段筛子(GNFS)的现有实现？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐