提高我数据过滤pyspark程序的性能

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、

我想使用pyspark提高我的应用程序的性能。数据框如下所示:每一列表示用户XXX发布的关于问题XXX的评论。1条的用户发表的评论，以及收到评论少于3条的问题中的评论我的代码是这样的： window_u = Window.partitionBy("user_id

浏览 24提问于2019-05-16得票数 1

1回答

是否将pyspak sql数据写入磁盘并再次读取将加快进一步的处理？

、

Scenario1使用coaelesce将此数据存储在磁盘上，并读取数据again.Improves，这大大提高了进一步转换的性能。问题为什么会出现这种性能改进？

浏览 2提问于2021-07-12得票数 1

回答已采纳

1回答

PC上的大量数据？

、、

你好，我想处理10亿行，23列的大量数据。但在熊猫身上，我甚至无法读取数据。那么，如何在我的Dell XPS 9570计算机上处理这些数据呢？我能用spark来做这个吗？有什么建议可以在我的电脑上处理吗？谢谢

浏览 11提问于2019-10-23得票数 0

1回答

组合的转换会影响PySpark中的操作执行时间吗？

、、、

我有一个PySpark代码，它接受多个输入数据，并生成一个数据作为输出。我执行许多火花转换(地图，过滤器，连接，还原键.)但没有火花行动。我执行的唯一操作是在代码的末尾(输出df的count())。db.tableN") #join transformations...因此，

浏览 3提问于2017-07-27得票数 0

回答已采纳

1回答

函数来过滤PySpark中的值。

、、、

我试图在PySpark中运行一个for循环，它需要一个过滤算法变量的循环。下面是我的dataframe df_prods的一个示例：|ID |ID的列表，从算法中获得匹配，然后过滤产品的类型。) 2-它返回一个字符串数组类型：‘运动鞋’，当我试图过滤产品时，会发生这样

浏览 5提问于2020-09-03得票数 0

回答已采纳

1回答

无法从spark dataframe导出数据

、

作为测试，我使用spark NLP解析了50万条tweet。数据帧看起来没问题。我将数组转换为字符串。使用from pyspark.sql.types import StringType def array_to_stringarray_to_string_udf(result["ner_chunk"])).withColumn('document', array_to_string_u

浏览 7提问于2021-07-29得票数 1

1回答

pySpark中的数据帧级计算

、

我正在使用PySpark，并希望利用多节点的优势来提高性能时间。例如：假设我有3列，有100万条记录： Emp ID | Salary | % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水列，并希望使用pyspark中多个节点的能力来减少整体处理时间。

浏览 16提问于2021-03-24得票数 0

1回答

使用Spark优化Hive SQL查询？

、、、、

我有一个复杂的SQL查询，用于在Hadoop Hive中获取数据。<

浏览 0提问于2019-12-20得票数 0

2回答

如何在EMR 5.x中的pyspark* shell / pyspark脚本中运行"s3-dist-cp“命令*

、、

我在我的pyspark脚本中运行s3-dist-cp“命令时有一些问题，因为我需要一些数据从s3移动到hdfs以提高性能。所以我在这里分享这一点。

浏览 9提问于2017-01-23得票数 1

1回答

azure逻辑应用程序的良好实践

、

我想知道在azure逻辑应用程序中是否有一些好的实践来使逻辑应用程序更有性能。例如，我可以使用过滤器和选择操作来提高逻辑应用程序的性能，而不是使用循环来过滤数组或组成新的对象数组。我想知道的是，有没有其他方法可以在不使用azure函数的情况下提高性能，或者只使用azure逻辑

浏览 0提问于2021-03-07得票数 0

2回答

使用PySpark* JDBC将数据帧写入Azure SQL数据库时性能较低*

、、、

我在PySpark中使用下面的JDBC URL将data frame写成Azure SQL Database。但是，我觉得这个写操作的性能并没有达到标准，可以通过设置一些额外的属性来提高。有什么变通方法或参数可以让我提高JDBC的写入性能吗？server.database.windows.net:1433;databaseName=test;enablePrepareOnFirstPreparedS

浏览 2提问于2020-01-13得票数 0

1回答

在pyspark上运行python库的速度会加快吗？

、、

当我运行python库如pandas或scikit learn时，我试着通读并理解spark中的加速是从哪里来的，但我没有看到任何特别有用的东西。如果我可以在不使用pyspark数据帧的情况下获得相同的加速比，我可以只使用pandas部署代码，它的性能大致相同吗？我想我的问题是：如果我有可用的pandas代码

浏览 2提问于2018-06-22得票数 0

1回答

搜索API会提高视图公开过滤器中搜索的性能吗？

、、

如何提高性能，如果一个网站上的主要活动之一是搜索视图暴露过滤器？searches模块(使用数据库搜索/非Solr)会显著提高此类搜索的性能吗？

浏览 0提问于2012-05-07得票数 6

回答已采纳

1回答

如何将数据存储到从我的localDB加载的h2数据库中，以达到缓存的目的。这样我就可以使用简单查询来获取数据

、、

我的数据库中有大量的数据。每次访问DB都会影响性能。因此，我想在一些表上调用findall方法并将其存储在h2数据库中，以便在需要获取数据时可以使用h2数据库。我看到了ehcache和内存缓存技术。这是为了使用简单的查询来获取数据。我使用了@caching注解。并且能够从高速缓存中获取数据。但是，当使用特定值进行过滤<

浏览 0提问于2019-07-24得票数 1

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对象： //

浏览 1提问于2018-05-17得票数 3

回答已采纳

1回答

如何在pyspark代码中创建python线程

、、

我在pyspark中按顺序执行了大约70个hive查询。我正在寻找改善并行运行配置单元查询的运行时间的方法。我计划通过创建Python线程并在线程中运行sqlContext.sql来实现这一点。这会在驱动程序中创建线程并提高性能吗？

浏览 20提问于2019-01-29得票数 0

1回答

在Pyspark中替换groupby提高Pyspark代码的性能

、、

我的Pyspark数据框如下所示。我必须从pyspark代码中删除group by函数，以提高代码的性能。我必须对10万个数据执行操作。初始数据创建Dataframe df = spark.createDataFrame([(1, ['-7.7

浏览 42提问于2020-12-29得票数 0

1回答

优化角滤波器性能

、、、

我正在过滤一个相当小的数据集，但是仍然存在一些性能问题(当过滤器不简洁时，UI线程冻结)。<tbody ng-repeat="p in vm.permissions | filter: {UserName: vm.user}:false"> 问题是只有当有很多记录，所以我试图提高性能通过隐藏整个事情时不幸的是，即使数据集是隐藏的，它似乎是在操纵dom (UI冻结，因为

浏览 5提问于2014-11-11得票数 2

回答已采纳

2回答

计算字段的排序和过滤

、、、、

我目前正在使用来表示我的索引页面上的数据，这是一个使用.NET Core2.0& MVC构建的相当基本的CRUD应用程序。我有一个有几个字段的模型，其中一些是计算字段。使用MVC网格进行排序和过滤非常有效，即使记录超过55万条。然而，当我试图对其中一个计算字段进行排序和筛选时，性能会有很大的下降(大约需要45秒)。这不是世界末日，但我想知道是否有办法<em

浏览 1提问于2018-04-12得票数 1

回答已采纳

2回答

Python代码优化( for -循环和If-for)建议，以加快计算时间

、、、、

需要减少以下python代码的计算量，该代码包含多个if else语句。代码运行在一个DataBricks上，所以我也对开放。目前，该代码运行时间超过1小时。因此，任何帮助都将不胜感激。unique_list_code：concat_df['C_Code']列中用于过滤包含代码的数据行的唯一代码列表。concat_df：有400万记录的熊猫DataFrame unique_list_code = list(concat_df['C_Code'].u

浏览 4提问于2021-11-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云