如何提高pyspark连接的性能_如何提高Pyspark中toLocalIterator()的性能_Pyspark提高多列操作的性能 - 腾讯云开发者社区

、、、

35.20105| -91.831833| Arkansas|def lat_long_approximation有没有人能帮我解决这个连接的</e

浏览 18提问于2020-08-29得票数 2

回答已采纳

1回答

是否将pyspak sql数据写入磁盘并再次读取将加快进一步的处理？

、

Scenario1使用coaelesce将此数据存储在磁盘上，并读取数据again.Improves，这大大提高了进一步转换的性能。问题为什么会出现这种性能改进？

浏览 2提问于2021-07-12得票数 1

回答已采纳

1回答

如何提高Pyspark中toLocalIterator()的性能

、、、、

我正在尝试将Pyspark数据帧转换为140000行的Python列表。我正在使用toLocalIterator()来做这件事，但这需要花费很多时间。我如何加快这一过程？

浏览 52提问于2020-07-08得票数 0

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对象： // PySpark

浏览 1提问于2018-05-17得票数 3

回答已采纳

3回答

在星火上运行Pandas有什么用？

、

这周我刚开始使用PySpark，我已经安装了access 2的实例已经安装了Pandas。但是在星火上拥有熊猫有什么用呢？在PySpark上运行脚本不就是为了克服像Pandas这样的软件包的局限性吗？如果Pandas在星火上运行，它的性能会提高吗？它与星火的RDD兼容吗？

浏览 0提问于2017-01-13得票数 4

1回答

pySpark中的数据帧级计算

、

我正在使用PySpark，并希望利用多节点的优势来提高性能时间。Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水列，并希望使用pyspark中多个节点的能力来减少整体处理时间。我不想做一个迭代的逐行计算新工资。 df.withColumn是否在数据帧级别进行计算？当使用更多的节点时

浏览 16提问于2021-03-24得票数 0

1回答

PySpark性能数据帧/向量与Numpy数组

、、、、

我的项目包括目前在UDF中执行的numpy数组和numpy矩阵之间的许多操作，您认为如果我们使用PySpark的内部结构，我们的性能会有所提高吗？

浏览 53提问于2020-09-09得票数 1

1回答

组合的转换会影响PySpark中的操作执行时间吗？

、、、

我有一个PySpark代码，它接受多个输入数据，并生成一个数据作为输出。我执行许多火花转换(地图，过滤器，连接，还原键.)但没有火花行动。我执行的唯一操作是在代码的末尾(输出df的count())。transformation#filter transformationresultDF.count() 因此，我有两个问题: 1.合并多个转换是否会影响PySpark中的操作执行时间?2.由于我在最后只执行一个操作，那

浏览 3提问于2017-07-27得票数 0

回答已采纳

2回答

如何在EMR 5.x中的pyspark* shell / pyspark脚本中运行"s3-dist-cp“命令*

、、

我在我的pyspark脚本中运行s3-dist-cp“命令时有一些问题，因为我需要一些数据从s3移动到hdfs以提高性能。所以我在这里分享这一点。

浏览 9提问于2017-01-23得票数 1

2回答

使用PySpark* JDBC将数据帧写入Azure SQL数据库时性能较低*

、、、

我在PySpark中使用下面的JDBC URL将data frame写成Azure SQL Database。但是，我觉得这个写操作的性能并没有达到标准，可以通过设置一些额外的属性来提高。有什么变通方法或参数可以让我提高JDBC的写入性能吗？server.database.windows.net:1433;databaseName=test;enablePrepareOnFirstPreparedStatementCall=false" 下面

浏览 2提问于2020-01-13得票数 0

1回答

如何提高连接性能

、

我是个新手，我在某个地方读到：“在洗牌所需的操作之前，在数据帧中的方便列上应用桶，我们可能会避免多种可能的昂贵的洗牌。在执行排序-合并连接之前，已经对数据进行排序和洗牌，从而提高了性能。”非常想知道，在加入两个dataframe之前，我们如何“避免多种可能的昂贵的洗牌”？

浏览 4提问于2022-04-30得票数 1

回答已采纳

1回答

MySQL服务器性能

、、

关于在Windows 2008 R2下运行的MySQL服务器，我有几个问题：如何打开查询日志以查看执行的查询的性能？据我所知，MySQL是多线程的，增加允许的连接数量会提高Quad系统的性能吗？如何在集群中设置多个MySQL服务器的<

浏览 0提问于2012-05-07得票数 3

回答已采纳

1回答

在pyspark上运行python库的速度会加快吗？

、、

当我运行python库如pandas或scikit learn时，我试着通读并理解spark中的加速是从哪里来的，但我没有看到任何特别有用的东西。如果我可以在不使用pyspark数据帧的情况下获得相同的加速比，我可以只使用pandas部署代码，它的性能大致相同吗？我想我的问题是：如果我有可用的pandas代码，为了提高效率，我应该把它翻译成PySpark吗？

浏览 2提问于2018-06-22得票数 0

1回答

MySQL服务器性能

、

我有几个关于在Windows Server2008 R2下运行的MySQL服务器的问题。2)如何打开查询日志来查看执行查询的性能？3)据我所知，MySQL是多线程的，增加允许的连接数会提高四核系统的性能吗？5)集群内多台MySQL服务器如何<

浏览 1提问于2012-05-07得票数 1

回答已采纳

1回答

PC上的大量数据？

、、

你好，我想处理10亿行，23列的大量数据。但在熊猫身上，我甚至无法读取数据。那么，如何在我的Dell XPS 9570计算机上处理这些数据呢？我能用spark来做这个吗？有什么建议可以在我的电脑上处理吗？谢谢

浏览 11提问于2019-10-23得票数 0

1回答

Pyspark提高多列操作的性能

、

我已经写了一个在分组数据上执行标准缩放的类。__tempNames__(), df_with_stats)[df.columns] 这个想法是将均值和方差保存在列中，并简单地对我想要缩放的列进行减法/除法。所以基本上这是一个对一列的算术运算。如果我想缩放多个列，我只需多次调用函数transformOne，但使用functools.reduce会更有效率(请参阅函数transform。对于单个列，这个类的运行速度已经足够快了，但是当我有多个列时，它就会占用太多的时间。我对spark的<

浏览 21提问于2020-10-02得票数 0

回答已采纳

1回答

使用Spark优化Hive SQL查询？

、、、、

我有一个复杂的SQL查询，用于在Hadoop Hive中获取数据。我对这些技术的理解正确吗？

浏览 0提问于2019-12-20得票数 0

1回答

在Pyspark中替换groupby提高Pyspark代码的性能

、、

我的Pyspark数据框如下所示。我必须从pyspark代码中删除group by函数，以提高代码的性能。我必须对10万个数据执行操作。,(1, ['4', '5', '6']), ], ["id"

浏览 42提问于2020-12-29得票数 0

1回答

如何提高使用QT的sqlite3数据库的性能？

、

为了获取一个特定的项目，我填充了4个不同的表的结果。我认为加入这些表可以提高性能/速度，并更快地得到结果。因此，我最初连接了两个表，但在连接这两个表之后，获取数据需要更长的时间(?)任何关于如何提高性能的建议都将不胜感激。此外，我还查看了，其中提到使用setForwardOnly可以提高某些数据库的性能。你知道它是否适

浏览 2提问于2012-04-16得票数 1

回答已采纳

1回答

提高连接性能

、、

我有两张需要参加的桌子。其中一个表(表a)的索引如下: account_number、start_date、end_date (都是唯一的)。 TRUNC(a.CREATE_DATE) BETWEEN b.START_DATE AND b.END_DATE 对如何改进它有什么想法吗(索引、分区、另一种连接)任何想

浏览 0提问于2016-01-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云