Pyspark提高多列操作的性能

文章/答案/技术大牛

发布

1回答

、

我已经写了一个在分组数据上执行标准缩放的类。__tempNames__(), df_with_stats)[df.columns] 这个想法是将均值和方差保存在列中，并简单地对我想要缩放的列进行减法/除法。所以基本上这是一个对一列的算术运算。如果我想缩放多个列，我只需多次调用函数transformOne，但使用functools.reduce会更有效率(请参阅函数transform。对于单个列，这个类的运行速度已经足够快了

浏览 21提问于2020-10-02得票数 0

回答已采纳

1回答

pySpark中的数据帧级计算

、

我正在使用PySpark，并希望利用多节点的优势来提高性能时间。例如：假设我有3列，有100万条记录： Emp ID | Salary | % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水列，并希望使用pyspark中多个节点的能力来减少整体处理时间。我不想做一个迭代的

浏览 16提问于2021-03-24得票数 0

1回答

PySpark性能数据帧/向量与Numpy数组

、、、、

我的项目包括目前在UDF中执行的numpy数组和numpy矩阵之间的许多操作，您认为如果我们使用PySpark的内部结构，我们的性能会有所提高吗？

浏览 53提问于2020-09-09得票数 1

2回答

使用PySpark* JDBC将数据帧写入Azure SQL数据库时性能较低*

、、、

我在PySpark中使用下面的JDBC URL将data frame写成Azure SQL Database。但是，我觉得这个写操作的性能并没有达到标准，可以通过设置一些额外的属性来提高。有什么变通方法或参数可以让我提高JDBC的写入性能吗？server.database.windows.net:1433;databaseName=test;enablePrepareOnFirstPreparedStatementCall=false

浏览 2提问于2020-01-13得票数 0

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对象： // PySpark

浏览 1提问于2018-05-17得票数 3

回答已采纳

1回答

组合的转换会影响PySpark中的操作执行时间吗？

、、、

我有一个PySpark代码，它接受多个输入数据，并生成一个数据作为输出。我执行许多火花转换(地图，过滤器，连接，还原键.)但没有火花行动。我执行的唯一操作是在代码的末尾(输出df的count())。transformation#filter transformationresultDF.count() 因此，我有两个问题: 1.合并多个转换是否会影响PySpark中的操作执行时间?2.由于我在最后

浏览 3提问于2017-07-27得票数 0

回答已采纳

4回答

与数据库相关的表设计和性能？

、

我在SQL Server2005中有一个包含158列的表。我还必须保留这些列，如何提高性能-如使用SP、索引？

浏览 1提问于2009-12-08得票数 0

1回答

使用Entity Framework6的Index属性中的order属性对性能有什么影响？

、、

我想知道这个属性对性能的影响是什么：

浏览 1提问于2015-04-26得票数 0

2回答

mysql多列索引基数顺序

、、、、

多列索引是如何在MySQL中工作的？它是如何在内部存储的？考虑两个列(X，Y)上有多列索引的表. 如果X的基数大于Y，即X比Y少，那么多列索引X、Y或Y、X的顺序应该是什么？如果它是X，Y，则具有相同X值的行数会减少。这会不会提高性能，因为B树查找X将更快？

浏览 0提问于2015-01-05得票数 2

1回答

是否将pyspak sql数据写入磁盘并再次读取将加快进一步的处理？

、

Scenario1使用coaelesce将此数据存储在磁盘上，并读取数据again.Improves，这大大提高了进一步转换的性能。问题为什么会出现这种性能改进？

浏览 2提问于2021-07-12得票数 1

回答已采纳

1回答

在Pyspark中替换groupby提高Pyspark代码的性能

、、

我的Pyspark数据框如下所示。我必须从pyspark代码中删除group by函数，以提高代码的性能。我必须对10万个数据执行操作。,(1, ['4', '5', '6']), ], ["

浏览 42提问于2020-12-29得票数 0

1回答

Cassandra可以用于动态创建表吗？如果是，平均需要多少时间？

、、、、

我们的客户可以创建自定义模块(表)和属性(列)。目前，我们正在使用RDBMS(多租户)来处理这个用例，并创建了一个表来存储模式，另一个表在列中使用预定义的数据类型集(每种类型10列)来存储客户数据。为了提高性能，我考虑将RDBMS用于常规用途，并使用单独的数据库来存储自定义数据。我在Cassandra上最终确定了它的可伸缩性，尽管我担心为每个客户动态创建表，并自动化表调优以提高性能</em

浏览 2提问于2018-03-23得票数 1

2回答

如何根据行和列的值更改PySpark数据帧的大小和分布？

、、、、

我有一个很大的PySpark DataFrame，我想在下面的例子中操作它。我认为想象它比描述它更容易。3 |+----------+-----------+-----------+ 在上面的DataFrame中，series列中包含的三个唯一值(即ID1、ID2和ID3)中的每一个都有相应的值(在values列下)同时出现(即timestamp列中

浏览 12提问于2021-01-03得票数 1

回答已采纳

2回答

pyspark -按多列分组/计数性能

、、、

我读到groupby是昂贵的，需要避免.Our spark版本是spark-2.0.1。count'].desc()) .filter(col('rank') = 1) 有没有其他/更好的方法来按多列分组，计数，并获得每组计数最高的行？

浏览 21提问于2020-12-23得票数 0

回答已采纳

1回答

多列Pyspark上的Groupby操作

、、

我已经为pyspark dataframe中的两个特性应用了groupby和计算标准差。from pyspark.sql import functions as f val1 = [('a',20,100),('a',100,100),('a',50,100),('b',0,100),('val1_std','val2_std')) 但是它给出了下面的错误 TypeError: _() takes 1 position

浏览 18提问于2019-04-15得票数 0

1回答

函数来过滤PySpark中的值。

、、、

我试图在PySpark中运行一个for循环，它需要一个过滤算法变量的循环。，从算法中获得匹配，然后过滤产品的类型。)有谁知道在PySpark上有更好的方法来处理这个问题吗？我很难学习PySpark。

浏览 5提问于2020-09-03得票数 0

回答已采纳

1回答

如何提高pyspark连接的性能

、、、

35.20105| -91.831833| Arkansas|def lat_long_approximation有没有人能帮我解决这个连接的优化问题，或者

浏览 18提问于2020-08-29得票数 2

回答已采纳

3回答

在星火上运行Pandas有什么用？

、

这周我刚开始使用PySpark，我已经安装了access 2的实例已经安装了Pandas。但是在星火上拥有熊猫有什么用呢？在PySpark上运行脚本不就是为了克服像Pandas这样的软件包的局限性吗？如果Pandas在星火上运行，它的性能会提高吗？它与星火的RDD兼容吗？

浏览 0提问于2017-01-13得票数 4

1回答

由于存在长blob列，表中的MySQL读/写速度非常慢

、、、

在my DB中，一个表包含20个long-blob列(列不能在另一个表中移动)，每行包含大约0.55MB的数据大小。我在该表上创建了索引，但这并没有提高performance.We，因为需要在该表中存储100多万条记录，所以我计划对该表进行分区。我的问题是分区是否会提高性能(读/写)？谁能帮助我在这个如何改善it.Suggest，如果有任何替代方法来提高。

浏览 0提问于2015-11-24得票数 1

1回答

线程:多对一模型和一对一模型的并发性的差异。

、、

我正在学习“线程”部分的教科书，操作系统的概念写的亚伯拉罕西尔伯沙茨，彼得，格雷格。并行性：多对一模型:无法获得真正的并发性，因为内核一次只能调度一个线程。一对一模式:提供比多对一模式更多的并发性。“我的问题是，为什么在多对一模型中不能获得并发

浏览 0提问于2015-10-26得票数 6

回答已采纳

点击加载更多