PySpark算法在连接后变慢

文章/答案/技术大牛

发布

1回答

、、、、

我是PySpark的新手，目前我正在尝试实现奇异值分解算法来预测用户项目评分。输入是一个包含列的矩阵- user_id、item_id和rating。因此，我从以下数据帧开始算法： Initial dataframe 在当前情况下，分区数为7，计算所有行所需的时间为0.7秒。行数为250万。Updated biases and factors for each user 然后我获取初始数据帧，并首先通过用户连接它-我从初始数据帧中获取user_id、item_id和rating，并从userGroup我知道问题出在数据帧的

浏览 48提问于2021-07-15得票数 0

1回答

在Sagemaker笔记本中的PySpark内核中安装python包

、、

有人想出了如何在AWS Sagemaker Notebook实例上安装软件包，以便在PySpark内核中可用吗？我现在做了几次尝试，包括生命周期脚本，但似乎就是错过了正确的python env。

浏览 12提问于2019-12-23得票数 3

1回答

` `pyspark‘与` `pyspark’包

、、、

pyspark mllib和pyspark ml包有什么区别？：我发现的一个不同之处是，pyspark ml实现了pyspark.ml.tuning.CrossValidator，而pyspark我的理解是，如果在Apache框架上实现算法是mllib，那么库应该使用，但似乎存在分裂？在没有转换类型的情况下，每个框架之间似乎没有互操作性，

浏览 4提问于2017-04-05得票数 18

回答已采纳

1回答

如何在Spark SQL中优化非equi-join？

、、

我有两个数据帧，我需要使用具有两个连接谓词的非相等连接(即不等式连接)将它们连接在一起。如果您运行此代码，然后使用number_of_rows的值，请从较低的值开始，然后增加，直到性能明显变慢为止from pyspark.sql import SparkSession from pys

浏览 1提问于2018-10-02得票数 1

2回答

在pyspark.sql.functions.hash中使用了什么哈希算法？

、、、

对于PySpark哈希函数，我有一个简单的问题。我想知道在PySpark ()中，哈希函数到底使用了什么算法。我还想知道PySpark哈希函数中使用的算法的代码。

浏览 11提问于2021-04-11得票数 0

回答已采纳

3回答

当多个用户登录时，一段时间后ASP.Net C#应用程序会变慢

、、

在应用程序中，所有sql连接都会正常关闭，而且当用户注销连接时，仍然会在RAM中增加sql进程内存，并在一段时间后应用程序变慢。

浏览 0提问于2010-07-02得票数 2

1回答

无法在运行连接组件示例时设置检查点dir。

、、

这是由通过graphframe连接的组件g = Graphs(sqlContext).friends() # Getgraph result.select("id", "component").orderBy("component").show() 注意:使用GraphFrames 0.3.0和更高版本，默认的连接</em

浏览 9提问于2021-04-18得票数 1

回答已采纳

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？

浏览 61提问于2021-07-11得票数 0

回答已采纳

1回答

用Pyspark使用第三方库

、、、、

我一直在研究python的PYOD库，并且一直在使用LOF、LOCI和CBLOF算法。现在我想转移到使用皮斯喀斯特。我在RnD上做了一些MLlib。我想知道以下情况：如果有参考资料，请分享。谢谢

浏览 0提问于2021-04-26得票数 1

回答已采纳

1回答

删除C++模板/typename后算法变慢

、、

为了学习和理解事情是如何工作的，我尝试在没有模板的情况下重写它，比如wstringstruct my_equal= str1.end()); 我在尝试这个：{ bool operator()(wchar_t ch1, wchar_t ch2) { return

浏览 4提问于2017-07-11得票数 1

回答已采纳

1回答

PySpark在连接后删除列

我有以下代码： a = df.alias('a')cond = [a.adjTransactionDate == b.TransactionDate, a.GroupByFld == b.GroupByFld] c=c.drop('adjTransactionDate','a.GroupByFld') 我发现最后一行从数据集中删除了'adjTransaction日期字段，但保留了GroupBYFld。

浏览 13提问于2019-01-04得票数 0

1回答

在PySpark中寻找循环吗？

、、

我在Python中有一个聚类算法，我正试图将其转换为PySpark (用于并行处理)。我有一个包含区域的数据集，并在这些区域中存储。我想对单个区域中的所有存储执行我的聚类算法。在进入ML之前，我有几个for循环。如何修改代码以删除PySpark中的for循环？我在PySpark中读过for循环通常不是一个好的实践，但我需要能够在许多子数据集上执行模型。有什么建议吗？

浏览 3提问于2021-01-26得票数 2

回答已采纳

1回答

PySpark - DataFrame上的多个联合变慢

、、

我在PySpark (版本2.4.3)中遇到了一个关于DataFrame联合的问题。当在多个数据帧上进行联合时，每个后续联合都会变得更慢。类似的问题已经在Spark版本1.4中注册并标记为已解决：。以下是示例代码：from pyspark.context import SparkContextfrom pyspark.

浏览 26提问于2019-11-23得票数 1

1回答

为什么"where id in (n1，n2，n3，...，n2000)“如此缓慢？

、

我有一个大约有一亿行的表，列'id‘是主键，它是表中唯一的键。SELECT id,name FROM table WHERE id IN (id1, id2, id3, id4, ..., id1000);但是Mysql每次查询都要花费大约一分钟的时间。它并不慢，但它非常慢。这个条款有什么问题？非常感谢!CREATE TABLE mytable id mediumint(8) unsigned NOT NULL AUTO_INCREMENT, catid sm

浏览 2提问于2016-10-19得票数 0

1回答

在Apache Spark中使用分类和数字特征对数据进行聚类

、、

我目前正在寻找Apache Spark (Scala/Java)中的一种算法，该算法能够对具有数字和分类特征的数据进行聚类。据我所知，有一个k-medoids和k-prototypes for pyspark ()的实现，但我无法确定与我目前正在使用的Scala/Java版本类似的实现。对于运行Scala的Spark，有没有其他推荐的算法来实现类似的事情？或者我忽略了什么，实际上可以在我的Scala项目中使用pyspark库？如果您需要进一步的信息或澄清，请随时询问

浏览 3提问于2017-08-04得票数 1

1回答

在对算法进行基准测试时，我需要担心硬件吗？

、、

我正在尝试通过在我的MacBook Air (2019)上运行模拟来测试算法。运行算法的实例需要时间，如果我按算法实例执行，每个实例大约需要2个小时。假设我的代码没有错误，那么笔记本电脑会不会随着计算的深入而变慢呢？我对算法的运行时间进行了限制，那么由于CPU的温差，第一个实例的运行速度会比第十个实例快吗？我的代码可能有问题。我还没有详细研究过它。我想问的问题是，像上面描述的计算机速度变慢这样的问题真的会发生吗？这是我需要担心的东西吗，或者我只是对我的机器不可知，只关心

浏览 15提问于2020-02-11得票数 1

1回答

非重叠对象之间的孤岛多边形的算法名称

、、

我正在查找算法名称，但无法识别是哪种算法。//break;但是如果我遵循这个，在我到达空部分的底部后我应该用什么算法来搜索互联网？还有一件事，我寻找了连通组件算法，这是针对像素的数据表。但是我有位置和大小的数据表。如果我把它转换成像素级的，我的窗口窗体(C#)在搜索过程中会变慢。

浏览 14提问于2020-05-06得票数 0

回答已采纳

1回答

PySpark MongoDB从DataFrame追加数组的所有元素

、、、、

我还有一个PySpark DataFrame，我想把它推到这个集合中，其中包含我想要更新这个特定文档的信息。然后，在检查键是否存在的同时，逐个插入所有内容；这会使这个部分变慢，当RDD查询变得很大时，需要大量的内存。关于版本：是否有人可以使用dataframe将数组中的所有元素追加到MongoDB集合？

浏览 2提问于2017-11-15得票数 3

1回答

树莓pi网络

、、、

是否有可能编写一个程序来连接和断开我的raspberry pi，运行raspbian，到我的wifi网络。例如，我希望它连接到我的网络，当一张照片是由于运动观察拍摄。然后，我希望它自己连接到网络，发送一封电子邮件，然后断开自己。这是可能的吗?什么是最简单的方法。注意:当raspberry pi连接到网络时，整个网络在一定时间后似乎变慢了，这就是为什么我希望它连接，然后断开。

浏览 0提问于2013-08-08得票数 0

回答已采纳

0回答

pyspark的streaming去连接加了安全验证（sasl）的kafka呢？

、、、

我们最近kafka加了sasl的安全验证模式，原来使使用pyspark.streaming去连接处理，现在在kafkaparams里面配置后报如下错误：图片

浏览 88提问于2022-09-01

点击加载更多