pyspark代码排名分区问题我哪里做错了？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我有一个数据集df，如下所示： ID date class1 2020/01/03 [math,english]2 2020/01/06 [math,art]2 2020/01/08 [math,english,art] 我当前的代码是： df.withCol

浏览 15提问于2021-01-27得票数 1

回答已采纳

1回答

尝试对项目进行排名时出现row_number错误

、

我正在尝试重新使用SQL查询，但遇到了一个令人沮丧的问题。我有两个问题： ) AS 'Rank'INNER JOIN carbon c ON upper(c.ticker) =g.ticker ; 输出将是分区中每个组的排名at or near

浏览 14提问于2021-03-11得票数 2

回答已采纳

1回答

如何为PySpark设置窗口函数的分区？

、、、

我正在运行一个PySpark作业，并收到以下消息：编辑：AADA,1A,1D,5 我不认为应该有一个.partitionBy()来解决这个问题，只有

浏览 3提问于2016-04-05得票数 6

1回答

我在Hive中有一个相当大的表(约130M条记录，180列)，我正尝试使用Spark将其打包为拼图文件。下面是我这样做的代码：from pyspark.sql import HiveContext sc = SparkContext(appNamenum-executors 5 --driver-memory 4g --driver-cores 1 --executor-memory 24g --exe

浏览 0提问于2017-03-21得票数 2

2回答

基于组成员计数的PySpark -分配组id

、、、、

我有一个dataframe，我想为每个窗口分区和每5行分配id。也就是说，当分区有不同的值或分区中的行数超过5时，id应该增加/更改。但是，如果由于“每5行”约束而需要更改排名，则无法计算如何遍历前一个秩值。，有两个问题。显而易见的是，group_id并不在我想要的地方。我还没有想出一个逻辑，把前一名提升到下一组。第二个问题是，由于udf，这个逻辑非常慢。如果有一种方法也能提高性能的话，那就太好了。

浏览 28提问于2022-09-13得票数 1

回答已采纳

1回答

更新Glue作业中的分区后无法从雅典娜查询Glue表

、、、

我们对Glue/Athena有个奇怪的问题。(服务: null；状态代码: 0；错误代码: null；请求ID: null)重要的是，如果我们并行运行两天的作业，我们能够读取雅典娜的数据，这个问题只有在一个接一个的作业中才会发生。我们已经尝试更改云格式中的表定义，以创建带有预定义分区(年份、月、日)的表，并且我们将StoredAsSubDirectories更改为true，但它没有工作。在实现我们的代

浏览 6提问于2020-04-20得票数 4

1回答

在中进行排序和排名？

、、、、

我想在火花中做排名，如下所示：5.65.68.15.51130输出：0 5.51 5.62 6.2我想知道我如何在火花排序，并得到相同的排名，上面列出的。所需经费如下：这是数百万条记录的一个示例，一个分区<

浏览 4提问于2016-04-28得票数 0

回答已采纳

1回答

PySpark与scikit-学习

、

我已经了解到，我们可以使用带有pyspark的scikit学习库来处理单个工作人员上的分区。在解决这个问题方面有多好？

浏览 3提问于2017-07-24得票数 1

1回答

如何保持分区的火花？

、、

我有一个由sensor_name划分的拼花文件夹，每个感应器都有相同的读数。当我使用select阅读它时，我的数据文件如下所示，---------------|---------------当我在下面运行时，我意识到spark自己进行分区。df.write.forma

浏览 3提问于2022-10-12得票数 2

3回答

Apache Spark:获取每个分区的第一行和最后一行

、、

我想获取spark中每个分区的第一行和最后一行(我使用的是pyspark)。我该怎么做呢？在我的代码中，我使用以下命令根据键列重新划分数据集：有没有办法获得每个分区的第一行和最后一行

浏览 6提问于2020-02-21得票数 0

3回答

使用pyspark* / spark对大型分布式数据集进行采样*

、

我在hdfs中有一个文件，它分布在集群中的所有节点上。>>> textFile = sc.textFile("/user/data/myfiles/*") 然后我想简单地取一个样本..。关于Spark最酷的事情是有像takeSample这样的命令，不幸的是我认为我做<em

浏览 1提问于2014-07-17得票数 16

回答已采纳

1回答

将内核根设置为与Boot相同的分区

、、

运行GRUB时，我希望将内核根参数设置为与引导加载程序的磁盘相同的分区(或者更一般地说，设置为同一设备上的分区)。vmlinuz-XXXX root=/dev/XX1 resume=/dev/XX2 splash=silent quiet showopts vga=0x###我可以更改splash=silent quiet showopts vga=0x### 我希望更改该行，以便可以引

浏览 0提问于2011-12-13得票数 -1

1回答

如何在PySpark中随机生成/拆分数据

、、

Apache Spark中的以下Scala代码行将在8个分区中随机拆分数据： import org.apache.spark.sql.functions.rand .repartition(8, col("person_country"), rand).partitionBy("person_country") .csv(outputPath) 有人能给我演示一下如何用PySpark做同样的事情吗？我自己用下面的代码尝试过

浏览 53提问于2020-09-10得票数 0

1回答

从文件系统加载分区的条件

、、、

我知道在pySparks .load()-function中有一些关于通配符的问题，比如或。无论如何，我发现的所有问题/答案都没有涉及到我对它的变化。上下文partition_stamp = "202104" df = spark.read.format("

浏览 2提问于2020-08-03得票数 0

回答已采纳

1回答

Pyspark with Zeppelin:将文件分发到集群节点与SparkContext.addFile()

、、、

我有一个我构建的库，我想让pyspark集群(1.6.3)上的所有节点都可以使用它。我通过Zeppelin (0.7.3)在那个spark集群上运行测试程序。这会产生一个错误堆栈： File "/usr/hdp/current/spark-client/python/pyspark/worker.py", line

浏览 2提问于2018-05-31得票数 1

1回答

AWS Glue Python作业未创建新的数据目录分区

、、、、

我使用Glue Studio创建了一个AWS胶水作业。它从Glue data Catalog中获取数据，执行一些转换，然后写入不同的Data Catalog。在配置目标节点时，我启用了在运行以下命令后创建新分区的选项：作业成功运行，数据以正确的分区文件夹结构写入S3，但没有在实际的数据目录表中创建新分区-我仍然需要运行胶水爬虫来创建它们。生成的脚本中负责创建分区的代码如下(作业的最后两行)： DataSink0 = glueContext.

浏览 5提问于2021-03-19得票数 5

1回答

MatrixFactorizationModel在PySpark中的缓存因子

、、、

加载保存的MatrixFactorizationModel后，我会得到警告: MatrixFactorizationModelWrapper: Product没有分区程序。对个别记录的预测可能很慢。如何设置分区器并缓存产品因子？添加演示问题的代码：import sys sc = SparkContext("spark://hadoop-m:7077", "recommend")

浏览 2提问于2015-08-25得票数 5

回答已采纳

1回答

我们如何在Python3.6中初始化SparkSession和SparkContext？

、、、、

因此，我尝试使用以下代码在Python3.6中初始化SparkSession和SparkContext：from pysparkconfig("spark.sql.warehouse.dir", "file:///c:/temp/spark-warehouse")\每次尝试执行此操作时，我都会遇到以下错

浏览 0提问于2017-05-08得票数 0

2回答

删除Dataproc上的集群后，Apache检索表存储在gcs中

、、、、

我是google云控制台的新手，所以这可能是一个微不足道的问题。我正在使用免费的gcp作为我的数据科学项目.我正在dataproc集群上运行我的python笔记本。我将数据存储在一个外部gcs桶中，使用pyspark作为spark数据data，并将其存储为一个分区表，使用"df.repartition(100).write.saveAsTable()“格式的”或c之后，我删除了我的集群并创

浏览 1提问于2020-06-03得票数 2

1回答

Spark似乎已安装，但无法导入pyspark模块

、、、、

我的pip install pyspark工作了，我在我的命令提示符中收到一条消息，告诉我SparkSession可用“spark”。然而，当我这样做的时候：它给了我一个： ModuleNotFoundError: No module named 'pyspark'问题出在哪里?我该如何解决它？

浏览 0提问于2018-06-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云