腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
代码
排名
分区
问题
我
哪里
做
错了
?
、
、
、
我
有一个数据集df,如下所示: ID date class1 2020/01/03 [math,english]2 2020/01/06 [math,art]2 2020/01/08 [math,english,art]
我
当前的
代码
是: df.withCol
浏览 15
提问于2021-01-27
得票数 1
回答已采纳
1
回答
尝试对项目进行
排名
时出现row_number错误
、
我
正在尝试重新使用SQL查询,但遇到了一个令人沮丧的
问题
。
我
有两个
问题
: ) AS 'Rank'INNER JOIN carbon c ON upper(c.ticker) =g.ticker ; 输出将是
分区
中每个组的
排名
at or near
浏览 14
提问于2021-03-11
得票数 2
回答已采纳
1
回答
如何为
PySpark
设置窗口函数的
分区
?
、
、
、
我
正在运行一个
PySpark
作业,并收到以下消息:编辑:AADA,1A,1D,5
我
不认为应该有一个.partitionBy()来解决这个
问题
,只有
浏览 3
提问于2016-04-05
得票数 6
1
回答
查询Spark上的Hive以获得最高性能的正确方法是什么?
、
、
、
、
我
在Hive中有一个相当大的表(约130M条记录,180列),
我
正尝试使用Spark将其打包为拼图文件。下面是
我
这样
做
的
代码
:from
pyspark
.sql import HiveContext sc = SparkContext(appNamenum-executors 5 --driver-memory 4g --driver-cores 1 --executor-memory 24g --exe
浏览 0
提问于2017-03-21
得票数 2
2
回答
基于组成员计数的
PySpark
-分配组id
、
、
、
、
我
有一个dataframe,
我
想为每个窗口
分区
和每5行分配id。也就是说,当
分区
有不同的值或
分区
中的行数超过5时,id应该增加/更改。但是,如果由于“每5行”约束而需要更改
排名
,则无法计算如何遍历前一个秩值。,有两个
问题
。显而易见的是,group_id并不在
我
想要的地方。
我
还没有想出一个逻辑,把前一名提升到下一组。第二个
问题
是,由于udf,这个逻辑非常慢。如果有一种方法也能提高性能的话,那就太好了。
浏览 28
提问于2022-09-13
得票数 1
回答已采纳
1
回答
更新Glue作业中的
分区
后无法从雅典娜查询Glue表
、
、
、
我们对Glue/Athena有个奇怪的
问题
。(服务: null;状态
代码
: 0;错误
代码
: null;请求ID: null)重要的是,如果我们并行运行两天的作业,我们能够读取雅典娜的数据,这个
问题
只有在一个接一个的作业中才会发生。我们已经尝试更改云格式中的表定义,以创建带有预定义
分区
(年份、月、日)的表,并且我们将StoredAsSubDirectories更改为true,但它没有工作。 在实现我们的
代
浏览 6
提问于2020-04-20
得票数 4
1
回答
在中进行排序和
排名
?
、
、
、
、
我
想在火花中
做
排名
,如下所示:5.65.68.15.51130输出:0 5.51 5.62 6.2
我
想知道
我
如何在火花排序,并得到相同的
排名
,上面列出的。所需经费如下: 这是数百万条记录的一个示例,一个
分区<
浏览 4
提问于2016-04-28
得票数 0
回答已采纳
1
回答
PySpark
与scikit-学习
、
我
已经了解到,我们可以使用带有
pyspark
的scikit学习库来处理单个工作人员上的
分区
。在解决这个
问题
方面有多好?
浏览 3
提问于2017-07-24
得票数 1
1
回答
如何保持
分区
的火花?
、
、
我
有一个由sensor_name划分的拼花文件夹,每个感应器都有相同的读数。当我使用select阅读它时,
我
的数据文件如下所示,---------------|---------------当我在下面运行时,
我
意识到spark自己进行
分区
。df.write.forma
浏览 3
提问于2022-10-12
得票数 2
3
回答
Apache Spark:获取每个
分区
的第一行和最后一行
、
、
我
想获取spark中每个
分区
的第一行和最后一行(
我
使用的是
pyspark
)。
我
该怎么
做
呢?在
我
的
代码
中,
我
使用以下命令根据键列重新划分数据集:有没有办法获得每个
分区
的第一行和最后一行
浏览 6
提问于2020-02-21
得票数 0
3
回答
使用
pyspark
/ spark对大型分布式数据集进行采样
、
我
在hdfs中有一个文件,它分布在集群中的所有节点上。>>> textFile = sc.textFile("/user/data/myfiles/*") 然后
我
想简单地取一个样本..。关于Spark最酷的事情是有像takeSample这样的命令,不幸的是
我
认为
我
做<em
浏览 1
提问于2014-07-17
得票数 16
回答已采纳
1
回答
将内核根设置为与Boot相同的
分区
、
、
运行GRUB时,
我
希望将内核根参数设置为与引导加载程序的磁盘相同的
分区
(或者更一般地说,设置为同一设备上的
分区
)。vmlinuz-XXXX root=/dev/XX1 resume=/dev/XX2 splash=silent quiet showopts vga=0x###
我
可以更改splash=silent quiet showopts vga=0x###
我
希望更改该行,以便可以引
浏览 0
提问于2011-12-13
得票数 -1
1
回答
如何在
PySpark
中随机生成/拆分数据
、
、
Apache Spark中的以下Scala
代码
行将在8个
分区
中随机拆分数据: import org.apache.spark.sql.functions.rand .repartition(8, col("person_country"), rand).partitionBy("person_country") .csv(outputPath) 有人能给我演示一下如何用
PySpark
做
同样的事情吗?
我
自己用下面的
代码
尝试过
浏览 53
提问于2020-09-10
得票数 0
1
回答
从文件系统加载
分区
的条件
、
、
、
我
知道在pySparks .load()-function中有一些关于通配符的
问题
,比如或。无论如何,
我
发现的所有
问题
/答案都没有涉及到我对它的变化。上下文partition_stamp = "202104" df = spark.read.format("
浏览 2
提问于2020-08-03
得票数 0
回答已采纳
1
回答
Pyspark
with Zeppelin:将文件分发到集群节点与SparkContext.addFile()
、
、
、
我
有一个
我
构建的库,
我
想让
pyspark
集群(1.6.3)上的所有节点都可以使用它。
我
通过Zeppelin (0.7.3)在那个spark集群上运行测试程序。这会产生一个错误堆栈: File "/usr/hdp/current/spark-client/python/
pyspark
/worker.py", line
浏览 2
提问于2018-05-31
得票数 1
1
回答
AWS Glue Python作业未创建新的数据目录
分区
、
、
、
、
我
使用Glue Studio创建了一个AWS胶水作业。它从Glue data Catalog中获取数据,执行一些转换,然后写入不同的Data Catalog。在配置目标节点时,
我
启用了在运行以下命令后创建新
分区
的选项:作业成功运行,数据以正确的
分区
文件夹结构写入S3,但没有在实际的数据目录表中创建新
分区
-
我
仍然需要运行胶水爬虫来创建它们。生成的脚本中负责创建
分区
的
代码
如下(作业的最后两行): DataSink0 = glueContext.
浏览 5
提问于2021-03-19
得票数 5
1
回答
MatrixFactorizationModel在
PySpark
中的缓存因子
、
、
、
加载保存的MatrixFactorizationModel后,我会得到警告: MatrixFactorizationModelWrapper: Product没有
分区
程序。对个别记录的预测可能很慢。如何设置
分区
器并缓存产品因子?添加演示
问题
的
代码
:import sys sc = SparkContext("spark://hadoop-m:7077", "recommend")
浏览 2
提问于2015-08-25
得票数 5
回答已采纳
1
回答
我们如何在Python3.6中初始化SparkSession和SparkContext?
、
、
、
、
因此,
我
尝试使用以下
代码
在Python3.6中初始化SparkSession和SparkContext:from
pyspark
config("spark.sql.warehouse.dir", "file:///c:/temp/spark-warehouse")\每次尝试执行此操作时,
我
都会遇到以下错
浏览 0
提问于2017-05-08
得票数 0
2
回答
删除Dataproc上的集群后,Apache检索表存储在gcs中
、
、
、
、
我
是google云控制台的新手,所以这可能是一个微不足道的
问题
。
我
正在使用免费的gcp作为
我
的数据科学项目.
我
正在dataproc集群上运行
我
的python笔记本。
我
将数据存储在一个外部gcs桶中,使用
pyspark
作为spark数据data,并将其存储为一个
分区
表,使用"df.repartition(100).write.saveAsTable()“格式的”或c之后,
我
删除了
我
的集群并创
浏览 1
提问于2020-06-03
得票数 2
1
回答
Spark似乎已安装,但无法导入
pyspark
模块
、
、
、
、
我
的pip install
pyspark
工作了,
我
在
我
的命令提示符中收到一条消息,告诉
我
SparkSession可用“spark”。然而,当我这样
做
的时候:它给了我一个: ModuleNotFoundError: No module named '
pyspark
'
问题
出在
哪里
?
我
该如何解决它?
浏览 0
提问于2018-06-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券