腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
将
函数
应用于
多个
数据
帧
的
匹配
分区
、
、
、
我有两个Spark DataFrames,具有
匹配
的
分区
对。我希望
将
每对
分区
发送到不同
的
执行器,并在它们上执行Python
函数
。我试过广播第二个,但它太大了,如果没有
分区
就无法放在我
的
executors上。 我想我可能需要使用
pyspark
.rdd.RDD中
的
函数
,但我不确定是哪一个。有几个选项,比如groupByKey和cogroup似乎是相关
的
,但我不明白如何
浏览 18
提问于2019-07-04
得票数 0
1
回答
使用
PySpark
统计每个窗口
的
用户数
、
、
、
、
我正在使用Kafka流式传输一个JSON文件,
将
每一行作为一条消息发送。其中一个关键字是用户
的
email。下面是我
的
PySpark</
浏览 2
提问于2018-11-21
得票数 0
1
回答
Pyspark
管道在pandas
数据
帧
上
的
应用
、
、
、
我有一个
pyspark
管道(包含估算和一个机器学习模型)和一个pandas
数据
帧
。我是否可以在不将其转换为
Pyspark
dataframe
的
情况下
将
管道
应用于
此pandas
数据
帧
?如果不可能,我如何有效地使用
pyspark
管道来生成对pandas
数据
帧
的
预测?
浏览 3
提问于2021-09-13
得票数 1
2
回答
Pyspark
应用程序仅部分利用dataproc集群资源
、
、
、
我
的
pyspark
应用程序在106,36MB
的
数据
集(817.270条记录)上运行UDF,使用常规
的
python lambda
函数
需要大约100个小时。我已经创建了一个包含20个工作节点
的
Google Dataproc集群,每个工作节点有8个vCPU。但是,在执行时,总共只使用3个节点和3个vCPU。显然,我希望集群使用我提供
的
所有资源。我得到
的
数据
帧
的
默认
分区
数
浏览 10
提问于2019-07-23
得票数 4
回答已采纳
1
回答
每个
分区
中增量值基于
pyspark
中一列
的
变化
、
、
我想为
PySpark
DataFrame中
的
每个
分区
创建一个新列(number),它会在列年份发生变化时递增。原始
数据
: name period year A 1 2010A 1 2013 B 1
浏览 8
提问于2020-09-23
得票数 0
1
回答
windowPartitionBy和
pyspark
中
的
重新
分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新
分区
。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
2
回答
集成scikit-learn与
pyspark
、
、
我正在探索
pyspark
和整合scikit-learn与
pyspark
的
可能性。我想使用scikit-learn在每个
分区
上训练一个模型。这意味着,当我
的
RDD被定义并分布在不同
的
工作节点上时,我想使用scikit-learn并在每个工作节点上存在
的
每个
分区
上训练一个模型(假设是一个简单
的
k- means )。由于scikit-learn算法需要一个Pandas
数据
帧
,所以我最初
的
浏览 4
提问于2016-07-04
得票数 4
0
回答
将
pyspark
2.2.0
数据
帧
分区
写入S3并行化
、
、
、
开始使用
pyspark
,遇到了我用代码创建
的
瓶颈: 我通过drive_id
将
PySpark
2.2.0
数据
帧
“group by”划分为
多个
分区
,并将每个
分区
(组)写入其在S3上
的
位置。我需要它来定义由drive_id
分区
的
S3位置上
的
雅典娜表-这允许我在被drive_id查询时非常有效地读取
数据
。).parquet("s3n:/
浏览 4
提问于2017-12-10
得票数 0
1
回答
PySpark
算法在连接后变慢
、
、
、
、
因此,我从以下
数据
帧
开始算法: Initial dataframe 在当前情况下,
分区
数为7,计算所有行所需
的
时间为0.7秒。行数为250万。我使用了一个UDF
函数
,它计算每一行相对于所有其他列
的
误差(我不认为这个等式是相关
的
)。在count
函数
花费大约相同
的
时间之后。 现在到了棘手
的
部分。我必须创建两个新
的
数据
帧
。我实现了另一个更新偏差
的
UDF
浏览 48
提问于2021-07-15
得票数 0
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发
数据
时,
pyspark
.sql.functions下
的
"last“
函数
在spark上返回不一致
的
结果。from
pyspark
.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last(
浏览 1
提问于2017-02-02
得票数 1
1
回答
spark.executor.cores Vs spark.executor.instance我应该增加哪一个?
这里
的
权衡是什么?应该如何选择这两个配置
的
实际值?
浏览 1
提问于2020-06-01
得票数 0
1
回答
如何添加带有行号
的
列?
、
、
我有一个
pyspark
数据
格式。我想添加一个包含行号
的
列。这就是我要做
的
如果我检查stop_id
的
最大值,我就会得到
浏览 1
提问于2020-05-17
得票数 0
回答已采纳
1
回答
遍历
多个
pandas Dataframe对象
、
、
、
我有一个预测
函数
,我已经将它
应用于
一个
数据
帧
,它工作得很好。问题是我可以提取
多个
数据
帧
,如果我想使用相同
的
函数
来运行所有的
数据
帧
。因为rawdf有一个名为DepotName
的
列,该列有
多个
唯一值。 我
的
目标是
将
rawdf分解为对应于仓库
的
多个
<
浏览 0
提问于2018-05-23
得票数 0
1
回答
雪花不扣除拼花中
的
按列
分区
、
我有一个关于雪花
的
新功能-Infer模式表
函数
的
问题。推断模式
函数
在拼图文件上执行得非常好,并返回正确
的
数据
类型。但是,当对拼图文件进行
分区
并将其存储在S3中时,推断模式
的
功能与
pyspark
数据
帧
不同。在DataFrames中,
分区
文件夹名和值被读取为最后一列;在Snowflake推断模式中,有没有办法实现同样
的
结果? @GregPavlik
浏览 0
提问于2021-10-21
得票数 5
1
回答
分组依据列表中
的
元素
、
、
我是
PySpark
的
新手。我创建了spark dataframe,并且我有一个" countries“列,其中包含国家列表。如何通过存在于国家/地区列表中
的
单个国家/地区来groupBy我
的
数据
帧
+-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
2
回答
有没有办法改变每个
分区
文件夹
的
输出行数?
、
、
我有大量
的
最终结果
数据
,这些
数据
在我感兴趣
的
列中分布得并不均匀。当我通过
分区
直接写入时,每个
分区
具有与spark.sql.shuffle.partitions相同数量
的
文件。这会导致拥挤
分区
中
的
每个文件都非常大(以GB为单位),但在其他一些
分区
中,文件大小实际上很小(甚至以KB为单位)。有没有办法改变每个
分区
的
文件数?------------------+----------+ 如
浏览 2
提问于2018-12-05
得票数 0
2
回答
pySpark
forEachPartition -代码在哪里执行?
、
、
、
由于我需要将一些Python-
函数
应用于
我
的
数据
,并且希望最小化开销,所以我
的
想法是至少将一组可处理
的
数据
加载到驱动程序中,并将其作为Pandas-DataFrame处理。无论如何,这将导致并行性
的
损失-优势火花。然后,我看到foreachPartition对
分区
中
的
所有
数据
应用了一个
函数
,因此允许并行处理。我现在
的
问题是: 当我通过foreachPartit
浏览 0
提问于2019-04-12
得票数 4
回答已采纳
1
回答
如何显示
pyspark
数据
帧
的
历史记录?
、
我使用我
的
代码对
pyspark
dataframe进行分组和聚集,它看起来像这样: >>> df.groupBy('DAY_OF_WEEK','confirmed').agg(F.count('confirmed| 3| 1|40128|+-----------+---------+-----+ 有没有办法画出这个
pyspark
数据
帧
的<
浏览 20
提问于2021-09-24
得票数 0
1
回答
Python多处理工具vs Py(Spark)
、
、
、
、
这是一个新手问题,因为我越来越迷惑
pyspark
。我想扩展现有的python
数据
预处理和
数据
分析管道。我意识到如果我用
pyspark
划分我
的
数据
,我不能再把每个
分区
当作一个独立
的
pandas
数据
框架,需要学习如何使用
pyspark
.sql
的
行/列
函数
来操作,并修改很多现有的代码,再加上我一定会触发mllib库,而不能充分利用更成熟
的
scikit-lear
浏览 2
提问于2017-06-15
得票数 6
2
回答
将
MinMaxScaler
应用于
PySpark
中
的
多列
、
、
我想将MinMaxScalar of
PySpark
应用于
PySpark
数据
帧
df
的
多列。到目前为止,我只知道如何将其
应用于
单个列,例如x。from
pyspark
.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于
PySpark
中
浏览 0
提问于2020-02-18
得票数 17
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
PySpark数据分析基础:PySpark原理详解
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
遇见YI算法之初识Pyspark(二)
Python数据预处理:使用Dask和Numba并行化加速
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券