腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
减少
pyspark
数据
帧
中
的
依赖
项
数量
、
我正在运行一个
pyspark
流媒体作业。对于每个rdd,我使用一些我想要缓存
的
新
数据
更新一个临时表,如下所示: def forach_rdd(rdd): DStream.foreachRDD(forach_rdd) 几个小时后,spark作业崩溃,因为堆栈溢出;)原因很可能与
数据
框架下不断增长
的
rdd
依赖
关系树有关。
浏览 21
提问于2020-04-28
得票数 2
1
回答
为聚合增加或
减少
分区?
、
、
我不确定在执行聚合操作时是否应该增加或
减少
分区
的
数量
。假设我使用
的
是火花放电
数据
格式。
pyspark
1.6.1。增加分区
数量
的
论据:由于为了聚合,我们必须对
数据
进行洗牌,所以您需要对周围
的</em
浏览 1
提问于2017-08-10
得票数 1
回答已采纳
2
回答
优化
PySpark
与pandas DataFrames之间
的
转换
、
、
、
、
我有一个13M行
的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他参数以不同
的
频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。从文献[,]
中
,我发现使用以下任何一行都可以加快
pyspark
到pandas
数据
帧
之间
的
转换: spark.conf.set("spark.sql.executio
浏览 11
提问于2021-11-19
得票数 0
1
回答
在jupyter notebook中使用胶水作业阅读Kinesis Stream
、
、
、
我正尝试在AWS提供
的
jupyter笔记本电脑中使用spark / python读取kinesis流。我从AWS文档
中
获取了代码,但当我尝试使用kinesis创建
数据
帧
时,我得到了一个
依赖
错误。我认为所有的
依赖
项
都很好,因为我创建了一个笔记本"SparkMagic
PySpark
“。下面是我
的
代码:from datetime import datetimeimpo
浏览 10
提问于2021-07-20
得票数 0
2
回答
按创建日期获取不同
的
行
、
、
我正在使用这样
的
数据
帧
: DeviceNumber | CreationDate | Name1002 | 1.1.2019 | Lamp 我使用databricks和
pyspark
我如何
减少
数据
帧
,使我每个"DeviceNumber“只有一行,并且这将是具有最高&
浏览 14
提问于2019-05-16
得票数 0
回答已采纳
2
回答
为什么groupBy()比
pyspark
中
的
distinct()快得多?
当我用groupBy()替换spark
数据
帧
上
的
distinct()时,我在我
的
pyspark
代码中看到了很大
的
性能改进。但是我不能理解背后
的
原因。整个意图是从
数据
帧
中
删除行级重复
项
。我尝试在谷歌上搜索groupBy()和distinct()在
pyspark
中
的
实现,但没有找到。 有没有人能给我解释一下或者给我指出正确
的
方向?
浏览 0
提问于2018-09-11
得票数 6
2
回答
使用列表
中
的
随机值在
Pyspark
中
创建
数据
帧
、
、
、
、
我需要将此代码转换为
PySpark
等效
项
。我不能使用pandas来创建
数据
帧
。这是我使用Pandas创建
数据
帧
的
方式: df['Name'] = np.random.choice(["Alex","James","Michael","Peter","Harry"], size=3np.random.randint(1, 10, 3) df['
浏览 65
提问于2021-11-09
得票数 1
回答已采纳
1
回答
极慢
的
火花源滤波器
、
、
我正在对一个
pyspark
dataframe执行一个简单
的
过滤操作,它有一个minhash jaccard相似性列。我已经检查了
数据
帧
的
分区
数量
,它只有4个。 我应该
减少
分区
的
数量
吗?是否有其他解决方案可以
减少
计算时间?
浏览 20
提问于2021-08-30
得票数 0
回答已采纳
1
回答
处理
依赖
型
PySpark
DataFrames
、
、
、
假设我们有一个嵌套
的
PySpark
dataframe df,其模式如下: |-- a1: string (nullable = true) | | |-- dt_indicator: boolean (nullable = true) 假设我们有一个过程,在两个扁平
的
数据
帧
df1和df2
中
用以下模式将嵌套
的
数据
fra
浏览 4
提问于2021-12-12
得票数 0
回答已采纳
2
回答
斯卡拉是星火
的
必备品吗?
、
我是火花
的
新手。在它
的
文档
中
,它说它可以在Scala或Python中使用。 一些博客说,火花
依赖
于scala (例如,)。因此,我想知道:scala是Spark
的
必修课吗?(由于
依赖
关系,我必须首先安装scala吗?)
浏览 2
提问于2014-12-21
得票数 6
1
回答
如何从列表列创建组合
的
Pyspark
数据
框架
、
、
、
、
我目前有一个
pyspark
数据
帧
,如下所示: +--------------------++--------------------+| [1, 5, 7]|| ...| 我
的
目标是转换这个
数据
帧
(或创建一个新
的
数据
帧
),以便新
数据
是表<e
浏览 12
提问于2021-02-09
得票数 1
回答已采纳
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发
数据
时,
pyspark
.sql.functions下
的
"last“函数在spark上返回不一致
的
结果。from
pyspark
.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1&
浏览 1
提问于2017-02-02
得票数 1
1
回答
Sbt fat jar (不包括未使用
的
代码)
、
、
、
其中一个建议是 将部署包
的
大小最小化到其运行时所需
的
大小。这将
减少
在调用之前下载和解压缩部署包所需
的
时间。对于在Java或.NET Core
中
编写
的
函数,请避免将整个AWS库作为部署包
的
一部分上载。我一直在使用sbt程序集为我
的
代码和
依赖
项
创建fat jars,但是当我只使用添加了大量内容
的
aws库
的
10%时,sbt程序集似乎将打包所有库
依赖
项
浏览 0
提问于2018-08-03
得票数 1
回答已采纳
1
回答
与Pandas结果相比,dataframe
中
唯一值
的
Pyspark
数量
不同
、
、
、
、
我有400万行
的
大型
数据
帧
。其中一列是名为"name“
的
变量。当我通过:df['name].nunique()检查Pandas
中
唯一值
的
数量
时,我得到了一个与
Pyspark
df.select("name").distinct().show()不同
的
答案(在Pandas中大约为1800,在
Pyspark
中
为350 )。这是一个
数据
分区
浏览 0
提问于2020-05-24
得票数 0
1
回答
如何从颤振项目中删除
依赖
项
、
我在Android
中
的
dex文件达到了64k
的
限制。我想避免启用多重索引。为了
减少
方法
的
数量
,我开始删除不再使用
的
依赖
项
。问题是,我仍然收到相同
的
错误:我有78k方法(在删除
依赖
项
之前完全相同),我已经删除了至少应该将我
的
方法降低1
的
3大
依赖
项
。尽管从pubspec.yml
中
删除了这些
浏览 2
提问于2020-09-15
得票数 1
1
回答
编辑集合和禁用表单持久性
、
对于特定
的
请求,是否存在从表单
数据
中
禁用MVC“填充”
的
功能?示例
的
一部分是删除在posts之间
的
数量
为零
的
项
。不幸
的</em
浏览 2
提问于2011-02-17
得票数 0
回答已采纳
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
、
、
在链接
中
,用户可以在Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
1
回答
pySpark
中
的
数据
帧
级计算
、
我正在使用
PySpark
,并希望利用多节点
的
优势来提高性能时间。Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新
的
薪水列,并希望使用
pyspark
中
多个节点
的
能力来
减少
整体处理时间。我不想做一个迭代
的
逐行计算新工资。 df.withColumn是否在
数据
帧
级别进行计算?
浏览 16
提问于2021-03-24
得票数 0
1
回答
为什么无法实例化'org.apache.spark.sql.hive.HiveSessionStateBuilder?
、
我在ssh服务器上工作,我通过以下命令加载spark:我想创建一个配置单元表来将我
的
DataFrame分区保存到这个表
中
。我
的
代码mycode.py如下: warehouse_location = abspath('spark-warehouse') conf我
的
错误在哪里?请注意,我使用spark-submit mycode.py运行上面的代码。我不知道
浏览 1
提问于2019-07-17
得票数 2
3
回答
查询另一个DataFrame查询Spark
的
结果
、
、
、
、
17522.927|| 56.23.191.99| 113.186|| 203.30.177.95| 1.081|有覆盖
数
浏览 20
提问于2018-05-30
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券