腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
计算
pyspark
Dataframe
中
的
列
数
?
、
、
、
我有一个有15
列
的
数据帧(4
列
是分类
的
,其余
的
是数字
的
)。print type(df.printSchema())
浏览 10
提问于2017-03-15
得票数 5
回答已采纳
6
回答
如何在
PySpark
中找到
DataFrame
的
大小或形状?
、
、
我正在尝试在
PySpark
中
找出
DataFrame
的
大小/形状。我看不到有一个函数可以做到这一点。data.shape()row_number = data.count()
列
数
的
计算
并不理想……
浏览 482
提问于2016-09-23
得票数 118
1
回答
pySpark
DataFrame
:如何并行比较两个数据帧
的
列
?
、
、
、
我有两个DataFrames,我想对这两个
DataFrame
的
每一
列
应用distance.euclidean(df1.select(col),df2.select(col))。示例: from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.typesrdd.flatMap(lambda x:x).collect(), df2.select(col).rdd.f
浏览 9
提问于2020-07-11
得票数 0
4
回答
PySpark
计算
相关性
、
、
、
、
我想使用
pyspark
.mllib.stat.Statistics.corr函数来
计算
pyspark
.sql.
dataframe
.
DataFrame
对象
的
两
列
之间
的
相关性。如何将df['some_name']
列
转换为rdd of Vectors.dense对象?
浏览 12
提问于2016-06-03
得票数 16
回答已采纳
1
回答
扩展窗口与
PySpark
上
的
百分位
数
运算结合?
、
、
、
我有一个
PySpark
DataFrame
,每个车辆行程都有一个“速度”
列
,我想在一个新
列
中
计算
0.95扩展(1)分位数。3 110和应用提供(在对新df
的
索引和
列
进行了一些操作之后95 93.507
浏览 3
提问于2022-09-15
得票数 0
1
回答
如何将
列
添加到
PySpark
数据column
中
,该数据column
中
包含另一
列
的
第9分位
数
、
、
、
、
我有一个非常大
的
CSV文件,它已经作为一个
PySpark
数据文件导入:df。
dataframe
包含许多
列
,包括
列
ireturn。我想要
计算
该
列
的
0.99和0.01百分位
数
,然后将另一
列
添加到
dataframe
df
中
,作为new_col_99和new_col_01,它们分别包含0.99和0.01百分位
数
。我编写了下面的代码,它适用于小数据格式,但是当我将它应用到我
浏览 0
提问于2019-01-15
得票数 3
2
回答
pyspark
根据ID
计算
四分位
数
,并根据四分位
数
范围进行分类
、
、
、
我使用
的
是
pyspark
1.5.2。我有一个包含"ID“和"Height”
列
的
pyspark
dataframe
,如下所示:----------"ID2“
的
高度
的
四分位
数
,并根据以下标准将它们分类为高、
中
或短:Medium: All hei
浏览 29
提问于2018-07-25
得票数 1
回答已采纳
1
回答
PySpark
动态连接条件
、
、
、
我有PK
列
的
列表。我在存储主键,因为每个表
的
主键
数
可能会发生变化。我想根据pk_list
中
的
列
连接两个数据帧。现在,我
的
代码如下所示: full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s/yarn/use
浏览 0
提问于2018-12-07
得票数 2
3
回答
在单个
列
中
计算
跨列表
的
值
的
实例
、
、
、
我有一个
PySpark
dataframe
,其中1
列
由字符串列表组成。我想在所有行中
计算
每个字符串列表
中
每个元素
的
实例数。,并从单个庞大列表
中
构建一个计数器。在
PySpark
中
是否有一种有效
的
方法来做到这一点?正确
的
输出将是一个collections.Counter()对象,其中填充了所有
列
中所有列表
中
每个项
的
出现
数
,也就是说,
浏览 6
提问于2020-05-08
得票数 1
回答已采纳
1
回答
如何使用Python
Dataframe
API在Apache Spark中找到中位数?
、
、
、
Pyspark
API提供了除median之外
的
许多聚合函数。Spark 2附带了approxQuantile,它给出了近似的分位数,但精确
的
中位数
计算
起来非常昂贵。对于Spark
Dataframe
中
的
一
列
值,是否有更多
的
Pyspark
方法来
计算
中值?
浏览 3
提问于2016-08-03
得票数 3
回答已采纳
1
回答
忽略缺失值
计算
pyspark
数据框
列
的
百分位
数
、
我对
pyspark
是个新手。我有一个包含ID和BALANCE
列
的
pyspark
数据框。我尝试将
列
balance存储到100% (1-100%)
的
存储桶
中
,并
计算
每个存储桶中有多少个in。我不能使用任何与RDD相关
的
东西,我只能使用
Pyspark
语法。Window.orderBy(df.BALANCE) test = df.withColumn('percentile_col',F.percent_
浏览 14
提问于2019-07-11
得票数 0
1
回答
在
pyspark
中
计算
列
之间
的
方差
、
、
如何
计算
pyspark
中
多个
列
的
方差?例如,如果
pyspark
.sql.
dataframe
表是:1 12 15 73 56 25 25ID A B C Variance2 6 15 2 29.64 3612 5
浏览 1
提问于2017-04-28
得票数 1
1
回答
如何除以星火
DataFrame
中
列
的
和
、
、
如何在不立即触发
计算
的
情况下,高效地将
列
除以其在星火
DataFrame
中
的
自身和?[id: bigint]data2 # -->
DataFrame
[id: bigint, normalized: double] 这很好,但它会立即触发一个
计算
;如果
浏览 0
提问于2018-01-31
得票数 2
回答已采纳
2
回答
如何在
PySpark
中
获得数据类型为时间戳
的
列
的
null/nan计数?
、
、
、
我有一个名为 createdtime
的
列
,其数据类型为时间戳,我希望找到创建时间为空或空或nan
的
行数。from
pyspark
.sql.functions import col,isnan,when,count df_Columns=["
浏览 5
提问于2022-06-26
得票数 0
2
回答
一次聚合一个
dataframe
的
所有
列
、
、
、
我希望在一个列上分组一个
dataframe
,然后在所有列上应用一个聚合函数。它
的
R等价值是summarise_all。在R.我不想手动在
pyspark
中<
浏览 1
提问于2019-05-22
得票数 4
回答已采纳
1
回答
如何估计星火
DataFrame
中
每
列
的
大小(以字节为单位)?
、
我有一个非常大
的
星火
DataFrame
和许多
列
,我想作出一个明智
的
判断是否保持在我
的
管道
中
,部分取决于它们有多大。所谓“有多大”,我指的是缓存这个
DataFrame
时内存
中
字节
的
大小,我希望这是对处理这些数据
的
计算
成本
的
一个不错
的
估计。有些
列
是简单类型(例如,双列、整数列),而另一些
列
是复杂类型(例如数组和可变长度映射)。我尝试
浏览 0
提问于2019-02-25
得票数 2
回答已采纳
1
回答
在
Dataframe
上使用where()或filter()时出错
、
、
、
我想检查
Dataframe
列
first_id
中
的
值是否在我所拥有的in
的
python列表
中
,如果是,那么它应该传递过滤器。first_id_list = [1,2,3,4,5,6,7,8,9] 我用python编写,id_
dataframe
是<e
浏览 5
提问于2019-11-19
得票数 0
回答已采纳
1
回答
组合不同
列
数
的
Spark数据帧
、
、
在this问题中,我问过如何组合具有不同
列
数
的
PySpark
数据帧。给出
的
答案要求每个数据帧必须具有相同
的
列
数
才能将它们全部合并: from
pyspark
.sql import SparkSession for x
浏览 13
提问于2021-06-28
得票数 1
回答已采纳
2
回答
PySpark
-拆分所有
列
中
的
数组并合并为行
、
在
PySpark
中有没有一种方法可以同时分解所有
列
中
的
数组/列表,并将分解后
的
数据分别合并/压缩到行
中
?|col1 |col2 |col3 ||[j,k,l]|[m,n,o]|[p,q,r]||
浏览 17
提问于2018-02-27
得票数 1
回答已采纳
1
回答
在集群上使用applyInPandas和
PySpark
、
、
、
、
import pandas as pdfrom
pyspark
.sql import SparkSession def func(x): return x pdf = pd.
DataFrame
8 CPU单节点系统上进行了测试(例如m5.4xlarge EC2实例),并且运行大约1秒,因为一秒睡眠功能被并行地应用于8个CPU
浏览 37
提问于2022-10-10
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券