腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
中
的
pivot
数据
帧
、
、
2021 3 我想让它成为支点,我已经在expression pivotdata=spark.sql("select * from test").groupby("Country").
pivot
("Year").sum("Value").show()下面尝试过了 我得到了输出,但除了剩下
的
两列外,它只显示了几列 Country 2018 2019 2020 2021 US
浏览 10
提问于2020-06-23
得票数 1
回答已采纳
1
回答
旋转一个流
数据
帧
pyspark
、
、
、
、
我有一个来自kafka
的
流式
数据
帧
,我需要旋转两列。这是我目前使用
的
代码: streaming_df = streaming_df.groupBy('Id','Date')\spark.sql("select * from stream").show(20, False) query.stop() ` 我收到以下错误:<em
浏览 16
提问于2021-07-14
得票数 1
回答已采纳
2
回答
使用python将两个spark
数据
帧
合并到一个模式
中
、
、
、
我有两个不同
的
pyspark
数据
帧
,需要合并成一个。有一些逻辑需要为合并编码。其中一个
数据
帧
具有以下模式:(id,类型,计数),另一个具有模式:(id,timestamp,test1,test2,test3) 第一个
数据
帧
是通过sql "group by“查询创建
的
。可以有重复
的
ids,但ids
的
类型将有所不同。并且,对于给定
的
类型,有一个相关
的
计数。
浏览 46
提问于2020-01-29
得票数 0
回答已采纳
1
回答
Pyspark
groupby列,同时有条件地对另一列进行计数
、
我需要在使用groupBy时从
pyspark
获得条件输出
的
帮助。LogOn|Success|| 2| LogOn|Success|下表显示了我想要
的
内容|+----+-----------+-------+ 总体而言,我尝试按时间分组并填充新列,最好是让代码填充列名,因为我不会总是有一个完整
的
列表和计数我知道我正在尝试做
的
一部
浏览 1
提问于2018-10-08
得票数 0
2
回答
化工厂重组
数据
与出口
我尝试了这里显示
的
另一种方法:,它不适用于我
的
数据
帧
。我有一个
数据
文件,如下所示:-------------------------------------------xyzColour Blue 2 Samsung abcimp
浏览 5
提问于2022-07-16
得票数 0
1
回答
如何在
pyspark
中
实现不带聚合函数
的
数据
透视表
、
我在
pyspark
中有一个这样
的
数据
帧
。
pyspark
dataframe
的
pivot
函数需要聚合函数,在我
的
例子
中
,col_1也不是唯一
的
。
浏览 1
提问于2020-03-21
得票数 0
2
回答
pySpark
中
的
Pivot
我有一个
数据
框架:1 A 61 C 8student_id class_A_score
浏览 29
提问于2018-12-14
得票数 1
回答已采纳
2
回答
SQL Server透视一列并保留其他列
、
、
、
、
我正在尝试透视SQL Server
中
的
一个表(52M+观察值),但是我没有得到所需
的
结果。有15个描述,每个描述都有一个我需要透视
的
值。原始
数据
帧
: ID | Date | Description| Value [ABC], [XYZ
浏览 37
提问于2020-09-03
得票数 2
回答已采纳
1
回答
如何在
pyspark
中
透视包含动态列
的
表
、
、
、
在
Pyspark
中
,是否有可能同时为不同
的
列创建透视图?我有一个这样
的
数据
帧
: sdf = spark.createDataFrame(| 2 | 7 | 8 | 3 | +----+------+------+-------+ 我想要在多个列(val1,val2,...)上透视这个
数据
帧
浏览 15
提问于2019-10-09
得票数 2
回答已采纳
5
回答
如何在
pyspark
环境下使用matplotlib和pandas进行绘图?
、
、
、
、
我有一个非常大
的
pyspark
数据
帧
,我取了一个样本,把它转换成pandas
数据
帧
。sample = heavy_
pivot
.sample(False, fraction = 0.2, seed = None)
数据
帧
如下所示101272 0.1666678 1020561 0.000000 9 1023646
浏览 2
提问于2018-05-09
得票数 1
1
回答
包含空格
的
列
的
saveAsTable失败
、
、
、
、
我有一段
pyspark
代码,用于将
数据
帧
转换为物理表:如果
数据
帧
df包含名称
中
包含空格
的
列则会失败,并显示以下错误: 18/03/08 10:33:29 ERROR CreateDataSourceTableAsSelectCommand: Failed to write to table
pivot<
浏览 4
提问于2018-03-08
得票数 1
2
回答
在spark dataframe
中
执行透视时,'GroupedData‘对象没有属性’show
、
、
、
、
我想要旋转一个spark
数据
帧
,我引用了,基于
pivot
函数,线索是.groupBy('name').
pivot
('name', values=None)。这是我
的
数据
集, Out[75]: |customer_id| name|spDF.groupBy('name').
piv
浏览 2
提问于2018-08-13
得票数 8
回答已采纳
1
回答
如何在SQLTransformer ML
中
创建自定义
PySpark
以枢轴
数据
、
、
、
我有一个类似于以下结构
的
数据
框架:training = spark.createDataFrame([# Attempt 1 .withColumn("week_of_year",") \ .sum("amount")
浏览 0
提问于2018-08-23
得票数 3
1
回答
如何用dataframe子部分
中
的
另一列
中
的
值替换一个列
中
的
值?
、
、
我必须对dataframe
的
"activity“列执行group和
pivot
操作,并用"quantity”列之和填充由
pivot
产生
的
新列。但是,其中一个活动列必须使用“成本”列
的
总和填充。分组和支点之前
的
数据
帧
:| id | quantity | cost | activityswimming | outd
浏览 1
提问于2022-08-01
得票数 0
回答已采纳
1
回答
熊猫/星火/时间系列
、
、
、
、
原始
数据
:预期结果:行数为400百万。有什么建议吗?在Excel
中
,可以这样做: 将"ID“和"Time”复制到新工作表。
浏览 3
提问于2021-07-19
得票数 0
1
回答
如何在
Pyspark
中
创建多个计数列?
、
、
、
我有title和bin
的
数据
| Title| bin| +---------------------+-------------+| 1| 1 | 3| +--
浏览 2
提问于2022-01-15
得票数 1
回答已采纳
1
回答
如何对火花放电
数据
帧
中
的
单个列进行整形操作?
、
、
、
、
我有一个很长
的
火花放电
数据
文件,如下所示:|number||12.4 ||42.3 ||42.3 ||44.2 ||45.4 |理想情况下,我希望将其重塑为nxn矩阵,其中n是sqrt(length of
pyspark
dataframe)。虽然有一个解决方案,方法是将它转换成一个numpy数组,然后将其重组为nxn矩阵,但我希望这是在
pyspark
中
完成<e
浏览 1
提问于2021-03-25
得票数 2
回答已采纳
1
回答
将数组拆分为列
pyspark
-array length变量
、
、
、
在
pyspark
中
,我遇到了将数组拆分成单独列
的
问题。数组长度可变(范围为0-2064)。我试图重用我发现
的
一段代码,但由于
数据
太大,它不起作用。这是我在将数组转换为字符串(dec_spec_str)后尝试
的
部分。这需要永远
的
时间。任何帮助都是非常感谢
的
。string")).alias("name"), f.expr("dec_spec_str[pos]").alias("va
浏览 82
提问于2020-11-01
得票数 0
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
、
、
在链接
中
,用户可以在Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外
的
关键字参数'keep‘
、
、
、
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我
的
数据
帧
中
删除重复项。显然,它在我
的
Jupyter Notebook
中
工作正常,但当我试图通过终端以.py文件
的
形式执行时,我得到了以下错误: Traceback (most recent call last): File"/home/source/fork/
PySpark
_Analytics/Notebo
浏览 110
提问于2019-06-20
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券