腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
枚举
排序
的
PySpark
数据
帧
中
的
序列
它是表单
的
排序
数据
帧
| id | timestamp | head_indices || 2 | 45 | 0 |在此
数据
中
,每个id都有一些连续
的
行,其中每个
序列
的</
浏览 10
提问于2020-02-26
得票数 0
1
回答
如何根据id将多行合并为一个单元格,然后进行计数?
、
、
、
如何使用
PySpark
将多行合并为基于id
的
单个单元格?我有一个包含ids和产品
的
数据
框架。首先,我想将具有相同id
的
产品合并到一个列表
中
,然后我想计算每个唯一列表出现
的
次数。,mobile4,music输出:HOME-mobile,2cd-music-video,1ORDER BY 1
浏览 7
提问于2017-12-13
得票数 0
回答已采纳
1
回答
如何合并来自
枚举
器
的
数据
是Scala
、
、
、
我使用Play框架
中
的
枚举
器/迭代器,我有几个
枚举
器,每个
枚举
器都提供
排序
后
的
值
序列
。我想编写Iteratee/Enumeratee,它合并来自这些
枚举
器
的
值,以提供所有值
的
排序
序列
。我知道我可以压缩
枚举
数
中
的
值,在内存
中
重新构造它们
的
数据</em
浏览 0
提问于2014-09-30
得票数 2
1
回答
为什么RDD to JSON会删除
数据
的
实际
排序
?
、
、
、
我正在尝试从我
的
pyspark
数据
帧
创建一个JSON。我在我
的
数据
帧
中看到
数据
是正确
排序
的
,但是当使用toJSON时,
排序
不会反映在JSON对象
中
。你能帮帮我吗?我
的
Dataframe是这样
的
: ? 这就是我使用toJSON时会发生
的
事情 ?
浏览 8
提问于2019-02-13
得票数 0
回答已采纳
1
回答
如何在
pyspark
中
对dataframe行
排序
我有一个包含两列
的
数据
帧
,其中包含数字,我需要按行而不是按列对
数据
帧
进行
排序
。到处都给出了如何按列对dataframe进行
排序
,但我找不到如何在
pyspark
中
对dataframe
的
所有行进行
排序
。
浏览 0
提问于2017-11-14
得票数 1
1
回答
如何获取row_number is
pyspark
数据
帧
、
、
、
为了排名,我需要让row_number是一个
pyspark
数据
帧
。我看到在
pyspark
的
窗口函数中有row_number函数,但这是使用HiveContext所必需
的
。我尝试用HiveContext替换sqlContext self.sc =
pyspark
.SparkContext() #self.sqlContext =
pyspark
.sql.SQL
浏览 0
提问于2016-10-30
得票数 2
1
回答
如何在
Pyspark
Dataframe
中
训练和测试拆分
的
时间
序列
数据
、
、
、
我想对
排序
后
的
Pyspark
数据
帧
进行基于时间
的
训练测试拆分。假设前300行将在训练集中,下200行将在测试拆分
中
。我可以用以下命令选择前300行: train = df.show(300) 但是如何从
Pyspark
dataframe中选择最后200行呢?
浏览 14
提问于2019-03-13
得票数 1
5
回答
用于
pyspark
数据
帧
比较
的
pytest断言
、
、
、
我有2个
pyspark
数据
帧
,如附件所示。expected_df和actual_df在我
的
单元测试
中
,我试图检查两者是否相等。我
的
代码是actual = map(lambda row: row.asDict(), actaual_df.collect()) 因为两个dfs是相同
的</e
浏览 4
提问于2018-10-03
得票数 5
2
回答
提取特定单元格
的
值并将其填充到
pyspark
dataframe
中
的
NA值
、
、
、
我正在将python代码转换为
pyspark
,在这里我尝试使用fillna na,并使用来自相同dataframe
的
另一列但在索引0上
的
值填充na值。下面是我
的
python代码,它可以正常工作: df['Parent'].fillna(df.at[0, 'Sequence'], inplace=True) 之前
的
数据
帧
结构: df:EEE DDD 0720
浏览 12
提问于2020-12-15
得票数 0
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发
数据
时,
pyspark
.sql.functions下
的
"last“函数在spark上返回不一致
的
结果。from
pyspark
.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1&
浏览 1
提问于2017-02-02
得票数 1
0
回答
行号
的
配置单元查询
、
、
、
我在
pyspark
上工作,需要编写一个从hive表
中
读取
数据
并返回包含所有列和行号
的
pyspark
数据
帧
的
查询。这是我尝试过
的
:这个查询在hive
中
运行得很好,但是当我从
pyspark
注意:我不希望以任何特定
的
顺序对行进行
排序</em
浏览 2
提问于2017-12-06
得票数 0
1
回答
如何在dataframe spark中使用groupby进行计数
排序
、
我想按降序对此计数列进行
排序
,但我一直收到'NoneType‘对象is not callable error。我怎样才能给它添加一个
排序
函数,这样我就不会得到错误了?from
pyspark
.sql.functions import hour hour = checkin.groupBy(hour("date").alias("hour")).count().show
浏览 71
提问于2021-07-14
得票数 0
回答已采纳
1
回答
GroupBy之后
的
PySpark
Join
、
、
、
、
我有两个
数据
帧
,我想要做
的
是按组/分区连接它们。我如何在
PySpark
中
实现它? 第二个df包含没有间隔
的
时间
序列
。我想要达到
的
结果是
浏览 4
提问于2020-03-30
得票数 2
1
回答
正在将
pyspark
数据
帧
写入文本文件
、
我有一个从sql server
中
的
一个表创建
的
pyspark
数据
框架,我对它做了一些转换,现在我要将它转换为动态
数据
框架,以便能够将其保存为s3存储桶
中
的
文本文件。当我将
数据
帧
写入文本文件时,我将向该文件添加另一个头文件。这是我
的
动态
数据
框,将保存为文件: 2021-03-21 | MT.0000| 234.543
浏览 0
提问于2021-04-23
得票数 0
1
回答
Pyspark
'for‘循环没有使用.filter()正确过滤
pyspark
-sql
数据
帧
。
、
、
、
、
我正在尝试创建一个for循环,首先:过滤一个
pyspark
sql
数据
帧
,然后将过滤后
的
数据
帧
转换为pandas,对其应用一个函数,并将结果添加到一个名为results
的
列表
中
。我
的
列表包含一个字符串
序列
(这将是dataframe
中
的
某种id );我希望for循环在每次迭代
中
从列表
中
获取一个字符串,并过滤dataframe
中
id
浏览 21
提问于2020-12-16
得票数 1
回答已采纳
2
回答
按系列对熊猫
数据
框架进行
排序
熊猫
数据
帧
可以根据其列
的
值进行
排序
,但我想按照不想添加到
数据
框架
中
的
系列
的
值对
数据
帧
进行
排序
--尽管它具有相同
的
索引。 我通过将该系列添加到
数据
框架(作为一个列)、
排序
和再次删除该列来
排序
数据
帧
。在示例代码
中
,nprojnpercent是我
的
数据</
浏览 2
提问于2016-04-16
得票数 2
回答已采纳
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外
的
关键字参数'keep‘
、
、
、
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我
的
数据
帧
中
删除重复项。显然,它在我
的
Jupyter Notebook
中
工作正常,但当我试图通过终端以.py文件
的
形式执行时,我得到了以下错误: Traceback (most recent call last): File"/home/source/fork/
PySpark
_Analytics/Notebo
浏览 110
提问于2019-06-20
得票数 1
2
回答
将
PySpark
数据
帧
转换为
PySpark
.pandas
数据
帧
、
、
在链接
中
,用户可以在Spark3.2
中
的
PySpark
之上与熊猫合作。是否需要很长时间才能将
PySpark
数据
帧
转换为
PySpark
熊猫
数据
框架?我知道将
PySpark
数据
帧
转换为熊猫
数据
框架需要很长时间。
浏览 9
提问于2022-03-02
得票数 1
回答已采纳
2
回答
如何在Spark列
中
编写函数,使列
中
的
每个字段递增值?
、
这与唯一id无关,因此我并不打算使用增加唯一编号api,而是尝试通过自定义查询来解决它 考虑给定值,例如30,现在current dataframe df需要添加一个名为hop_number
的
新列,以便该列
中
的
每个字段从顶部到底部将从我知道在RDD
中
我们可以使用map来处理这项工作,但是如何以最小
的
成本在dataframe
中
做同样
的
事情呢?
浏览 17
提问于2020-07-01
得票数 0
回答已采纳
2
回答
PySpark
列向绑定
在
PySpark
中有什么特定
的
方法可以像我们在r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 中的枚举类型
数据结构中的各类排序方法
排序算法中的选择排序
tcp/ip模型中,帧是第几层的数据单元?
Java中的枚举类型有哪些优势?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券