腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
数据
帧
:
按
日期
删除
行
、
、
、
我想将我的spark
数据
帧
减少到某个
日期
之后的
日期
,例如2020-03-01。 通过sql加载
数据
将为
数据
列提供一个字符串,因此我在尝试通过
数据
比较
删除
行
之前对其进行了更改。
浏览 11
提问于2020-09-14
得票数 0
1
回答
将每个二元语法从列表格式移动到Pandas或
Pyspark
数据
帧
中的新
行
、
、
、
、
我有pandas和
pyspark
数据
帧
,每天每行都有二元组的列表。我想打破列表,并将每个二元组合移动到一
行
,计数
按
降序排列。 如下所示是我拥有的
数据
帧
。我已经
按
event_dt进行了排序。现在,我想要将每个biagram移动到同一
日期
的新
行
。例如,“nice meet”将在一
行
中,而“meet postpaid”将在另一
行
中,而event_dt列则显示相同的
日期
。
浏览 40
提问于2020-10-23
得票数 0
回答已采纳
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发
数据
时,
pyspark
.sql.functions下的"last“函数在spark上返回不一致的结果。from
pyspark
.sql.types import DoubleType numeric = sqlContext.createDataFrame
浏览 1
提问于2017-02-02
得票数 1
1
回答
从多个S3存储桶导入
pyspark
dataframe,其中有一列指示条目来自哪个存储桶
、
、
我有一个
按
日期
分区的S3存储桶列表。第一个存储桶标题为2019-12-1,第二个存储桶标题为2019-12-2,依此类推。这些存储桶中的每一个都存储我正在读取到
pyspark
dataframe中的拼图文件。从每个存储桶生成的
pyspark
dataframe具有完全相同的模式。我想要做的是迭代这些存储桶,并将所有这些拼图文件存储到一个单独的
pyspark
dataframe中,该
数据
框有一个date列,表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
2
回答
如何从以2K开头的
pyspark
数据
帧
中
删除
记录
、
、
我使用的是
pyspark
3.0.1。我想从我的
pyspark
数据
帧
df的列group中
删除
记录以2K开头的
行
。我的样本
数据
如下所示John 23 1L12Pat 35 1P28Name Age
浏览 1
提问于2021-03-04
得票数 0
1
回答
不包括当前记录的过去N个记录的平均值
给了我的星火
数据
("2019-01-01",100),("2019-01-03",102), ("2019-01-04",103)
浏览 2
提问于2019-06-13
得票数 1
回答已采纳
2
回答
为什么groupBy()比
pyspark
中的distinct()快得多?
当我用groupBy()替换spark
数据
帧
上的distinct()时,我在我的
pyspark
代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从
数据
帧
中
删除
行
级重复项。我尝试在谷歌上搜索groupBy()和distinct()在
pyspark
中的实现,但没有找到。 有没有人能给我解释一下或者给我指出正确的方向?
浏览 0
提问于2018-09-11
得票数 6
1
回答
使用另外两列中的信息并列放置两个
PySpark
df列
、
、
、
我的
PySpark
数据
帧
中有四列: 'drivers','cars','topSpeeds','dates' 假设每个司机在不同的
日期
用不同的汽车达到了不同的最高速度,不同的汽车在不同的
日期
用不同的司机达到了不同的最高速度我可以将每辆车的司机在所有
日期
的最高速度的平均值如下: df.groupBy("drivers").mean() 我认为这在没有指定
按
topSpeed
浏览 9
提问于2019-02-20
得票数 0
回答已采纳
2
回答
仅基于azure databricks中的前1000
行
显示示例
、
、
dfResult = spark.readStream.format("delta").load(PATH)尝试从我已经将所有
数据
放入其中的增量表中读取流
数据
,并通过执行以下操作来可视化它们:SELECT Time, score但是,图形或表格上只显示前1000
行
。有没有办法查看最后1000
行
或显示整个
数据
而不是前1000
行</em
浏览 14
提问于2020-02-21
得票数 0
5
回答
火花复制
数据
栏- Python/
PySpark
中的最佳实践?
、
、
这是用于使用Spark2.3.2的Python/
PySpark
。我正在寻找最佳实践方法,将一个
数据
框架的列复制到另一个
数据
框架,使用
PySpark
对一个非常大的10+十亿行
数据
集(
按
年/月/日平均划分)。每一
行
都有120列要转换/复制。输出
数据
帧
将被写入另一组文件中,
日期
分区。
浏览 1
提问于2018-12-19
得票数 5
1
回答
在DataFrame的特定
行
上运行函数
、
我有一个函数,它将dataframe作为其输入之一,该
数据
帧
按
日期
进行索引。我如何才能只在
数据
帧
的一个子集上运行函数(比如,从2005-2010)?我认为我不能简单地从
数据
帧
中
删除
其余的
行
,因为函数的一部分会跟踪滚动平均值,因此前几行将取决于我没有考虑的
日期
。
浏览 9
提问于2020-05-22
得票数 1
1
回答
如何在
pyspark
中对dataframe
行
排序
我有一个包含两列的
数据
帧
,其中包含数字,我需要按
行
而不是
按
列对
数据
帧
进行排序。到处都给出了如何
按
列对dataframe进行排序,但我找不到如何在
pyspark
中对dataframe的所有行进行排序。
浏览 0
提问于2017-11-14
得票数 1
2
回答
在x
行
之前避免重复
、
、
、
我有一个
数据
库,里面有一些
日期
和标识符。我想做的是避免在接下来的3个月内看到相同的标识符,某种程度上消除重复,但不是整个系列,只是一小部分。我的
数据
示例如下所示:2019-02-28 29422019-08-31 33822019-06
浏览 1
提问于2020-01-18
得票数 0
2
回答
pyspark
:
删除
所有
行
中具有相同值的列
相关问题:然而,上述问题的答案仅适用于熊猫。有没有针对
pyspark
数据
帧
的解决方案?
浏览 1
提问于2018-12-17
得票数 4
2
回答
Pyspark
:通过ID和最近
日期
向后加入2个
数据
帧
、
、
、
在
pyspark
(和一般的python )中执行两个
数据
帧
的滚动连接时,我遇到了很多问题。我希望将两个
pyspark
数据
帧
通过它们的ID和最近
日期
反向连接在一起(这意味着第二个
数据
帧
中的
日期
不能晚于第一个
数据
帧
中的
日期
) Table_2:期望的结果:
浏览 1
提问于2020-08-08
得票数 2
1
回答
如何在
pyspark
中动态
删除
小数并在数字前放置零?
、
、
、
我有一个
pyspark
数据
帧
,我想
删除
.之后的所有内容,我想
删除
.。此外,我想在数字前面放零,这样每个数字的长度就是4。
按
原样:|749.5 | |90.0 | |670.0
浏览 13
提问于2021-02-19
得票数 1
回答已采纳
1
回答
在
pyspark
中减少
数据
帧
最有效的方法是什么?
、
、
我有以下
数据
帧
,第一
行
的两
行
如下所示:['12', 'usa', '22', '12:04:14']我想
按
“法国”前100个站的降序显示平均温度。在
pyspark
中最好(最有效)的方法是什么?
浏览 2
提问于2016-12-17
得票数 10
回答已采纳
10
回答
基于另一个变量保持顺序的collect_list
、
、
我试图使用现有列集上的groupby聚合来在
Pyspark
中创建一个新的列表列。下面提供了一个示例输入
数据
框架:id | date | value1 |2014-1500id | value_list1 | [10, 5, 15, 20]列表中的值
按
日期
排序'],ascendin
浏览 8
提问于2017-10-05
得票数 82
回答已采纳
1
回答
Pyspark
-用pysaprk中的第一个单词替换2个或更多连续单词
、
、
我有一个超过10000
行
的
pyspark
数据
帧
。我想用第一次出现的单词替换连续的单词。我希望这是在
pyspark
中完成的。 这是包含单词列表的
pyspark
表。每个单词列表都与每个
日期
相关。.] | 和更多的
行
。 我想要的结果如下所示,在每一
行
中输入单词,字符串。
浏览 14
提问于2020-10-31
得票数 0
0
回答
Pyskark Dataframe:将
行
中的唯一元素转换为列
、
、
、
、
我有一个
Pyspark
Dataframe,格式如下:| date | query || 2011-08-12 | Query 3 |+------------+---------+import
p
浏览 2
提问于2017-06-07
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券