腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
pyspark
复制
组
内
的
值
、
、
我在
pyspark
中有一个类似于这个
的
df。我需要
复制
组
中
的
值
,而不是留下空字符串。| 1|| | 154| 1| +---------------+-----+----+ 我需要像这样
的
输出
浏览 18
提问于2021-10-28
得票数 0
回答已采纳
1
回答
在
pyspark
dataframe中检索最大
值
时遇到问题
、
、
、
、
在我通过
使用
窗口和对一
组
列进行分区来计算
pyspark
dataframe中每行5行
内
的
平均数量之后 from
pyspark
.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试
使用
相同<em
浏览 14
提问于2020-06-19
得票数 0
回答已采纳
2
回答
R-
复制
组
内
的
值
、
、
我有一个数据框,其中我有过去3年(2016,2017,2018)某人得分
的
总分数,但也有列与他们每年
的
积分。我
的
数据帧如下所示: Dates= c("2016", "2017", "2018", "2016", "2017",, 2, NA, NA, 3), Points2018
浏览 0
提问于2018-03-13
得票数 4
5
回答
火花
复制
数据栏- Python/
PySpark
中
的
最佳实践?
、
、
这是用于
使用
Spark2.3.2
的
Python/
PySpark
。我正在寻找最佳实践方法,将一个数据框架
的
列
复制
到另一个数据框架,
使用
PySpark
对一个非常大
的
10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/
复制
。输出数据帧将被写入另一
组
文件中,日期分区。示例模式是:input DFinput (colA,colB,colC)和输出DFoutput (X,
浏览 1
提问于2018-12-19
得票数 5
2
回答
在
PySpark
中提取几个正则匹配
、
、
、
、
我目前正在编写一个regex,我想在
PySpark
Dataframe
的
专栏中运行它。 此正则表达式仅用于捕获一个
组
,但可以返回几个匹配
的
。我遇到
的
问题是,
PySpark
本机regex
的
函数(regexp_extract和regexp_replace)似乎只允许
组
操作(通过$ operand)。有没有一种方法(
PySpark
函数,而不是python
的
re.findall-基于udf)获取与我
的
reg
浏览 4
提问于2019-11-19
得票数 5
回答已采纳
2
回答
使用
pySpark
迭代每一行数据帧
、
、
、
、
我需要
使用
dataframe来迭代
pySpark
,就像我们可以
使用
for循环迭代一
组
值
一样。下面是我写
的
代码。这段代码
的
问题是 from
pyspark
.sql.functions impor
浏览 2
提问于2017-01-30
得票数 3
3
回答
数组对象
内
相同
值
的
组
复制
390 "_id": { "month": 5 "Pending": 1400上面的数组包含相同
的
值
月份和年份我希望将它们合并成一个对象,并保存它们所拥有的任何键和
值
。2017, Pending: 390 month: 5, Pending: 1400 }]
浏览 2
提问于2017-06-11
得票数 0
回答已采纳
1
回答
在
pyspark
数据帧中查找非重叠窗口
、
、
、
假设我有一个以秒为单位
的
id列和时间列(t)
的
pyspark
数据帧。对于每个id,我希望对行进行分组,以便每个
组
都包含在该
组
开始时间之后5秒
内
的
所有条目。|1 |+---+--+---------+-------------+-------+ 我不需要子
组
编号是连续
的
我可以接受在Scala中
使用
自定义UDAF
的</e
浏览 20
提问于2019-07-19
得票数 0
1
回答
在火花放电UDF中
使用
蓄能器
、
、
我想要访问
pyspark
内部
的
累加器:from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.types import StringType return accum.value
浏览 12
提问于2022-08-28
得票数 0
回答已采纳
2
回答
pySpark
: groupBy()有可能每个
组
只有一个节点吗?
、
、
、
、
我用
pySpark
计算每组矩阵。如果Spark将任何给定
组
的
行存储在一个节点上,则计算速度会更快,因此Spark可以在本地计算每个矩阵。恐怕节点间
的
合作需要更长
的
时间。map()和groupBy()通常都能实现这样
的
目标吗?如果可能的话,我应该把它指定为选项吗? 注意:矩阵包括计算每一行与前一行之间
的
距离,在每个(排序)
组
内
。
浏览 2
提问于2016-06-10
得票数 0
回答已采纳
1
回答
根据
组
中
的
其他项为
组
中
的
项分配
值
、
、
、
、
我试图根据输入字符串是否位于
组
中另一个字符串
的
开头为
组
中
的
每一行分配一个
值
。例如,"hello“位于"hello world”
的
开头,因此这两种类型
的
值
都被指定为“在一起”。“再见”没有分配“在一起”
值
,因为它不在
组
中另一个字符串
的
开头。bonjour madame')] spark.createDataFrame(input,['group',
浏览 5
提问于2019-06-25
得票数 0
回答已采纳
1
回答
如何在
PySpark
DataFrame中创建N个重复行?
、
、
2016-07-03 2016-07-10基本上,对于itemid
的
每个唯一
值
,我需要将timestamp放到一个新
的
timestamp_start列中。因此,itemid
组
中
的
每一行都应该重复n时间,其中n是
组
中
的
记录数。希望我能解释清楚。这是我在
PySpark
中
的
初始
PySpark
:
浏览 0
提问于2020-01-09
得票数 0
回答已采纳
7
回答
不替换采样算法?
、
、
一种鲁棒
的
方法是Monte模拟,其中数据和
组
之间
的
关联被随机地重新分配了很多次(例如10,000次),并且
使用
一种聚类
的
度量来比较实际数据和模拟来确定p
值
。问题是:在没有替换
的
情况下,快速采样
的
方法是什么,以便在
复制
数据集中随机重新分配每个指针?例如(这些数据只是一个简化
的
例子): 数据(n=12
值
)-A
组
: 0.1、0.2、0.4 /B
组
: 0.5、
浏览 9
提问于2008-11-22
得票数 15
回答已采纳
1
回答
如何在
使用
spark ml时以另一种方式索引分类特征
、
火花指数中
的
VectorIndexer根据变量
的
频率来分类特征。但我想用另一种方式对分类特征进行索引。例如,对于下面的数据集,"a“、"b”、"c“将被索引为0、1、2,如果我在spark中
使用
VectorIndexer。但是我想根据标签给它们做索引。是否有任何可行
的
方法来实现这一点?
浏览 4
提问于2016-10-26
得票数 3
回答已采纳
1
回答
如何
使用
PySpark
执行嵌套
的
for-each循环
、
、
假设有一个大型数据集(>40 of
的
拼图文件),其中包含数千个变量
的
值
观察,如三元
组
(变量、时间戳、
值
)。 现在想想一个查询,您只对500个变量
的
子集感兴趣。您希望检索特定时间点(观察窗口或时间框架)
的
这些变量
的
观测
值
(
值
->时间序列)。有开始和结束
的
时间。:如何
使用
火花/
PySpark
?其中,dataframe 1包含事件1和datafra
浏览 2
提问于2016-08-25
得票数 6
回答已采纳
1
回答
聚合为三个最大
值
的
总和,按火花放电计
、
我有一个按'id‘和’type‘分组
的
dataframe:| id|type|count|| 0| A| 2|| 1| C| 1|| 1| G| 2|现在我想按'id‘进行分组,得到3个最大
值
的
总和
浏览 0
提问于2018-10-24
得票数 0
2
回答
SQL:将时间戳与纯时间参数匹配为
组
,并在多天内计数唯一
的
时间。
、
、
、
、
使用
SQL或
Pyspark
,我希望在两个月
的
时间范围
内
计算时间戳中
的
唯一次数。我希望看到记录到表
的
行
的
频率
的
分布情况。这是因为我知道有很大比例
的
时间戳
的
时间是00:00:00,但我想知道与其他时间相比,时间戳
的
比例有多大。 这个查询
组
和计数最常见
的
日期时间,但我需要排除日期,并且只有时间。显然,这不是一件很平常
的
事。from table_name
浏览 5
提问于2021-05-17
得票数 0
回答已采纳
2
回答
PySpark
:根据不同列中某个
值
的
最后一次出现情况填充列
、
、
使用
PySpark
,我正在寻找一种根据列Status中
的
值
填充列Code
的
方法。df按ID列排序。 唯一有意义
的
Code
值
是A (Good), B (Bad), C (Neutral)。当这些
值
中
的
一个出现时,我希望每一行都有相同
的
Status
值
,直到出现任何其他重要
的
Code
值
。这是所需
的
带有新添加
的
Status列
的<
浏览 25
提问于2019-05-13
得票数 1
回答已采纳
2
回答
PySpark
-结构
内
的
求和
值
、
、
nullable = true) |-- DataColumn3: string (nullable = true) 我
的
目标是创建一个新
的
列,称为“DataColumn4”,它是在‘DataColumn4 1’中
的
结构'colB‘中所有字段’字段A‘、' fieldB’和'fieldC‘(fieldA +fieldB+ fieldC)
的
总和在“colB”中可能有N个字段,所以我如何在不通过DataColu
浏览 8
提问于2022-08-27
得票数 1
回答已采纳
5
回答
火花放电中柱
的
比较
、
、
我正在开发一个包含n列
的
PySpark
DataFrame。我有一
组
m列(m < n),我
的
任务是选择其中包含最大
值
的
列。例如:col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释
的
那样,熊猫身上也有类似的东西。在
PySpark</e
浏览 7
提问于2016-06-07
得票数 29
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
mapInfo的基本使用18-如何批量复制范围内的站点信息
Windows和PC机上搭建Spark+Python开发环境的详细步骤
一文读懂PySpark数据框
一文读懂 PySpark 数据框
半小时搭建 spark 应用
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券