腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
循环
Pyspark
连接
多个
列
、
、
我想
使用
循环
将这n
列
连接
在一起。我有一个
连接
列
的函数: def concat_(*args): return udf(concat_, ArrayType(type)) 在下面的示例中,我有4
列
,我将像这样
连接
它们: df_auxpatron_t
浏览 0
提问于2018-01-17
得票数 1
回答已采纳
1
回答
使用
索引器和编码器时出现
PySpark
管道错误
、
、
、
、
我正在
使用
bank data from UCI来创建一个项目的模板。我在他们的文档网站上关注了
PySpark
教程(对不起,我再也找不到链接了)。在流水线中运行时,我一直收到错误。
浏览 11
提问于2019-06-14
得票数 3
回答已采纳
1
回答
当同一个数据帧在
pyspark
内部重复时发生堆栈溢出错误。
、
当在
循环
中重复相同的数据时,就会发生堆栈溢出错误。数据量仅为40k记录。在单节点14 is /28 is时,尝试
使用
集群大小。 样本数据。
浏览 8
提问于2022-06-07
得票数 0
1
回答
使用
R或
Pyspark
只
使用
分隔符的
多个
实例拆分一次
、
、
、
用其中一种语言(R或
Pyspark
)解决方案就足够了。BCT_12 [BCT] [12]500_ERP_70 [500] [ERP_70] 目前,我正在计算_的数量,并
使用
for
循环
来拆分所有这些元素,并在第一个实例之后
连接
列
。
浏览 1
提问于2020-09-08
得票数 0
回答已采纳
1
回答
动态填充中的列名
、
、
、
我正在开发一个动态脚本,它可以join任何给定的
pyspark
。问题是文件中的列名会发生变化&
连接
条件的数目可能会有所不同。我可以在一个
循环
中处理这个问题,但是我
使用
一个变量名执行
连接
,它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多
列
)a="existingFile.Id" unChangedRecords = existingFile.join(incrementalFi
浏览 2
提问于2018-02-24
得票数 0
回答已采纳
1
回答
将字典从spark数据帧中的StringType
列
中分离出来
、
、
我有一个spark表,我想在python中读取(我在databricks中
使用
的是python3),实际上结构如下。日志数据存储在单个字符串列中,但它是一个字典。toDF('LogData','State','Orders','OrdDate') 我想要做的是将spark表读取到数据帧中,找到最大事件时间戳,找到具有该时间戳的行,然后计数并仅将这些行读取到具有数据
列
的新数据帧中,并从日志数据中添加事件id (不包括记录索引)、事件日期和记录索引的
列
。不过,我遇到
浏览 39
提问于2020-07-01
得票数 1
回答已采纳
1
回答
在
PySpark
中
连接
多个
列
、
、
、
George 5 uid1 count11 Paul 4(我故意
使用
相同的DataFrame,有不同的名称)>>> cond = (sample3.uid1 == sample4.uid1) & (sample3.count1 == sample4.cou
浏览 5
提问于2015-08-24
得票数 0
2
回答
将列名位于列表中的多
列
连接
在一起。
、
、
、
我试图将
多个
列
连接
到一个
列
,但只有在列名在列表中的情况下。所以问题= {'a','b','c'}是我的列表,需要将它作为问题
列
与;分隔符
连接
起来。 我试过: 1。
浏览 9
提问于2022-12-02
得票数 0
2
回答
PySpark
DataFrame -动态
连接
多个
列
、
、
、
、
seconddf-column3':5}, \现在我想通过
多个
列
(大于1的任何数字)来
连接
它们 我拥有的是第一个DataFrame的
列
的数组和第二个DataFrame的
列
的数组,这些数组具有相同的大小,我希望通过这些数组中指定的
列
进行
浏览 15
提问于2016-09-21
得票数 8
回答已采纳
2
回答
如何使一组
列
在“火花放电”中?
、
、
我试图在一个5k数据集中对包含单词"road“的
列
进行反求。并创建一个新的数据格式。我不知道如何做到这一点,以下是我所做的努力: spike_cols = [col for col in df.columns
浏览 0
提问于2018-07-18
得票数 6
回答已采纳
2
回答
优化大量
列
的不同值
、
、
、
我需要计算大量
列
(>20,000)的不同值。我现在
使用
pyspark
.sql.functions.approxCountDistinct()来获得每个
列
的不同计数的近似值。我有一个
循环
来完成这个任务。distinct_values_list[cname] = df.select(cname).distinct().collect() 它非常慢,因为大多数时候,我有许多
列
要处理,可以是一半的
列
(10K难道没有办法让火花一次做很多
列
吗?似乎它只会并行
浏览 2
提问于2018-05-21
得票数 0
回答已采纳
1
回答
使用
pyspark
连接
数据帧的
多个
列
、
、
假设我有一个
列
的列表,例如: col_list = ['col1','col2']print(df.columns) # ['col1','col2','col3'] 我需要通过
连接
col1和col2来创建一个新
列
。我不想在
连接
时硬编码列名,但需要从列表中选择它。 我该怎么做呢?
浏览 14
提问于2019-02-28
得票数 4
5
回答
如何计算火花放电中groupBy后的唯一ID
、
、
我每年都会
使用
下面的代码来提高学生的年龄。目的是了解每年的学生总数。from
pyspark
.sql.functions import colgr = Df2.groupby(['Year']) df_grouped我想按年增加学生人数,按年计算学生总数,避免重复
使用
ID。
浏览 2
提问于2017-09-26
得票数 62
回答已采纳
1
回答
使用
when语句对
多个
数据帧
列
进行协调
、
、
、
、
我正在尝试
连接
多个
dataframe
列
,我无法在下面的concat_ws语句中执行
pyspark
或expr。from
pyspark
.sql.functions import udffrom
pyspark
.sql.functionsimport concat_ws,concat,when,col,expr from
pyspark
.sql.functions impo
浏览 1
提问于2020-08-30
得票数 0
回答已采纳
1
回答
在
PySpark
DataFrames中,为什么__setitem__没有完全实现?
、
、
、
在
PySpark
中,我们不能
使用
传统的熊猫或R风格的符号来根据DataFrame中的旧
列
来制作新的
列
。例如,假设我试图
连接
两
列
:df['newcol'] = F.concat(df['col_1'], df['col_2'])相反,这样做的实现方法是 df = df.withColumn
浏览 1
提问于2016-07-28
得票数 1
回答已采纳
2
回答
如何强制
PySpark
四舍五入
使用
银行家四舍五入
、
、
我需要
使用
银行家的四舍五入( 0.5四舍五入到最近的偶数)在
PySpark
中舍入一
列
。到目前为止,我尝试过这样的方法: 即使我在Python 3+中运行这个函数,
浏览 7
提问于2022-07-08
得票数 2
回答已采纳
1
回答
Pyspark
:有条件地
连接
带有空格的
列
、
因此,在这个场景中,我们有不一致的B
列
,我的结果表应该如下所示: ColA | ColB | ColC | ColD return df return df 我有这个is_not_unique_col函数,它检查一
列
是否有
多个
值我对我的所有
列
运行它,那些返回True的
列
被
浏览 12
提问于2020-10-07
得票数 0
回答已采纳
1
回答
在udf中获取struct数据类型的字段名。
、
、
、
我试图将
多个
列作为一个udf (
使用
pyspark
.sql.functions.struct())传递给一个StructType。在这个udf中,我希望获得作为list传递的struct
列
的字段,这样我就可以对每一行遍历传递的
列
。 基本上,我正在寻找这个答案- 中提供的scala代码的
pyspark
版本。
浏览 1
提问于2019-09-04
得票数 1
回答已采纳
3
回答
如何在
Pyspark
中
连接
多个
列
?
、
、
、
、
我正在
使用
Spark 1.3,并希望
使用
python接口(SparkSQL)
连接
多个
列
。我首先将它们注册为临时表。Ref.registerTempTable("Ref") 我现在想基于
多个
列
来加入它们
浏览 0
提问于2015-11-17
得票数 72
回答已采纳
2
回答
先读取拼板文件,将新
列
添加到数据帧中
、
、
、
假设有一个包含
多个
列
的dataframe,它看起来像这样(我省略了不必要的
列
):|path中的一些拼花文件,它只有一行,结构如下:|value ||some value |我如何读取这些文件并将一
列
(2020-05-14/bla2bla.parq|bla blah | +----------------------------
浏览 3
提问于2020-05-18
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券