腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
连接
可变
列
数
的
函数
、
、
、
我想做一个
函数
,在这个
函数
中,我会告诉你,我想要加入多少列。如果我有3
列
的
dataFrame,并给出一个参数"number_of_columns=3",那么它将
连接
列
: 0,1,2。但如果我有7
列
的
dataFrame,并给出参数"number_of_columns=7",那么它将
连接
列
: 0,1,2,3,4,5,6。
列
的
名称总是相同
的
浏览 12
提问于2021-04-01
得票数 2
回答已采纳
1
回答
如何在
Pyspark
中以编程方式解析固定宽度
的
文本文件?
、
、
这篇文章很好地展示了如何使用
pyspark
()将固定宽度
的
文本文件解析成Spark数据帧。 我有几个要解析
的
文本文件,但每个文件
的
模式都略有不同。而不是像上一篇文章所建议
的
那样,为每个文件编写相同
的
过程,我想编写一个通用
函数
,它可以解析给定宽度和列名
的
固定宽度文本文件。我是
pyspark
的
新手,所以我不确定如何编写
列
数
和类型
可变
的
select语
浏览 0
提问于2017-09-08
得票数 2
1
回答
PySpark
中
可变
列
数
之和
、
、
、
我有一个像这样
的
星火DataFrame:| Type|Criteria|Value#1Value#2', 'Value#3', 'Value#4', 'Value#5']df.show() 我
的
任务是添加“总计”
列
,它是所有值
列
的</
浏览 0
提问于2018-08-07
得票数 2
回答已采纳
1
回答
有没有办法使用CONCAT(table_name(col1,col2,col3,.))
连接
可变
数量
的
列
?用红移吗?
、
、
、
我正在使用python脚本执行sql查询,该脚本传递一个具有
可变
列
数
的
参数,并基于这些
列
与另一个表进行
连接
。有没有一种方法可以
连接
可变
数量
的
列
?我
的
问题是 DELETE FROM INPUT_SCHEMA.INPUT_TABLE A where and A.
浏览 14
提问于2019-01-18
得票数 1
1
回答
PySpark
动态
连接
条件
、
、
、
我有PK
列
的
列表。我在存储主键,因为每个表
的
主键
数
可能会发生变化。我想根据pk_list中
的
列
连接
两个数据帧。现在,我
的
代码如下所示: full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s/yarn/use
浏览 0
提问于2018-12-07
得票数 2
1
回答
Pyspark
:如何将行分组为N个组?
我在
pyspark
脚本中执行df.groupBy().apply(),并希望创建一个自定义
列
,该
列
将我
的
所有行分组到N(尽可能均匀,所以行/n)组中。这就是为什么我可以确保每次脚本运行时发送到我
的
udf
函数
的
组
数
。 我如何使用
pyspark
来做这件事?
浏览 32
提问于2020-07-21
得票数 0
回答已采纳
1
回答
如何在r中为单独
的
函数
生成给定数量
的
列
?
、
、
、
我使用separate
函数
来处理
可变
大小
的
文本。 在separate
函数
中,需要详细说明文本被分隔
的
新
列
的
名称。然而,在我
的
例子中,文本
的
长度是
可变
的
。我想需要
的
列
数
是自动生成
的
。例如,我只是通过计算用于键分隔
的
字符
数
(在我
的
例子中是,)来计算所需
的
浏览 13
提问于2019-04-29
得票数 0
回答已采纳
1
回答
'DataFrame‘对象不支持项分配
、
、
、
、
我将df作为一个
pyspark
.sql.dataframe.DataFrame导入到Databricks中。在这个df中,我有3
列
(我已经证实它们是字符串),我希望将它们
连接
起来。我试过先使用一个简单
的
"+“
函数
。因此,我试图在每一
列
后面添加.astype(str),但没有结果。最后,我尝试简单地添加另一
列
,其中满是数字5:也收到了同样
的
错误。所以现在我在想,也许这个数据是不
可
浏览 1
提问于2022-12-02
得票数 0
2
回答
如何将
PySpark
数据帧中
的
每个非字符串列与浮点型常量相除或相乘?
、
、
、
、
我
的
输入数据框如下所示spark = SparkSession.builder.appName("Basics").getOrCreate
浏览 0
提问于2017-06-29
得票数 5
回答已采纳
1
回答
将数据插入单个
列
,但在
连接
几列数据后以字典格式插入
、
、
、
、
我希望在将单个
列
中
的
列
数
连在一起之后创建一个
列
,但使用
PySpark
格式
的
字典格式。
浏览 12
提问于2022-06-29
得票数 -1
回答已采纳
6
回答
如何在
PySpark
中找到DataFrame
的
大小或形状?
、
、
我正在尝试在
PySpark
中找出DataFrame
的
大小/形状。我看不到有一个
函数
可以做到这一点。data.shape()row_number = data.count()
列
数
的
计算并不理想……
浏览 482
提问于2016-09-23
得票数 118
1
回答
如何使用
pyspark
的
connectedComponents获取图节点列表
、
、
、
我正在用Python学习
PySpark
。如果我使用下面的代码从我
的
图形中获取组件,那么就会使用组件(随机
数
)向我
的
GraphDataFrame中添加一
列
。但我很好奇,是否有可能得到一个
连接
节点
的
列表? g.connectedComponents()
浏览 6
提问于2022-04-09
得票数 1
1
回答
创建一个新
列
,详细说明一个
PySpark
数据row中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要创建一个
函数
,该
函数
从
PySpark
中
的
左联接创建一个新
列
,详细说明一个
列
中
的
值是否匹配或不匹配另一个dataframe逐行
的
列
。例如,我们有一个
PySpark
dataframe (d1)具有
列
ID和名称,另一个
PySpark
dataframe (d2)具有相同
的
列
- ID和Name。我试图创建一个
连接
这两个表
浏览 3
提问于2021-12-11
得票数 0
4
回答
Pyspark
:有没有等同于pandas info()
的
方法?
、
、
、
在
PySpark
中是否有与pandas info()方法等效
的
方法?我正在尝试获取有关
PySpark
中数据帧
的
基本统计信息,例如:
列
数
和行数、空值
数
、数据帧大小 pandas中
的
Info()方法提供了所有这些统计信息。
浏览 4
提问于2017-06-08
得票数 6
2
回答
SQL -如何克隆我
的
行,只更改一个字段?
、
、
、
、
我使用
的
SQL与
pyspark
和hive一起使用,而且我对所有这些都很陌生。我手上有个问题,我不知道怎么解决。如果我有一张“人”
的
桌子,像这样:1 | Alice | Sarah;Tom"other_names“
列
中
的
名称
数
是
可变
的
。| Tom2
浏览 6
提问于2020-03-26
得票数 2
回答已采纳
1
回答
如何使用
pySpark
将items行中
的
数组
列
单元格转换为计数?
、
、
、
我有一个在一
列
中有多个值
的
数据集,并且我想计算每个值在数据集
的
所有行中出现
的
次数。+ 1 ++ val3 + 2 ++---------+-------+ 代码在
pySpark
中 我使用了split
函数
来获取一个值数组。我有一个包含数组
列
的
数据集,但我不知道如何正确使用它。 我寻找了许多可以帮助我
的
示例和
函数</e
浏览 15
提问于2019-10-06
得票数 0
回答已采纳
1
回答
按日期将吡火花数据集拆分为两个
、
、
我有
pyspark
数据集,我想按照datetime
列
将其划分为列车和测试数据集,其中,训练数据集
的
日期时间应该小于日期时间
列
的
中位数,而测试数据集应该有其余
的
数据集。我尝试按datetime
列
对dataset进行排序,并选择上半部分。但是这只解决了火车部件
的
问题,我不知道如何从
PySpark
中
的
初始数据集中“减除”训练数据集。如果
PySpark
与Pandas ()
函数
有某种相似之处
浏览 0
提问于2019-08-21
得票数 0
回答已采纳
2
回答
DataFrame中元组作为数据
的
元组导致AttributeError:' Tuple‘对象没有属性'encode’
、
、
、
、
spark.createDataFrame(([x[0],*x[1]] for x in sdata), schema=columns) AttributeError:'tuple‘对象没有属性'encode’ 如何加载此
可变
长度数据
浏览 8
提问于2022-12-03
得票数 0
回答已采纳
1
回答
pySpark
DataFrame:如何并行比较两个数据帧
的
列
?
、
、
、
我有两个DataFrames,我想对这两个DataFrame
的
每一
列
应用distance.euclidean(df1.select(col),df2.select(col))。示例: from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.typesrdd.flatMap(lambda x:x).collect(), df2.select(col).rdd.flatMap(la
浏览 9
提问于2020-07-11
得票数 0
2
回答
PySpark
:范围内
的
随机
数
(基于一
列
)
、
、
、
、
我正在尝试生成一个
列
,每一行都有一个随机
数
,但是这个数字必须在已经存在
的
列
和-1之间。A -15 -3 C -13 -6random_mon
浏览 21
提问于2022-01-21
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券