腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
列
表列
创建
组合
的
Pyspark
数据
框架
、
、
、
、
我目前有一个
pyspark
数据
帧,如下所示: +--------------------++--------------------+| [1, 5, 7]|| ...| 我
的
目标是转换这个
数据
帧(或
创建
一个新
的
数据
帧),以便新
数据
是表中项
的
两个长度
浏览 12
提问于2021-02-09
得票数 1
回答已采纳
10
回答
基于另一个变量保持顺序
的
collect_list
、
、
我试图使用现有
列
集上
的
groupby聚合来在
Pyspark
中
创建
一个新
的
列
表列
。下面提供了一个示例输入
数据
框架
:id | date | value1 |2014-我尝试使用collect_list,如下所示:ordered_df = in
浏览 8
提问于2017-10-05
得票数 82
回答已采纳
2
回答
选定
列
中值
的
唯一
组合
计数
、
、
、
、
我有一个
PySpark
数据
框架
,如下所示:id A B C id1 on offon on on id1 on on off我正在寻找一种方法,以找到所有独特
的
组合
,为选定
的
列
,并显示他们
的
计数。on
浏览 3
提问于2022-06-28
得票数 2
3
回答
将多
列
数据
合并为分散在行中
的
单个
列
。
、
、
我有一个具有多个
列
的
pyspark
数据
框架
如下所示:A 1 6 7D 4 9 4我希望通过将col1、col2、col3
的
列名和
列
值
组合
成两个新
的
列
,例如new_
浏览 5
提问于2020-02-06
得票数 2
回答已采纳
1
回答
如何
从
pyspark
中
的
列
创建
列
表列
我有下面的
pyspark
数据
文件:foo = pd.DataFrame({'id': ['a','a','a','a', 'b','b','b','b'],a| 4| 2|| b| 2| 2|| b| 5| 2|我希望每个i
浏览 1
提问于2022-05-16
得票数 0
回答已采纳
1
回答
如何
使用
Pyspark
的
模式
从
Pyspark
数据
帧
创建
hive表?
、
我已经使用以下代码
创建
了
数据
框: import
pyspark
spark =
pyspark
.sql.SparkSession(sc) data = [('A', 'B', 1), ('A', 'B', 2), ('A
浏览 12
提问于2020-06-15
得票数 0
1
回答
将列有条件地添加到
数据
帧中
、
、
、
、
我在
PySpark
中有一个
数据
帧。我想有条件地在
数据
框架
中添加一
列
。 如果
数据
帧没有
列
,那么添加一个带有null值
的
列
。如果
列
存在,则不执行任何操作,并返回与新
数据
帧相同
的
数据
帧。
如何
在
PySpark
中传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
2
回答
用字符串类型
创建
测试
数据
、
、
、
、
我正在尝试用Int
创建
一个
列
和一个字符串类型
的
列
来
创建
测试
数据
框架
。输出与下面类似。我想我们可以用output = dataset.withColumnRenamed('id','myid')预期产出: id.
浏览 6
提问于2021-02-23
得票数 0
回答已采纳
2
回答
是否有一种方法可以将类型字典
的
列
添加到火花放电中
的
星体
数据
?
、
、
这就是我
如何
在
pyspark
中
创建
具有原始
数据
类型
的
数据
for i in range(3)]现在,如果我想有第三
列
的
字典
数据
我想要<e
浏览 2
提问于2020-05-31
得票数 5
回答已采纳
2
回答
Pyspark
+Azure突触-需要将
数据
合并成带有增量表
的
蔚蓝突触
、
我有一个
数据
帧和synapse表,需要将
数据
帧合并成一个带有增量位置
的
synapse表。我跟踪了不同
的
文档,但仍然无法在突触中合并。 你能帮我做这个吗?
浏览 3
提问于2022-10-11
得票数 0
回答已采纳
1
回答
如何
连接s3文件而不访问密钥详细信息
、
、
、
我们有一台unix机器,可以直接访问我们
的
s3桶。我们能够
从
unix机器上运行所有cli命令,比如"aws s3 ls“。现在,我们需要从那里读取一个文件,并使用
pyspark
创建
一个星火
数据
框架
。因此,现在需要对unix框进行ssh连接,并读取该文件并
创建
星火
数据
框架
。 有没有人能帮助我们
如何
访问s3而不用使用
pyspark
访问关键细节。
浏览 2
提问于2022-10-19
得票数 0
2
回答
火花放电中
的
扁平群
、
、
我有一张火花放电
数据
。--+| B| 2|| D| 3|| D| 3|我想按Col1分组,然后
创建
一个Col2
列
表。
浏览 0
提问于2018-02-05
得票数 2
回答已采纳
1
回答
使用
Pyspark
从
数组中读取JSON项?
、
、
、
我在从databricks中
的
Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为字符串值,并将
数据
从
JSON中读取到
列
中。我有一个名为ProductRanges
的
列
,其中一行包含以下值: [ { "min": 0, "max": 99,当导入
数据
时,dataframe中
的
<em
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
2
回答
PySpark
DataFrame中元素
的
计数
、
、
、
我读过它,使用
pyspark
并
创建
了一个
数据
框架
df。sub1,sub2,sub3b,b,a
如何
获得
数据
帧df中每
列
中‘a’
的
计数?
浏览 2
提问于2019-10-07
得票数 1
回答已采纳
1
回答
如何
从
每个
列
创建
组合
数据
框架
?
、
、
、
、
我正在尝试将从两个
数据
帧连接到单个
数据
帧
的
相同
列
值连接起来。102| 5rfg因此,现在我试图连接相同
列
的
值,并
创建
单个
数据
帧。. can only zip RDD with same number of elements in each partition 我在循环-renamed_df.sho
浏览 8
提问于2022-05-15
得票数 -1
1
回答
列
表列
在R语言中是一个概念吗?
列
表列
数据
结构是否是R语言中
的
一个概念? 列
表列
在
数据
帧
的
定义中是隐式
的
:
数据
帧是等长向量
的
命名列表。列表是向量,所以使用列表作为
数据
框架
的
列
是合法
的</em
浏览 2
提问于2020-06-03
得票数 0
2
回答
检查给定列表中
的
元素是否出现在DataFrame
的
数组
列
中
、
、
、
、
我有以下在熊猫
数据
帧上工作
的
函数 def event_list(df,steps): return df DataFrame有一个名为labels
的
列
,值为list。此函数接受dataframe和Steps (这是一个列表),如果参数列表中
的
所有元素都存在于dataframe
浏览 136
提问于2021-04-02
得票数 1
回答已采纳
1
回答
pyspark
将数组转换为循环中
的
字符串
、
、
、
我有一个心理公园
数据
框架
,它有字符串,整型和数组类型
的
列
。我尝试对所有
列
运行for循环,以检查它们是否为任何数组类型
的
列
,并将其转换为字符串。然后,
pyspark
数据
框中
的
输出应该包含int、string
列
。 下面的代码将只返回
从
数组转换为字符串
的
列
。
如何
包含else语句以
从
dataframe中获取不是数组类型
浏览 20
提问于2021-04-11
得票数 0
回答已采纳
1
回答
如何
在postgres驱动程序中使用nextval()?
、
、
、
、
PySpark
应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将
数据
插入到"mytable“中。我使用以下方法
创建
id
列
:Postgres将该
列
解释为“变化
的
字符”。我可以看到,在读取
数据
()时可以调用Postgres方法,但我不确定
如
浏览 0
提问于2018-01-21
得票数 2
回答已采纳
1
回答
PySpark
-将DF
列
组合
为命名StructType
、
、
、
我希望将一个
PySpark
数据
帧
的
多个
列
组合
到StructType
的
一个
列
中。假设我有这样一个
数据
框架
:vals = [(1, 2, 0),(2, 0, 1)]我希望生成
的
数据
<
浏览 0
提问于2018-08-14
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券