腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
分解
列表
使用
列表
中
的
索引
创建
列
、
、
所以我有一个关于
pyspark
的
问题。+---+------------++---+------------++---+------------+ 我想把它
分解
成多行,并保存关于
列表
中
每个元素在单独
列
中
的
位置
的
信息。,我想把它
分解
成多行,并保存
列表
中
每个元素在单独
列
中
浏览 21
提问于2021-09-13
得票数 1
回答已采纳
2
回答
PySpark
-拆分所有
列
中
的
数组并合并为行
、
在
PySpark
中有没有一种方法可以同时
分解
所有
列
中
的
数组/
列表
,并将
分解
后
的
数据分别合并/压缩到行
中
? 根据其他因素,
列
数可以是动态
的
。
浏览 17
提问于2018-02-27
得票数 1
回答已采纳
2
回答
我们可以拥有一个具有很多属性(比如30个)
的
模型,同时避免爆炸性
的
索引
陷阱吗?
、
我在想,也许可以让index.yaml只指定某些
索引
(而不是GAE自动为您指定
的
所有可能
的
索引
)。如果这不是一个好主意,那么除了将额外
的
属性作为blob属性
中
的
序列化对象存储之外,还有什么方法可以存储大量属性呢?
浏览 0
提问于2012-01-17
得票数 0
回答已采纳
1
回答
在dataframe
列
中
存储为
列表
的
向量
的
Seaborn回归线图
、
、
、
、
我有一个dataframe,其中一
列
是16个元素
的
向量(存储为
列表
)。在过去,我发现seaborn
的
lineplot对于标量列上
的
回归分析非常有用。向量
列
让我左右为难。如果我向fmri添加另一个
列
signal2 fmri['signal2'] = '[1,2,3,4,5,6]' (这仅用于表示目的) 在我拥有的数据集中,数据集
的
一
列
中有16个浮点数
的
列表
。我
浏览 21
提问于2021-03-18
得票数 1
回答已采纳
1
回答
从星星之火数据
中
的
列表
中提取值,而不转换为熊猫
、
、
我有一个火花数据框架,如下所示:每行包含一个
列表
,我想从中提取一个元素。我非常绿色
的
火花,所以我把它转换成一个熊猫DataFrame,然后
使用
地图功能,我提取所需
的
元素。问题是,数据是巨大
的
,因此这种方法是不可扩展
的
。让我花时间
的
是toPandas()命令。是否有从每一行访问
列表
中
的
值
的
选项? 谢谢!
浏览 5
提问于2021-12-09
得票数 1
回答已采纳
2
回答
如何在
pyspark
中
通过列名映射值
、
、
、
、
|#|key2 |value3 |#+-------+----------+ 在HiveQL
中
,lateral view explode(map( 'key2', key2) tab as key, value 而是如何在
pyspark
我可以
使用
createtemptable,但我认为这不是最好
的
解决方案
浏览 20
提问于2019-12-26
得票数 1
回答已采纳
1
回答
Pyspark
将数组
列
分解
为带滑动窗口
的
子
列表
、
、
、
我在
PySpark
中有一个行,我想在给定一个
列
中
的
一个值
的
情况下将其分成几个较小
的
行。+------------++---+------------++---+------------+ 我想用一个固定大小
的
滑动窗口将每一行
分解
成多个存留物0, 1]| 2|| 2|[2, 3]| 4| | 2|[3, 4]|
浏览 44
提问于2021-08-16
得票数 1
回答已采纳
3
回答
Pyspark
:将多个数组
列
拆分为行
、
、
、
、
其中一些
列
是单个值,其他
列
是
列表
。所有
列表
列
的
长度都相同。我希望将每个
列表
列拆分为单独
的
行,同时保持任何非
列表
列
的
原样。示例DF:from
pyspark
.sql import SQLContext from
pyspark
.sql.functions import explodeexplode操作,最终得到
的
数据
浏览 2
提问于2016-12-08
得票数 78
回答已采纳
1
回答
具有
列表
数据类型
的
列
: Spark HiveContext
、
、
下面的代码聚合并
创建
一个数据类型为list
的
列
: "column_name_1" expr("collect_list(column_name_2) " ) 因此,似乎可以将“list”作为dataframe
中
的
列
数据类型。我想知道我是否可以写一
浏览 2
提问于2016-07-15
得票数 0
2
回答
从
PySpark
DataFrame
列
中
删除元素
我知道
PySpark
DataFrames是不可变
的
,所以我想
创建
一个新
列
,该
列
是根据应用到
PySpark
DataFrame
的
现有
列
的
转换生成
的
。我
的
数据太大了,无法
使用
collect()。该
列
是唯一int
列表
(在给定
列表
中
不重复int),例如:[1,2][2,3] 上面是一个玩具
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
1
回答
如何根据日期从单行数据帧
创建
包含2行
的
数据帧
、
我有一个包含一行和两个日期字段
的
dataframe,分别为createddate和enddate 如何根据这两个日期字段获得包含2行
的
新数据帧 我已经有了一个数据帧,它看起来像 +----------enddateabcdsdfdlsjdlfkdjfld 2017-12-01 null 基本上,我
的
第一行应该来自createddate
列
,第二行应该来自结束日期
的
下一个日期。我还想填充enddat
浏览 7
提问于2019-10-18
得票数 0
1
回答
Scala - MaxBins错误-决策树-范畴变量
、
、
、
categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性
中
的
值数目一样大考虑删除具有大量值
的
此功能和其他分类功能,或添加更多
的
培训示例。31,我尝试过maxBins = 32 (根据这些帖子
中
的
答案)。就像试用n错误一样,我尝试了所有的值集,如2、3、10、15、50、10000,请参见相同
的
错
浏览 1
提问于2017-11-20
得票数 0
1
回答
为嵌套
的
Pyspark
对象
创建
模式
、
、
我正在尝试
创建
一些样本数据框来对一些函数进行测试,我经常获得带有嵌套对象(数组或更多
的
JSON对象)
的
JSON对象,我需要测试不同类型
的
对象,即Struct和Array,并根据它们
的
类型将它们传递给正确
的
函数以
创建
表格数据帧这些对象来自API,一些是内部
的
,一些是外部
的
,所以我受应用程序开发人员
的
摆布。让我们假设我想
创建
一个表来进行测试,如下所示: +----+------+------------
浏览 15
提问于2021-02-23
得票数 0
回答已采纳
2
回答
从
pyspark
: ValueError
中
的
列表
中
创建
数据
、
、
、
我正在尝试将一个
列表
转换成一个数据
列表
,这样我就可以将它作为一个
列
加入到一个更大
的
dataframe
中
。
列表
中
的
数据是随机生成
的
名称,如下所示:from
pyspark
.sql.functions import *from
pyspark
.sql.types imp
浏览 2
提问于2021-11-24
得票数 1
回答已采纳
2
回答
如何按
索引
重命名
PySpark
数据栏?(处理重复
的
列名)
、
、
、
我有一个问题,我需要动态更新星火数据
中
的
列
。def dup_cols(df): for x, xcol in enumerate(df.columnsdf = df.withColumnsR
浏览 0
提问于2018-12-13
得票数 5
回答已采纳
1
回答
从火花数据中选择或删除重复列
、
、
、
给定一个星星之火数据,有一个重复
的
列名(例如。( A)对于不能修改上游或源
的
,如何选择、删除或重命名其中
的
一个
列
,以便检索
列
值?df.select('A')向我显示了一个不明确
的
列
错误,filter、drop和withColumnRenamed也是如此。如何选择其中一
列
?
浏览 0
提问于2018-09-06
得票数 2
1
回答
动态汇总和重命名
PySpark
中
的
聚合
列
、
、
、
、
我有一个
PySpark
数据帧(Df),其中包含50+
列
,其中包含一些动态
列
,这些
列
可能存在也可能不存在,但它们存在于一个单独
的
列表
(Reqd_col)
中
。我想对
列表
(Reqd_col)
中
存在
的
PySpark
data frame(df)
中
的
那些
列
进行汇总(按固定
列
‘region’分组)和汇总总和或计数,汇总
列
<
浏览 24
提问于2021-09-08
得票数 0
1
回答
Python to
Pyspark
函数UDF如何输出
列表
列表
、
、
、
、
我在Python语言中有一个函数(有许多不同
的
函数,但情况相同),我正在将它转换为
PySpark
,然而,这个函数有一个不同整数类型
的
列表
作为输入,有一个输出是一个
列表
,其中包含n个整数类型
的
列表
,举个例子
pyspark
.sql.functions import udffrom
pyspark
.sql import functions as Fmy_functi
浏览 55
提问于2021-09-19
得票数 0
1
回答
如何重命名所有
列
,在
pyspark
中
创建
dataframe之后,如何根据模式/从csv文件
中
读取数据类型来转换数据类型
、
在
pyspark
中
创建
示例数据 from
pyspark
.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0TypeError:字段
浏览 1
提问于2020-05-04
得票数 0
回答已采纳
2
回答
将
列
中
的
不同值拆分为多个
列
、
、
我想要
创建
一个DataFrame,它将电影
的
类型
分解
为单独
的
列
,对于属于这种类型
的
电影,每个单独
的
类型
列
的
值为1。对于这个 我正在
使用
Databricks
PySpark
。非常感谢!
浏览 4
提问于2022-01-27
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券