腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
将
数组
类型
的
列
拆
分成
多
列
、
在对数据集运行
pyspark
中
的
ALS算法后,我遇到了一个最终
的
数据帧,如下所示 ? 推荐
的
列
是
数组
类型
,现在我想拆分这一
列
,我
的
最终数据帧应该如下所示 ? 谁能建议我,哪个
pyspark
函数可以用来形成这个数据帧?数据帧
的
模式 root |-- recommendation: array (nullabl
浏览 61
提问于2021-07-11
得票数 0
回答已采纳
1
回答
将
PySpark
数据帧读取到包含VectorUDT
列
的
Pandas中时出现问题
、
、
、
、
我有一个
PySpark
表,其中
的
许多
列
都是VectorUDT
类型
的
。这些
列
是使用
PySpark
中
的
OneHotEstimator函数创建
的
。我可以
将
这个表写到拼图文件中,但是当我尝试使用PyArrow
将
这个表读回到Pandas时,我得到了这个异常: ArrowNotImplementedError: Currently only nesting我不希望
将
每个VectorUDT<em
浏览 18
提问于2019-06-10
得票数 0
2
回答
PySpark
-根据
列
的
类型
将
列
分成
行
、
、
、
0.6| 12.41| false|byebye_world|我想使用输入Dataframe
的
类型
将
这些
列
分解为一个名为"col_value“
的
行。但是,当我试图在爆炸中使用cols时,它给
类型
带来了一个错误:
pyspark
.sql.utils.AnalysisException: "cannot resolve 'array(`i
浏览 9
提问于2020-04-07
得票数 0
回答已采纳
2
回答
使用
PySpark
将
数组
值
分成
多个
列
、
、
、
我是个新手,我想爆炸
数组
值,使每个值都分配给一个新
列
。我试着用but,但我无法得到想要
的
输出。下面是我
的
输出 这是密码from
pyspark
.sql.functions import explode if __
浏览 3
提问于2020-09-26
得票数 0
回答已采纳
1
回答
pyspark
将
数组
转换为循环中
的
字符串
、
、
、
我有一个心理公园数据框架,它有字符串,整型和
数组
类型
的
列
。我尝试对所有
列
运行for循环,以检查它们是否为任何
数组
类型
的
列
,并将其转换为字符串。然后,
pyspark
数据框中
的
输出应该包含int、string
列
。 下面的代码
将
只返回从
数组
转换为字符串
的
列
。如何包含else语句以从dataframe中获取不是
浏览 20
提问于2021-04-11
得票数 0
回答已采纳
2
回答
用电火花改变多
列
的
DataType
、
、
我正试图用
pyspark
更改
多
列
(100
列
)
的
数据
类型
,我试图创建一个循环或其他可以帮助更改100
列
(任何帮助)
的
内容,将不胜感激。这是帮助我更改3
列
的
语法: IntegerTypedfcontract2 = dfcontract \ .withColumn
浏览 12
提问于2022-07-19
得票数 0
回答已采纳
1
回答
如何在下面的代码中传递
数组
(
多
列
)
、
、
、
如何传递
数组
列表(
多
列
),而不是使用以下命令在
pyspark
中传递单个
列
:eg:-filter_list = ['##', '$'] new_df = new_df.filter(new_df.color.isin(*filter_list) == F
浏览 0
提问于2017-11-27
得票数 0
回答已采纳
1
回答
将
标记字符串转换为二进制向量
pyspark
、
我有如下所示
的
数据: | Id | ----Tags---- | some_text || 1 | <a><c> ||| 1 | 1 | 0 | 1 | ex2 | | 2 | 0 | 1 | 1 | ex3 | 我想使用
pyspark
浏览 17
提问于2019-09-19
得票数 0
回答已采纳
1
回答
当使用
PySpark
在CSV中读取时,是否可以覆盖一种
列
类型
?
、
、
我试图使用
PySpark
读取包含
多
列
的
CSV文件。inferschema选项非常适合推断大多数列
的
数据
类型
。如果我只想覆盖被错误推断
的
列
类型
之一,那么最好
的
方法是什么?我可以使用这段代码,但它使
PySpark
只导入了模式中指定
的
一个
列
,这是我不想要
的
。.option('inferschema', 'true'
浏览 1
提问于2021-08-27
得票数 2
回答已采纳
1
回答
AWS
pySpark
:
将
字符串列拆分为新
的
整数
数组
列
、
、
、
我试图使用Glue和
pySpark
在AWS上执行ETL工作,但不幸
的
是,我对此非常陌生。 在大多数情况下,我没有任何问题,使用胶水动态数据,以执行应用程序和一些其他
的
转换,我必须执行。但是,我面临一个特定
列
的
问题,必须将其从字符串转换为整数
数组
。在这个
列
value中,我们
将
数据
类型
设置为string,它实际上是一个转换为string并由空格分隔
的
整数
数组
,例如,value
列
中<em
浏览 5
提问于2020-04-20
得票数 2
回答已采纳
1
回答
如何在
pyspark
中解压list
类型
的
列
、
、
、
我在
pyspark
中有一个dataframe,df有一个
数组
字符串
类型
的
列
,所以我需要生成一个包含列表头部
的
新
列
,还需要包含尾列表连接
的
其他
列
。这是我
的
原始数据帧:
pyspark
> df.show()| id| lst_col|| 1|[a, b, c,d]|
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
1
回答
用标量乘
PySpark
数组
列
、
、
、
我试图用标量乘以
数组
类型
化
的
列
。这个标量也是来自同一个
PySpark
数据
的
值。"l","factor"])| l|factor||[1, 2]| 3|我想要做到
的
是:| l|factor||[3, 6]| 3| +------+--
浏览 1
提问于2020-06-19
得票数 3
回答已采纳
2
回答
如何从其他
列
创建列作为
数组
(被不兼容
的
类型
卡住)?
、
180238423 901 10/1/18user_id subscription_id expires_at Array_Col[938, 11/1/18] 0238423
浏览 16
提问于2018-12-14
得票数 1
回答已采纳
2
回答
Apache :无法
将
分组数据保存为CSV
、
、
、
我想做一件简单
的
事。我想把所有的事件统计成2分钟
的
时间戳。File "/usr/hdp/current/spark2-client/python/
pyspark
answer, self.gateway_client, self.target_id, self.name) File "/usr
浏览 1
提问于2018-05-15
得票数 1
回答已采纳
2
回答
将
单元
数组
分成
多
列
MATLAB
、
、
我有一个单元格
数组
,只有一
列
。每行只包含一
列
。每个单元格由一个字符串组成。如何通过按空格分隔字符串,
将
单元格
数组
中一
列
的
内容
分成
几列。每个字符串都有不同
的
长度。
浏览 3
提问于2017-07-25
得票数 1
回答已采纳
2
回答
根据
数组
列
值
将
数组
拆分为大小不等
的
较小
数组
、
、
我对MatLab是个新手,这个问题真的让我抓狂:I.我需要将
数组
分成
由空间
列
定义
的
更小
的
部分;假设空间坐标的范围是从0到500 -我现在想要给出空间坐标0-10
的
两个
列
值
的
<
浏览 2
提问于2014-11-07
得票数 0
2
回答
如何在
PySpark
中将向量
类型
的
列
转换为
数组
/字符串
类型
?
、
、
、
考虑以下
pyspark
中
的
dataframe:| Col A|| [0.5, 0.6]| | [1.1, 1.5]| A
列
的
类型
是向量,如何创建一个值为A
列
但
类型
为
数组
或字符串
的</
浏览 1
提问于2020-03-04
得票数 1
1
回答
(Py) SQL语法中
的
星火getItem()
、
、
数组
类型
列
的
第n项可以使用getitem(n)检索.地图
类型
的
列
可以使用getItem(key)或'column.key'分开。
数组
有类似的语法吗?上下文:目标是以可读
的
方式从大规模嵌套
的
json中获取特定字段。from
pyspark
import SparkContext sc =
浏览 4
提问于2020-10-09
得票数 0
回答已采纳
1
回答
将
字典从spark数据帧中
的
StringType
列
中分离出来
、
、
我如何拆分字典中
的
条目来阅读它们。['maine','14','']]).toDF('LogData','State','Orders','OrdDate') 我想要做
的
是
将
spark表读取到数据帧中,找到最大事件时间戳,找到具有该时间戳
的
行,然后计数并仅
将
这些行读取到具有数据
列
的
新数据帧中,并从日志数据中添加事件id (不包括记录
浏览 39
提问于2020-07-01
得票数 1
回答已采纳
1
回答
如何从结构
类型
数组
的
列
中删除特定元素
、
、
、
、
有一个有10
列
的
表。其中一种
列
类型
是struct,假设列名是xyz。xyz包含元素
数组
。 例如,xyz
列
包含a:值1,b:值2,c:值3...现在我想从这个
数组
中删除c元素。 我该怎么做呢?这段代码需要在
pyspark
/python中完成。
浏览 12
提问于2021-09-22
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券