腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
比较
不同
数据
帧
中
的
两
列
,
分别为
pyspark
中
的
String
和
Array
<
string
>
类型
、
、
、
、
有
两
个DFs: df1: Word Countabc 2[ad,as,abd] 0 [abc,ad]我
的
主要目标是遍历df2
的
words
列
中
的
每个'value‘,并将其与df1
中
的
'word’
列
进行匹配。 如果找到匹配项-将df1计数添加到df2 CountSum。 例如。上图, 在df2 - abd
中
浏览 18
提问于2020-09-29
得票数 0
回答已采纳
1
回答
pyspark
将数组
类型
的
列
拆分成多
列
、
在对
数据
集运行
pyspark
中
的
ALS算法后,我遇到了一个最终
的
数据
帧
,如下所示 ? 推荐
的
列
是数组
类型
,现在我想拆分这一
列
,我
的
最终
数据
帧
应该如下所示 ? 谁能建议我,哪个
pyspark
函数可以用来形成这个
数据
帧
?
数据
帧
的
模
浏览 61
提问于2021-07-11
得票数 0
回答已采纳
1
回答
Pyspark
通过date
和
string
数据
类型
的
比较
过滤
数据
帧
、
、
、
我在
pyspark
中有一个dataframe,结构如下:现在,我想通过
比较
vacationdate
和
urlaubdate来过滤
数据
帧
,不幸
的
是它们有
不同
的
数据
类型
。我想得到过滤
的</e
浏览 5
提问于2015-10-03
得票数 1
2
回答
对于1-2
列
,多个镶嵌块文件具有
不同
的
数据
类型
、
、
、
我尝试使用
Pyspark
将
不同
的
拼图文件读取到一个
数据
帧
中
,但它给了我错误,因为多个拼图文件
中
的
一些
列
具有
不同
数据
类型
的
列
。例如:
列
"geo“在某些文件
中
的
数据
类型
为"Double”,在另一些文件
中
为"
浏览 12
提问于2021-11-22
得票数 0
2
回答
比较
两
个
数据
帧
中
的
列名
、
、
我有
两
个df
和
data
中
的
数据
帧
。) |-- zipcode: integer (nullable = true) 现在,我希望通过
比较
这
两
个模式将
列
car
和
van如果
列
相同,我也希望
比较
两
个
数据
帧
,但如果
列
不同
浏览 8
提问于2017-03-09
得票数 2
回答已采纳
1
回答
使用
Pyspark
从数组
中
读取JSON项?
、
、
、
我在从databricks
中
的
Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为字符串值,并将
数据
从JSON
中
读取到
列
中
。JSON文档是有效
的
,当导入
数据
时,dataframe
中
的
数据
类型
是字符串,而不是我所期望
的
JSON对象/结构。我希望能够获取"name“出现
的
次数,并遍历它们以获取最小值、最大值
和
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
使用
pyspark
在dataframe
的
模式中进行搜索
、
、
、
我有一组
数据
帧
,dfs,具有
不同
的
模式,例如: root |-- b_cd:
string
-- c_id: integer (nullable = true) | |-- eid:
string
(nullable = true) | |
浏览 11
提问于2019-10-11
得票数 1
回答已采纳
1
回答
通过连接
比较
两
个
pyspark
数据
帧
、
、
、
我有
两
个
pyspark
数据
帧
,它们
的
行数
不同
。我试图通过在多个键上连接这
两
个
数据
帧
来
比较
所有
列
中
的
值,这样我就可以找到这些
列
中
具有
不同
值
的
记录
和
具有相同值
的
记录。df1 and df2 on multiple keys same=df1.join(df2,
浏览 14
提问于2021-02-13
得票数 0
1
回答
md5不能处理
pyspark
中
的
复杂
数据
类型
、
、
、
在
pyspark
dataframe
中
,我为几个
列
提供了多种复杂
数据
类型
。col:
array
(nullable = true)当我尝试计算整行
的
md5时,md5抛出一个错误,消息如下: **`col`' is of
array
<
array
<
string
>> type.
浏览 0
提问于2020-11-26
得票数 0
1
回答
在
比较
没有键
列
的
PySpark
数据
帧
时,有没有完全外连接
的
替代方法?
、
、
、
、
因此,我一直在寻找
不同
的
方法来
比较
两
个没有键
列
的
PySpark
数据
帧
。 假设我有
两
个
数据
帧
,df1
和
df2,
列
分别为
col1、col2
和
col3。这个想法是,我将得到一个输出
数据
帧
,其中包含来自df1
的
行,这些行与df2
中
的</em
浏览 13
提问于2020-07-29
得票数 0
1
回答
按字母顺序排列
的
二叉树BST算法
、
、
我想声明一个按字母顺序排列
的
BST类,您可以在其中按名称-strings或字符数组-来存储节点。什么是插入法
的
最佳算法,才能有最佳
的
搜索时间
和
理想
的
BST情况。还需要提醒
的
是,名字并不都是相同长度
的
,可能以相同
的
单词开头,在进入BST之前不会对它们进行排序。
浏览 13
提问于2018-01-03
得票数 0
1
回答
Pyspark
-连接
两
个
数据
帧
并连接数组
列
、
、
假设我有
两
个
数据
帧
,每个
数据
帧
有4
列
。前3
列
是字符串
类型
,第4
列
是数组
类型
。我想将这
两
个
数据
帧
连接起来,这样得到
的
数据
帧
将满足以下要求: 在
两
个
数据
帧
之间前3
列
的
值相同
的
行
中
,结果<em
浏览 15
提问于2020-05-05
得票数 1
回答已采纳
4
回答
用
Pyspark
比较
数据
格式
、
、
、
我有一个
数据
框架(df)。为了显示它
的
模式,我使用:df1.printSchema()#root我想
比较
这
两
种模式(df1
和
df2),并且只得到
类型
和
列名称
的
差异(有时
列
可以移动到另一个位置)。结果应该是如下所示<em
浏览 0
提问于2018-02-07
得票数 7
回答已采纳
5
回答
如何将dataframe
的
所有
列
转换为字符串
、
、
我有一个混合
类型
的
数据
帧
。我正在使用spark.sql('select a,b,c from table')命令从hive表
中
读取此
数据
帧
。一些
列
是int、bigint、double,而其他
列
是
string
。总共有32
列
。在
pyspark
中有什么方法可以将
数据
框
中
的
所有
列
转换为字符串
浏览 149
提问于2017-02-07
得票数 12
回答已采纳
1
回答
如何在
pyspark
中
解压list
类型
的
列
、
、
、
我在
pyspark
中有一个dataframe,df有一个数组字符串
类型
的
列
,所以我需要生成一个包含列表头部
的
新
列
,还需要包含尾列表连接
的
其他
列
。这是我
的
原始
数据
帧
:
pyspark
> df.show()| id| lst_col|| 1|[a, b, c,d]| +---+-------
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中
。它们都来自相同
的
模式,但是它们可能会有所
不同
,因为有时会缺少一些
列
(例如,模式通常包含200个具有已定义
数据
类型
的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在不写入
和
读取所有
数据
浏览 2
提问于2020-06-22
得票数 0
1
回答
处理依赖型
PySpark
DataFrames
、
、
、
假设我们有一个嵌套
的
PySpark
dataframe df,其模式如下: |-- a1:
string
(nullable = true) |-- arr1:
array
(nullable = true) | ||-- dt2: date (nullable = true) | | |-- dt_indic
浏览 4
提问于2021-12-12
得票数 0
回答已采纳
2
回答
Apache :无法将分组
数据
保存为CSV
、
、
、
我想做一件简单
的
事。我想把所有的事件统计成2分钟
的
时间戳。File "/usr/hdp/current/spark2-client/python/
pyspark
answer, self.gateway_client, self.target_id, self.name) File "/usr
浏览 1
提问于2018-05-15
得票数 1
回答已采纳
1
回答
如何访问
PySpark
数据
帧
中
存储在数组内部
的
项
的
集合?
、
、
、
我有一个
PySpark
数据
帧
- root |-- contents:
array
(nullable = true) | | |-- contentId:
string
(nullable = true) || |-- position: integer (nullable = true) 如何获取每个
浏览 8
提问于2020-12-30
得票数 0
回答已采纳
2
回答
将Spark
中
的
多个ArrayType
列
合并为一个ArrayType
列
、
、
我想在spark
中
合并多个ArrayTypeStringType
列
来创建一个ArrayTypeStringType。为了组合
两
列
,我在这里找到了解决方案: 但是,如果我不知道编译时
的
列
数,我该如何进行组合呢?在运行时,我将知道要组合
的
所有
列
的
名称。一种选择是使用上面的stackoverflow问题中定义
的
UDF,在循环中多次添加
两
列
。但这涉及到对整个
数据
浏览 0
提问于2018-08-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PHP弱类型引发的漏洞实例
走进php内核之zval结构体源码解析
PHP 数据类型
PHP 8:数组、变量、操作符、异常处理
JavaScript 数据类型转换介绍|JavaScript 教程
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券