腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
将
Spark
数据
帧
中
的
数组
列
扩展
为
单独
的
列
、
如何
扩展
数组
列
,使
数组
中
的
每个元素都成为
数据
帧
中
的
一
列
?
数据
帧
包含
数组
列
,并且
数组
的
大小不固定。这意味着,第一行
中
的
阵列
列
可以具有n个元素,而第二行
中
的
阵列
列
可以具有m个元素。我尝试过
浏览 11
提问于2019-01-02
得票数 1
1
回答
从现有arraytype
列
创建
单独
的
Spark
数据
帧
、
我有一个
spark
数据
帧
作为使用模式我想从
数组
类型
的<
浏览 0
提问于2020-08-25
得票数 0
1
回答
从ORC文件创建外部配置单元表
的
方法
、
、
、
用于创建表
的
查询: create external table fact_scanv_dly_stg (geo_region_cd char(2),op_cmpny_cd string)location 'hdfs:///my/location/scanv_data/'; ORC文件
的
模式详细信息(摘自DataFrame
Spark
-SQL)
浏览 28
提问于2020-04-30
得票数 0
1
回答
如何更新
Spark
中
的
数据
框
列
、
、
、
我有一个
数据
帧
,其中有2个json
列
。我需要更新基于j1
列
的
j2
列
。如果j2
列
的
元素
为
空,则从j1
列
中选取元素值。j1
为
JSON字符串,j2
为
JSON
数组
。输入
数据
帧
, +---------------------------+---------------------------------------+ |
浏览 22
提问于2021-08-04
得票数 1
回答已采纳
2
回答
使用scala统计
spark
数据
帧
中
列
组合
的
实例
、
、
我在scala中有一个名为df
的
spark
数据
帧
,它有两
列
,即a和b,a
列
包含字母,b
列
包含数字,如下所示。).distinct a b g 0 f 1a b count g
浏览 2
提问于2015-10-28
得票数 9
回答已采纳
1
回答
如何
将
numpy
数组
元素转换为
spark
RDD
列
值
、
、
我准备使用
spark
dataframe (不是pandas)
的
内置CSV打印工具。我已经构建了一个IndexedRowMatrix。因此,它中有稀疏
数组
列
。到密集
数组
的
转换是由x.vector.toArray()映射调用执行
的
(如下所示)。我似乎想不出,如何
将
密集
的
numpy
数组
元素放入
Spark
DataFrame
的
单独
列
中
浏览 0
提问于2018-06-12
得票数 0
1
回答
正在
将
pyspark
数据
帧
写入文本文件
、
我有一个从sql server
中
的
一个表创建
的
pyspark
数据
框架,我对它做了一些转换,现在我要将它转换为动态
数据
框架,以便能够将其保存为s3存储桶
中
的
文本文件。当我
将
数据
帧
写入文本文件时,我
将
向该文件添加另一个头文件。这是我
的
动态
数据
框,
将
保存为文件: 2021-03-21 |
浏览 0
提问于2021-04-23
得票数 0
1
回答
使用pyspark - Databricks处理来自事件中心
的
事件
、
、
、
Spark
notebook必须在文档进入Event Hub时读取文档,并与该集合
的
spark
表进行模式匹配(
将
文档
中
的
字段与
spark
表列进行匹配)。
spark
.readStream.format("eventhubs").option(**config).load(). 正如文档中所说,原始消息位于我要转换为字符串
的
数据
帧
的
“body”
列
<
浏览 1
提问于2019-01-12
得票数 0
1
回答
将
RDD转换为Dataframe
Spark
、
、
、
如何在scala中将具有以下结构
的
RDD转换为dataframe这里,RDD
的
每一行都包含一个索引Long和一个向量org.apache.
spark
.mllib.linalg.Vector。我希望
将
org.apache.
spark
.mllib.linalg.Vector
的</
浏览 2
提问于2017-02-26
得票数 2
1
回答
Python
将
大
的
numpy
数组
转换为pandas
数据
帧
、
、
、
、
我收到了一段代码,这些代码只适用于熊猫
数据
帧
作为输入。我目前有一个相当大
的
numpy
数组
。我需要将其转换为熊猫
数据
帧
。 Dataframe将是288行(289个计算列名)和1801
列
。我有一个大小
为
1801
的
数组
,它将是
数据
帧
中
的
所有列名。然后我有一个大小
为
288
的
数组
,它将填充第一
列
浏览 5
提问于2017-02-10
得票数 1
回答已采纳
1
回答
使用部分模式
的
Spark
read json
、
、
我需要使用
spark
处理一个相当大
的
json文件。我不需要json
中
的
所有字段,实际上我只想读取其中
的
一部分(而不是读取所有字段和项目)。我想知道我是否可以使用json连接器,并为它提供一个只包含我感兴趣加载
的
字段
的
部分读取模式。
浏览 0
提问于2017-07-14
得票数 0
1
回答
使用更改模式
将
数据
插入到增量表
中
、
、
如何通过改变
数据
库
中
的
模式
将
数据
插入到增量表
中
。 在Databricks Scala
中
,我分解了一个Map
列
并将其加载到增量表
中
。我有一个预定义
的
增量表模式。 假设模式有4
列
A、B、C、D。因此,有一天,我使用下面的代码
将
包含4
列
的
数据
帧
加载到增量表
中
。loadfinaldf.write.fo
浏览 18
提问于2021-10-29
得票数 0
1
回答
以键
为
列
将
json字典转换为
spark
dataframe
、
、
是否可以通过
将
键作为具有以下值
的
列
来
将
字典转换为
数据
帧
?created': '2020-10-29T00:00:00+00:00', 'published': 'YES',} 如果我将其转换为
数据
帧
,如下所示: json_rdd=sc.parallelize([data_dict[
浏览 8
提问于2020-11-19
得票数 0
回答已采纳
1
回答
交叉连接
的
结果是“设备上没有空间”
、
、
我试图交叉连接两个
数据
帧
,并应用少量
的
转换,最后尝试
将
结果写入临时S3位置。但我总是以低于No space left on device错误结束。看起来是因为打电话给spill()。你能帮我怎样用正确
的
配置克服这个错误吗? Dataframe2记录计
浏览 14
提问于2022-08-02
得票数 0
1
回答
将
PySpark
数据
帧
读取到包含VectorUDT
列
的
Pandas
中
时出现问题
、
、
、
、
我有一个PySpark表,其中
的
许多
列
都是VectorUDT类型
的
。这些
列
是使用PySpark
中
的
OneHotEstimator函数创建
的
。我可以
将
这个表写到拼图文件
中
,但是当我尝试使用PyArrow
将
这个表读回到Pandas时,我得到了这个异常: ArrowNotImplementedError: Currently only nesting我不希望
将
每个VectorUDT
列
拆分
浏览 18
提问于2019-06-10
得票数 0
1
回答
从多个S3存储桶导入pyspark dataframe,其中有一
列
指示条目来自哪个存储桶
、
、
这些存储桶
中
的
每一个都存储我正在读取到pyspark dataframe
中
的
拼图文件。从每个存储桶生成
的
pyspark dataframe具有完全相同
的
模式。我想要做
的
是迭代这些存储桶,并将所有这些拼图文件存储到一个
单独
的
pyspark dataframe
中
,该
数据
框有一个date
列
,表示dataframe
中
的
每个条目实际来自哪个存储桶。因为<e
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
2
回答
Rdd到Dataframe,其中架构以编程方式基于标头
、
、
、
、
sc.parallelize(Array( "1, cat, dog",我想将RDD转换为dataframe,其中模式是基于RDD
的
第一行以动态/编程方式创建
的
。我希望
将
逻辑应用于多个类似的RDDs,并且不能使用case类以编程方式指定模式,也不能从一开始就使用
spark
-csv
将
数据
作为dataframe加载。我已经创建了一个扁平
浏览 1
提问于2019-11-19
得票数 0
1
回答
将
Spark
Dataframe
中
的
多个
列
发送到外部API,并将结果存储在
单独
的
列
中
、
、
、
我有一个
spark
dataframe,它有40+
列
。以及数百万行。我想创建另一个
列
,它从上面的
数据
帧
中
接收5
列
,
将
这5
列
中
的
每一行传递给
单独
的
Api(它接受这5个值并返回一些
数据
),并将结果存储在该
列
中
。
为
简单起见,我使用以下示例:假设我有以下
数据
帧
。我
浏览 12
提问于2019-03-12
得票数 0
回答已采纳
2
回答
Spark
dataframe
将
行
中
特定
列
的
值替换为空值
、
、
、
、
在尝试用空值替换
Spark
dataframe
的
特定
列
的
值时,我遇到了一个问题。我有一个超过50
列
的
数据
帧
,其中两
列
是键
列
。我想创建一个具有相同模式
的
新
数据
帧
,并且新
数据
帧
应该具有来自键
列
的
值和非键
列
中
的
空值。为了避免这种情况,我尝试<em
浏览 18
提问于2018-08-29
得票数 1
回答已采纳
2
回答
当NullType位于StructType内时,
将
空值写入
Spark
中
的
拼图
、
、
、
我正在
将
一个集合从MongodB导入到
Spark
。所有文档都有字段'data‘,该字段又是一个结构,并具有字段'configurationName’(始终
为
空)。("collection", collectionName).load() 对于结果DataFrame
中
的
data
列
,我得到以下类型: StructType(StructField(configurationName: AnalysisException: Parquet
数据</e
浏览 24
提问于2021-08-11
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券