腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
创建
涉及
ArrayType
的
Pyspark
Schema
、
、
、
我正在尝试为我
的
新DataFrame
创建
一个模式,并尝试了各种括号和关键字
的
组合,但无法弄清楚如何实现这一点。我现在
的
尝试是: StructField("User", IntegerType()),
ArrayType
(StructType([ StructField("user", StringType()),
浏览 1
提问于2018-01-23
得票数 14
2
回答
DataFrame中元组作为数据
的
元组导致AttributeError:' Tuple‘对象没有属性'encode’
、
、
、
、
100,200,300))] df1 = spark.createDataFrame(([x[0],*x[1]] for x in sdata),
schema
浏览 8
提问于2022-12-03
得票数 0
回答已采纳
3
回答
火花-将JSON数组对象转换为字符串数组
、
、
、
作为我
的
dataframe
的
一部分,其中一列以下列方式拥有数据 我想把它转换成字符串数组。
浏览 0
提问于2019-07-14
得票数 1
2
回答
在
pyspark
DataFrame中
创建
某个类型
的
空数组列
、
、
、
我尝试向df添加一个包含字符串数组
的
空数组
的
列,但最终添加了一个字符串数组
的
列。我试过这个: import
pyspark
.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在
pyspark
中做到这一点?
浏览 91
提问于2019-08-28
得票数 9
回答已采纳
2
回答
为给定
的
json定义火花模式
、
我在没有指定模式
的
情况下将这个json加载到Spark: "titles": { { } }df.printSchema()
的
结果是 |-- titles: struct (nullable = true) | | |--|-- S: string (nullable = true) 我试图将这个js
浏览 3
提问于2022-10-23
得票数 0
回答已采纳
1
回答
Python to
Pyspark
函数UDF如何输出列表列表
、
、
、
、
我在Python语言中有一个函数(有许多不同
的
函数,但情况相同),我正在将它转换为
PySpark
,然而,这个函数有一个不同整数类型
的
列表作为输入,有一个输出是一个列表,其中包含n个整数类型
的
列表,举个例子
pyspark
.sql.types import StructType, StructField, IntegerType, FloatType, StringType,
ArrayType
from
pyspark
_my_function = udf(my_functi
浏览 55
提问于2021-09-19
得票数 0
2
回答
如何更改火花放电数据帧列数据类型?
、
、
我正在寻找方法来更改列类型df.printSchema()至谢谢你
的
帮助,提前。
浏览 0
提问于2017-09-26
得票数 4
回答已采纳
1
回答
基于列表中值
的
火花爆炸数据
、
这是我
的
数据| core_id| movie_genres_upd|这些是我
的
数据类型:我将提供一个更明显
的
例子以下是最初
的
数据
浏览 3
提问于2020-05-26
得票数 0
回答已采纳
1
回答
多态JSON
的
火花处理
、
、
、
考虑到这个JSON输入(为可读性以多行形式显示,但实际
的
输入文档是一行CR分隔
的
): "common": { "type":"A", "date":"2020-01-01T12:00:00" }data": { "favoriteIn
浏览 3
提问于2021-04-23
得票数 0
回答已采纳
2
回答
PySpark
:将json展开为新列
、
、
、
、
我有以下类型
的
数据:|34d| 6| 111 | 存在一个json列表,它们可能共享公共密钥,但我想从同样具有key2
的
json中提取key1
的
值。在
pyspark
中,我看到了基于固定模式
的
解决方案(),但在没有固定模式
的
浏览 0
提问于2020-06-22
得票数 1
1
回答
DataFrame需要得到排列(火花放电)
、
、
我有一个带有行数组
的
Dataframe,我想要
创建
一个新
的
dataframe,它包含内部结构
的
一个特定支柱之间
的
组合。不知道该怎么做。我发现
的
所有例子都使用了一个简单
的
数字数组。
浏览 9
提问于2022-05-10
得票数 -1
1
回答
如何使用
PySpark
扁平嵌套结构?
、
、
、
如何使用
PySpark
扁平嵌套结构? 提前谢谢。
浏览 1
提问于2022-05-13
得票数 0
回答已采纳
1
回答
如何将字符串转换为火花放电中
的
数组?
、
、
、
我有一个包含一个列
的
table root我
的
问题是如何将该列转换为数组数组:T.
ArrayType
(T.
ArrayType
浏览 4
提问于2020-07-28
得票数 0
1
回答
Pyspark
/ Dataframe:添加将嵌套列表保留为嵌套列表
的
新列
、
、
、
我有一个关于dataframes和添加应该包含嵌套列表
的
列
的
基本问题。', 'o'], ['hallo', 'ti']]], 为了从这个输出中
创建
一个新
的
Dataframe,我尝试
创
浏览 0
提问于2017-06-27
得票数 0
回答已采纳
2
回答
在
创建
DataFrame时,
Pyspark
列值将自动移动。
、
、
、
我正在尝试使用下面的嵌套模式手动
创建
一个
pyspark
dataframe - StructField('fields',
ArrayType
(StructType([ StructField('sourceids',
ArrayType
(IntegerType(StringType())
浏览 2
提问于2020-04-23
得票数 0
回答已采纳
1
回答
如何在中找到json对象数组
的
字符串长度?
、
、
这里
的
长度是2。我必须找到这个数组
的
长度,并将其存储在另一列中。
浏览 9
提问于2022-03-22
得票数 0
1
回答
为嵌套
的
Pyspark
对象
创建
模式
、
、
我正在尝试
创建
一些样本数据框来对一些函数进行测试,我经常获得带有嵌套对象(数组或更多
的
JSON对象)
的
JSON对象,我需要测试不同类型
的
对象,即Struct和Array,并根据它们
的
类型将它们传递给正确
的
函数以
创建
表格数据帧这些对象来自API,一些是内部
的
,一些是外部
的
,所以我受应用程序开发人员
的
摆布。,我需要
创建
一个模式,如下所示: from
pyspark
.sql.types
浏览 15
提问于2021-02-23
得票数 0
回答已采纳
2
回答
pivot dataframe将json列转向新列。
、
、
、
、
我希望通过python3从中
的
json列中提取数据。我需要一个数据文件,比如: 2010 05 rchsc yes 12.56 red from
pyspark
.sql.functionsimport from_json, col
schema
=StructFiel
浏览 6
提问于2020-07-27
得票数 3
回答已采纳
1
回答
如何在
PySpark
中对Spark大数据框中
的
每个行子集执行映射操作
、
、
、
我使用
的
是
PySpark
,我想做
的
事情如下: {'id': 2, 'name': 'd', 'score': 300},df = spark.createDataFrame(dicts) from
pyspark
.sq
浏览 2
提问于2017-10-30
得票数 1
1
回答
使用数组
创建
DataFrame
、
nullable = true) |-- interest_rate: string (nullable = true) 我需要
创建
其他DataFrame来
创建
包含列
的
数组。payments ARRAY<STRUCT<id: INT, payment_date: STRING, method: STRING, amount: DOUBLE>> 我
的
DataFrame期末考试应该是
浏览 4
提问于2020-04-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券