腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
Pyspark
:
更改
嵌套
列
数据类型
、
如何在
Pyspark
中
更改
嵌套
列
的
数据类型
?例如,如何将value的
数据类型
从string
更改
为int?
浏览 19
提问于2017-08-23
得票数 1
回答已采纳
1
回答
Parquet中的
嵌套
数据类型
、
、
、
Parquet文件的文档表明它可以存储/处理
嵌套
数据类型
。然而,我找不到更多关于最佳做法/陷阱/.的信息。将这些
嵌套
数据类型
存储到Parquet时。我正在考虑以下情况: I使用
PySpark
(Spark3.3)将我的星火DataFrame存储到一个Delta文件(该文件在罩下使用Parquet文件)。DataFrame DataFrame有一个
嵌套
的
数据类型
( StructType )
列
,还有许多(100+)
数据
浏览 2
提问于2022-11-11
得票数 1
1
回答
Pyspark
:获取
嵌套
结构
列
的
数据类型
、
、
、
问题是,当涉及到
列
的
数据类型
时,每个文件都有细微的差异。有人能给我解释一下检索
嵌套
结构
列
的
数据类型
的一般方法吗?在互联网上,我只能找到如何对它们做选择:https://sparkbyexamples.com/
pyspark
/
pyspark
-select-nested-struct-columns/ 如果我有这样的格式我怎样才能获得
数据类型
,比如说,姓氏? 编辑: Json文件当然已经写在datafram
浏览 42
提问于2021-10-22
得票数 0
1
回答
PySpark
拼花
数据类型
、
我使用
PySpark
读取一个相对较大的csv文件(~10 to ):所有
列
都有
数据类型
string。例如,在
更改
column_a的
数据类型
后,我可以看到
数据类型
已
更改
为integer。如果我将ddf写到一个拼图文件中,并读取这个拼图文件,我会注意到所有的
列
都有
数据类型
string。问题:如何确保拼花文件包含正确的
浏览 4
提问于2018-06-01
得票数 0
2
回答
用电火花改变多
列
的DataType
、
、
我正试图用
pyspark
更改
多
列
(100
列
)的
数据类型
,我试图创建一个循环或其他可以帮助
更改
100
列
(任何帮助)的内容,将不胜感激。这是帮助我
更改
3
列
的语法: IntegerTypedfcontract2 = dfcontract \ .withColumn
浏览 12
提问于2022-07-19
得票数 0
回答已采纳
1
回答
如何使用
pyspark
修改托管增量表的
列
数据类型
?
、
、
、
如何使用
pyspark
根据输入参数
更改
列
数据类型
from
pyspark
.sql.types import IntegerType,BooleanType,DateType from
pyspark
.sql.functions
浏览 11
提问于2021-11-10
得票数 1
3
回答
将数据抛出错误转换为
列
字符串
我有两个
数据类型
为+----+----------------++100| 8606738 || 130| 8602984 |我希望使用
pyspark
命令将
列
区域转换为str,但我得到的错误如下所示 str (df‘str’):但它没有将
数据类型
浏览 1
提问于2019-05-17
得票数 0
回答已采纳
1
回答
如何去掉火花数据的开始和结束
列
值中的引号?
、
、
它的一些
列
数据类型
从向量
更改
为字符串。
列
值从0.350562388776,0.203056015074,-0.313145598397
更改
为'0.350562388776,0.203056015074,-0.313145598397'。我试着把它转换成我用过的向量-from
pyspark
.sql.functions import udflist_to
浏览 4
提问于2017-05-04
得票数 0
3
回答
使用
PySpark
从
嵌套
数组中获取统计信息
、
、
、
、
我想使用
PySpark
在表上执行一些聚合。我的表名是COMPLEX_DATA,存储在雪花中。坐标
列
的
数据类型
是可变的。
嵌套
数组的大小不是固定的。我可以有1000个
嵌套
数组,还有其他没有
嵌套
数组的情况。
浏览 11
提问于2022-07-04
得票数 2
回答已采纳
1
回答
如何在火花放电中使用导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser
、
、
、
、
我们怎么才能用
浏览 7
提问于2022-06-09
得票数 0
1
回答
使用
Pyspark
从数组中读取JSON项?
、
、
、
我在从databricks中的Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为字符串值,并将数据从JSON中读取到
列
中。我有一个名为ProductRanges的
列
,其中一行包含以下值: [ { "min": 0, "value": "Overstocked"
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
PySpark
:如何根据
列
的
数据类型
替换空值?
、
我有一张表格,里面有257
列
。我试图找出如何根据
数据类型
更改
表中的空值。我正试图在
PySpark
中做到这一点。而dataframe的名字叫做df。因此,例如,如果
列
包含日期,则为时间戳
数据类型
,且该
列
中的空值必须为1900-01-01如果是字符串类型,则应该是n/a 谢谢
浏览 5
提问于2022-04-15
得票数 0
回答已采纳
1
回答
更新Glue作业中的分区后无法从雅典娜查询Glue表
、
、
、
我们已经尝试
更改
云格式中的表定义,以创建带有预定义分区(年份、月、日)的表,并且我们将StoredAsSubDirectories
更改
为true,但它没有工作。 在实现我们的代码时,我们遵循了文章。
浏览 6
提问于2020-04-20
得票数 4
3
回答
pyspark
:将字符串转换为结构
、
、
、
、
1581534117303\"}", "LastUpdatedBy": "System"使用aws glue,我想要将"Properties“
列
关联起来,但由于
数据类型
为string,因此无法实现。null,"...|如何使用relationalize tra
浏览 2
提问于2020-02-19
得票数 2
1
回答
从Pandas数据帧到Spark数据帧的转换需要大量的时间
、
、
、
from
pyspark
.sql import SparkSession .
浏览 18
提问于2021-03-02
得票数 2
1
回答
从亚马逊s3存储桶中读取csv文件时
列
数据类型
发生变化
、
、
我有两
列
的
pyspark
dataframe,后来我使用withColumn函数添加了第三
列
,将当前日期添加到所有现有行。df.write.format("csv").option("header","true").option("delimiter",",").save("s3://location") 稍后,我尝试使用
pyspark
从s3读取csv文件,将created_date<
浏览 18
提问于2020-09-14
得票数 0
1
回答
Pyspark
句柄从字符串转换为十进制
、
我是在Databricks中使用
Pyspark
的新手,所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe,它有
数据类型
为string的
列
。一个例子(见下图)是
列
netto_resultaat。 要求将此列和其他与财务相关的
列
从字符串
更改
为小数。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法: 从
pyspark
.sql.functions导入列从
pyspark
.sql.types导入DecimalType
浏览 23
提问于2021-10-25
得票数 0
回答已采纳
1
回答
有没有办法在
pyspark
中获取
列
数据类型
?
、
已经讨论了在
pyspark
中查找
列
数据类型
的方法是使用df.dtypes 。这样做的问题是,对于像数组或结构这样的
数据类型
,你会得到像array<string>或array<integer>这样的东西。 问:有没有一种本机方法来获取
pyspark
数据类型
?
浏览 0
提问于2018-08-02
得票数 12
回答已采纳
1
回答
在从Kafka服务器接收json后,
更改
pyspark
dataframe的两
列
的
数据类型
,但将获得空值。
、
、
、
、
我希望两者的
数据类型
都是整数类型。我尝试使用.withColumn()并
更改
列
的
数据类型
,
列
的tweet_id和userID的
数据类型
确实
更改
为Integer,但我得到了空字段。15450206895220
浏览 1
提问于2022-07-07
得票数 0
回答已采纳
1
回答
具有列表
数据类型
的
列
: Spark HiveContext
、
、
下面的代码聚合并创建一个
数据类型
为list的
列
: "column_name_1" expr("collect_list(column_name_2) " ) 因此,似乎可以将“list”作为dataframe中的
列
数据类型
。我想知道我是否可以写一个返回自定义
数据类型</em
浏览 2
提问于2016-07-15
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券