腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
-
在
嵌套
数组
中
强制
转换
列
、
、
、
、
-- Name: string (nullable = true) | | | | |-- Type: string (nullable = true) 如何选择Amount
列
以便对其进行
强制
转换
浏览 23
提问于2020-09-04
得票数 0
1
回答
Pyspark
:将所有数据帧的字符串
转换
为foat
、
、
我有一个包含多个
列
(1000)的数据框,它们具有字符串类型。我希望将它们
转换
为不是一
列
一
列
地浮动,而是一次浮动所有数据帧。此外,我知道这是存在的: from
pyspark
.sql.types import IntegerType data_df = data_df.withColumn("column_name",data_df["columns_name"].cast(IntegerType())) 但我正在研究这样的东西: data_df = data_d
浏览 17
提问于2021-04-15
得票数 0
回答已采纳
1
回答
将
嵌套
字典键值
转换
为
pyspark
数据
、
、
、
我有一个
Pyspark
数据文件,看起来像这样:我希望提取"dic“
列
中
的
嵌套
字典,并将它们
转换
为
PySpark
数据格式。如下所示:请告诉我如何做到这一点。 谢谢!
浏览 2
提问于2020-07-20
得票数 2
1
回答
如何在火花放电中使用导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser
、
、
、
、
我们怎么才能用
在
org.apache.spark.sql.catalyst.parser.CatalystSqlParser中导入它,它在Scala
中
工作得很好,现在根据需求,我们尝试
转换
我们的项目
浏览 7
提问于2022-06-09
得票数 0
3
回答
Pandas:有没有一种方法可以
在
不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串?
、
、
我使用toPandas()将
pyspark
数据帧
转换
为pandas数据帧。但是,因为某些数据类型不对齐,所以pandas会将数据帧
中
的某些列
强制
转换
为object。我想用实际的字符串
在
我的列上运行.str,但似乎不能让它工作(如果没有显式地找到首先要
转换
的
列
)。一种可能的解决方案是
在
pyspark
端获取字符串列的列表,并将这些列作为运行.str方法的
列
进行传递。 编辑:astype(str)不工作b
浏览 1
提问于2020-06-23
得票数 1
1
回答
将列表列
转换
为
嵌套
结构
列
、
、
、
、
我正在尝试将一组丑陋的文本字符串
转换
为具有代表性的
PySpark
数据格式。最后一步是将包含字符串列表的
列
转换
为包含
嵌套
行结构的
列
。对于列表
中
的每个字符串,我使用python字典理解将其规范化为相同的字段。当我试图通过列上的udf来
转换
它时,它会失败。from
pyspark
.sql import Row Row(**ext
浏览 2
提问于2018-10-20
得票数 1
回答已采纳
1
回答
AWS
pySpark
:将字符串列拆分为新的整数
数组
列
、
、
、
我试图使用Glue和
pySpark
在
AWS上执行ETL工作,但不幸的是,我对此非常陌生。
在
大多数情况下,我没有任何问题,使用胶水动态数据,以执行应用程序和一些其他的
转换
,我必须执行。但是,我面临一个特定
列
的问题,必须将其从字符串
转换
为整数
数组
。在这个
列
value
中
,我们将数据类型设置为string,它实际上是一个
转换
为string并由空格分隔的整数
数组
,例如,value
列
浏览 5
提问于2020-04-20
得票数 2
回答已采纳
1
回答
使用
Pyspark
从
数组
中
读取JSON项?
、
、
、
我在从databricks
中
的Cosmos DB读取项目时遇到了一些问题,它似乎将JSON读取为字符串值,并将数据从JSON
中
读取到
列
中
。我有一个名为ProductRanges的
列
,其中一行包含以下值: [ { "min": 0, "max": 99,DB
中
,JSON文档是有效的,当导入数据时,dataframe
中</e
浏览 29
提问于2019-05-13
得票数 4
回答已采纳
1
回答
如何重命名所有
列
,
在
pyspark
中
创建dataframe之后,如何根据模式/从csv文件
中
读取数据类型来
转换
数据类型
、
在
pyspark
中
创建示例数据 from
pyspark
.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0TypeError:字段
浏览 1
提问于2020-05-04
得票数 0
回答已采纳
1
回答
套式阵列的拉威尔型铸造
、
、
、
、
如何为雄辩的模型创建
强制
转换
定义,从而允许自动处理
嵌套
数组
的编码/解码? 问题是,如果您有一个
嵌套
的PHP<e
浏览 3
提问于2019-10-21
得票数 1
回答已采纳
1
回答
AWS胶水:
在
结构中使用火花重命名字段名
、
、
在
使用AWS Glue
中
的Unnest
转换
之后,这里提到的模式是我原始模式的一部分。profile.details.indices.index.val.indexname: string我的要求是
在
structprofile.details.indices.index.val.indexname“和"profile.details.indices.index.val.index
浏览 1
提问于2020-02-03
得票数 1
1
回答
(Py) SQL语法
中
的星火getItem()
、
、
数组
类型
列
的第n项可以使用getitem(n)检索.地图类型的
列
可以使用getItem(key)或'column.key'分开。
数组
有类似的语法吗?上下文:目标是以可读的方式从大规模
嵌套
的json
中
获取特定字段。from
pyspark
import SparkContext sc = SparkContext.getOrCreate(
浏览 4
提问于2020-10-09
得票数 0
回答已采纳
2
回答
PySpark
DataFrames:筛选
数组
列
中
的值
、
我
在
PySpark
中有一个
PySpark
,它的一个字段有一个
嵌套
数组
值。我想过滤
数组
包含特定字符串的DataFrame。我不知道该怎么做。nullable = true) | |-- element: string (containsNull = false) 我希望返回upper(name) == 'JOHN'和lastName
列
(
数组
)包含'SMITH'和等式的所有行(就像我对名称所做的那样)。我<e
浏览 4
提问于2016-06-24
得票数 0
回答已采纳
1
回答
Conver int YYYYMMDD到目前为止
、
、
、
我正在尝试将一个INT
列
转换
为一个有
Pyspark
的Databricks
中
的日期
列
。
列
如下所示:202101022021010620210104df = df.withColumn("Report_Date", col("Report_Date").cast(DateType()))由于数据类型不匹配,无法解析“<em
浏览 0
提问于2021-03-22
得票数 0
回答已采纳
1
回答
基于另一
列
的字符串搜索
在
中
创建具有函数的新
列
、
、
、
、
我有一个包含字符串值的
列
(即“xyztext\afadfa”)。我希望创建一个新
列
,其中值为“0”或“1”,这取决于原始
列
是否包含某些文本(即“文本”)。现在已经添加了.cast(int)),但是当我插入列名: df1 = df.withColumn('Target',df.column.contains(‘text’).cast(‘int’)时,收到的“
列
不可调用”错误from
pyspark
.s
浏览 3
提问于2016-05-24
得票数 1
回答已采纳
1
回答
数据表列
、
、
我有一个
PySpark
数据格式。我正在尝试添加更多的
列
。 AssertionError col应该是
列
str对象没有属性
强制
转换
。
浏览 2
提问于2021-09-23
得票数 0
回答已采纳
1
回答
Databricks:如何将行的值
转换
为
数组
类型
、
假设我有下面的数据帧col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
2
回答
如何在火花放电中将密集向量的关系式
转换
成DataFrame?
、
、
、
、
0.0, 0.0, 0.0]), DenseVector([0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0])] File "<stdin>", line 1, in <module> File "/opt/BIG-DATA/spark-2.0.0-bin-hadoop2.7/python/
pyspark
import SparkConf,
浏览 3
提问于2016-12-26
得票数 11
回答已采纳
3
回答
使用
PySpark
从
嵌套
数组
中
获取统计信息
、
、
、
、
我想使用
PySpark
在
表上执行一些聚合。我的表名是COMPLEX_DATA,存储
在
雪花中。坐标
列
的数据类型是可变的。
嵌套
数组
的大小不是固定的。我可以有1000个
嵌套
数组
,还有其他没有
嵌套
数组
的情况。
浏览 11
提问于2022-07-04
得票数 2
回答已采纳
6
回答
在
数组
类型
列
中
求和值的最佳方法(Integer())
、
、
builtins__.sum(arr),IntegerType()) 但是,我已经了解到,UDF对于纯
pySpark
在
没有UDF的情况下,可以
在
pySpark
中
执行上面的代码吗?
浏览 7
提问于2017-12-15
得票数 13
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券