腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
数组
spark
数据
帧
2.4
的
嵌套
结构
中
提取
多个
元素
dataframe
、
apache-spark
、
apache-spark-sql
、
parquet
、
aws-glue
我正在读取拼图文件,并试图
提取
Struct of Array
中
的
元素
。但是,当我使用getItem()时,null值返回为空。这种模式
在
Spark
1.6
中
有效,但现在在aws glue中使用
Spark
2.4
,它似乎忽略了空值,只拉空。输入是parquet,但我是用JSON格式编写
的
: { "activity":{
浏览 13
提问于2021-08-01
得票数 0
2
回答
从pyspark
中
的
dataframe ArrayType列
中
获取前N个
元素
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
spark
数据
帧
,行是这样
的
-2 | [d, e, f]现在我只想保留
数组
列
中
的
前两个
元素
。注意-请记住,我在这里
提取
的
不是单个
数组
元素
,而是可能包含
多个
元素
的
数组
的
一部分。
浏览 1
提问于2018-10-25
得票数 12
回答已采纳
1
回答
有一个星火内置
的
扁平
嵌套
数组
吗?
scala
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
我有一个DataFrame字段,它是一个Seq[Seq[String]],我构建了一个UDF来将所述列转换为SeqString列;基本上,是用于Scala
中
的
flatten函数
的
UDF。seqOfSeq.flatten df: DataFrame => df.withColumn(outCol, udf(flatfunc _).apply(col(inCol)))我
的
用例是字符串,但显然,这可能是通用
的
。您可以
在
DataFrame转换链中使用此函数,如下所
浏览 0
提问于2019-01-19
得票数 1
回答已采纳
2
回答
Scala/
Spark
-如何获取所有子
数组
的
第一个
元素
scala
、
apache-spark
、
apache-spark-sql
我
在
Spark
中有以下DataFrame (我正在使用Scala):我想要获得一个只包含每个子阵列
的
第一个Int
的
Dataframe,类似于: [1003014, 15, 754, 1029530, 3066, 1066
浏览 1
提问于2019-12-09
得票数 1
回答已采纳
1
回答
嵌套
的
XML
数据
AWS胶水
amazon-web-services
、
aws-glue
我们有一些这种格式
的
数据
: <event timestamp="20200529032100"> <row attr="gfds" id="6">data</row> <row attr="sadf" id="8"&
浏览 1
提问于2020-05-29
得票数 0
2
回答
星星之火-更新
嵌套
列为字符串
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
true) | | | |-- aa: string (nullable = true) | | |-- y: struct (nullable = true)我使用
的
不是火花3号,而是火花
2.4
.x。将更喜欢Scala方式,但是python也能工作,因为这是
浏览 6
提问于2022-04-28
得票数 2
回答已采纳
1
回答
在
火花中处理JSON --不同文件
中
的
不同模式
json
、
apache-spark
、
schema
我从第三方获得了大量
的
JSON文件。它们都有相同
的
模式,除非
嵌套
元素
为空,否则它被表示为空
数组
。{ }因此,这是一个有效
的
JSON,"survey_data“
元素
是一个struct_type,但是具有非常复杂
的
嵌套
结构
(子
元素
比这个简化
的
示例
中
要多) 但是,当survey_data没有<e
浏览 0
提问于2018-10-31
得票数 3
1
回答
使用
嵌套
的
Python字典和Numpy
数组
从Pandas Dataframe创建
Spark
Dataframe
python
、
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个包含numpy
数组
和字典
的
pandas
数据
帧
: results_df.head(1) best_params cv_resultsmax_depth': 3, 'min_impurity_decrease': 0.2} {'mean_fit_time': [0.6320801575978597, 1.08473]} 我希望能够创建一个包含类似
嵌套
结构
浏览 61
提问于2020-08-16
得票数 0
2
回答
嵌套
json扁平化
spark
数据
帧
dataframe
、
apache-spark
、
apache-spark-sql
我正在尝试从一个
嵌套
的
jsonString创建一个
数据
帧
,并拆分成
多个
数据
帧
,即外部
元素
数据
将转到一个
数据
帧
,
嵌套
子
数据
将转到另一个dataframe.There,也可以是
多个
嵌套
元素
。我看了看其他
的
帖子,他们都没有为下面的scenario.Below提供一个工作样本,其中状态
的</e
浏览 0
提问于2020-10-07
得票数 1
2
回答
如何在
Spark
中
动态切片
数组
列?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
Spark
2.4
引入了新
的
SQL函数slice,该函数可用于从
数组
列中
提取
特定范围
的
元素
。我希望根据Integer列动态定义每行
的
范围,该列具有我想要从该列中选取
的
元素
的
数量。有没有一种不用编写UDF就能做到这一点
的
方法呢? 通过一个例子来可视化这个问题:我有一个
数据
帧
,它有一个
数组
列arr,
在
每一行中都有一
浏览 43
提问于2019-09-02
得票数 4
回答已采纳
1
回答
Sparklyr如何查看变量
r
、
sparklyr
嗨,我有一个
嵌套
很深
的
json文件。我使用sparklyr读取这个json文件,并将其命名为"data“对象。首先,我将展示
数据
结构
:data -b : stringdata %>% sdf_select(a) # Database: <
浏览 9
提问于2018-02-19
得票数 1
2
回答
在
Parquet中使用
嵌套
数据
类型有什么好处?
apache-spark
、
nested
、
parquet
、
data-files
在
Parquet文件格式中使用
嵌套
数据
类型会带来任何性能上
的
好处吗?AFAIK Parquet文件通常是专门为查询服务(如Athena )创建
的
,因此创建这些文件
的
过程可以简单地平缓值--从而允许更容易地查询、简化模式,并保留每列
的
列统计信息。使用
嵌套
数据
类型(如struct )有什么好处?
浏览 0
提问于2018-03-25
得票数 3
回答已采纳
1
回答
用
Spark
高效读取PDF/text/word文件
java
、
apache-spark
、
hdfs
、
file-format
我正在对我
的
数据
进行NLP (自然语言处理)处理。
数据
的
格式可以是PDF/Text/Word/HTML类型
的
文件。这些文件存储
在
本地磁盘上
的
嵌套
目录
结构
中
。我
的
独立
的
基于Java
的
NLP解析器可以读取输入文件,从中
提取
文本,并对
提取
的
文本进行NLP处理。 我正在转换我
的</
浏览 1
提问于2017-05-20
得票数 1
1
回答
PySpark -保存配置单元表- org.apache.
spark
.SparkException:无法识别配置单元类型字符串
pyspark
、
databricks
、
apache-spark-2.0
我正在将
spark
数据
帧
保存到hive表
中
。
spark
dataframe是一个
嵌套
的
json
数据
结构
。我可以将
数据
帧
另存为文件,但它在上面创建了一个配置单元表时失败了,上面写着org.apache.
spark
.SparkException: Cannot recognize hive type string我不能先创建一个hive表模式,然后再将其插入其中,因为
数据</e
浏览 1
提问于2018-08-11
得票数 2
2
回答
中
的
结构
解析
数组
scala
、
apache-spark
、
apache-spark-sql
未定义Data列
中
的
元素
数,因此可以更改
元素
数。我需要解析这些
数据
并去掉
嵌套
结构
。(在这种情况下,
数组
Explode将无法工作,因为一行
中
的
数据
属于一个
元素
)。真正
的
模式要大得多,并且有
多个
数组
字段,比如'Data‘,所以我
的
目标是创建一个通用解决方案,应用于类似的
结构
数组<
浏览 0
提问于2020-08-04
得票数 0
回答已采纳
1
回答
如何将输入
数据
流保存到
Spark
中
sql查询
的
执行
数据
结构
中
?
dataframe
、
apache-spark
、
apache-spark-sql
、
bigdata
、
spark-streaming
我是大人物
的
新词。我
的
目标是
在
某种
数据
结构
中
维护输入
数据
流,以便对它们执行查询和聚合操作。以连续
数据
流为输入,通过
spark
的
结构
化流,我将其存储
在
DataFrame
中
。我
的
问题是: 是一种易失性
的
数据
结构
吗?
在
程序崩溃
的
情况下,是维护
的
吗
浏览 1
提问于2020-04-23
得票数 0
1
回答
你能在pyspark中有一列
数据
帧
吗?
nested
、
pyspark
、
spark-dataframe
、
pyspark-sql
我对pyspark/bigdata有点陌生,所以这可能不是一个好主意,但我有大约一百万个单独
的
CSV文件,每个文件都与一些元
数据
相关联。我想要一个pyspark dataframe所有元
数据
字段
的
列,但也有一个列,其条目是(整个) CSV文件与每组元
数据
相关联。 StructField("A", IntegerType(), True), StructField("B
浏览 2
提问于2016-11-17
得票数 0
1
回答
将
嵌套
的
json加载为字符串
apache-spark
、
pyspark
我有非常复杂和高度
嵌套
的
json
结构
,作为字符串存储
在
Hive表
中
。{"entry": [{..}, {...}]我不想为整个事件声明模式,而是只为根<e
浏览 1
提问于2018-04-10
得票数 0
回答已采纳
1
回答
如何将
spark
数据
帧
的
列移动到同一
数据
帧
中
的
嵌套
列?
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
我将
spark
数据
帧
的
列移动到同一
数据
帧
中
的
嵌套
列
的
方法如下所示: .appName("SparkByExamples.com") .getOrCreate() val data = Seq(("Adam&qu
浏览 19
提问于2021-02-05
得票数 0
回答已采纳
2
回答
apache
spark
数据
帧
中
的
分解
数组
scala
、
apache-spark
、
explode
、
spark-dataframe
我正在尝试使用
嵌套
字段来扁平化现有
数据
帧
的
模式。我
的
数据
帧
的
结构
是这样
的
:|-- Id: long (nullable = true) |-- Uri: stringtrue) | |-- element: string (contains
浏览 7
提问于2016-09-11
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Numpy基础入门(二)
Python数据分析入门日记Day6:数据分析库Pandas:Series和Dataframe
走进Java接口测试之理解JSON和XML基础
盐城工学院2018年五年制高职专升本《C语言程序设计》考试大纲
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券