腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
中
连接
MapType
值
时
如何
处理
空
值
scala
、
apache-spark
、
null
我正在尝试使用concat_map()
连接
Maptype
的两列。我的问题是,当我试图
连接
一个null和一个映射
时
,我得到了一个null,而我希望获得nonNull映射
值
。DF_concatenated= DF.select(col("_1"), map_concat(col("m2"),col("m3"))).show() 我正在尝试从这个DataFrame DF
中
获得
浏览 26
提问于2021-07-09
得票数 2
1
回答
向现有DataFrame添加
mapType
列
scala
、
dataframe
、
apache-spark
关于
Spark
中
的Scala
中
的DataFrames,我有一个简单而快速的问题。我有一个现有的
Spark
DataFrame (
在
Scala2.10.5和
Spark
1.6.3上运行),我想用ArrayType或
MapType
添加一个新列,但不知道
如何
实现。但不知道该怎么
处理
。我不想用“单一”
值
创建多个列,而是将它们存储
在
一个列
中
。这将缩短我的代码,并使其更容易更改。import
浏览 9
提问于2019-11-20
得票数 0
3
回答
将模式数据类型JSON混合到PySpark DataFrame
python
、
json
、
pyspark
问题是JSON
中
dicts的
值
条目有不同的数据类型。 例如:字段complex是一个Dicts数组,Dict有四个键,但类型不同(整数、字符串、浮点数和嵌套Dict)。参见下面的示例JSON。如果我使用df =
spark
.createDataFrame(json_list)从jsons
中
创建我的DataFrame,因为他无法正确地推断模式,所以pyspark“删除”了一些数据。PySpark决定complex-field的架构应为:StructType("complex", ArrayType(<em
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
1
回答
在
拼图中的map类型列上使用
spark
-sql过滤下推
dictionary
、
apache-spark
、
predicate
、
parquet
我正在尝试以嵌套的方式
在
拼图中存储我的数据,并使用映射类型列将复杂的对象存储为
值
。['1M'] from RiskFactor where businessDate='2016-03-14' and bookId='FI-UK'` measureMap是一个映射,关键字作为字符串,
值
作为自定义数据类型我想知道下推是否会在map上起作用,例如,如果map有10个键值对,
Spark
会将整个map的数据存储在内存
中
并创建对象模型,或者它会在I/
浏览 2
提问于2016-06-21
得票数 6
1
回答
如何
在pyspark
中
连接
不同的map类型
pyspark
、
apache-spark-sql
我有不同的地图类型,如下所示:
MapType
(StringType(), IntegerType())
如何
在保持类型不变的情况下将其合并为一个?
浏览 0
提问于2020-07-26
得票数 1
1
回答
Spark
dataframe
中
ListType、
MapType
、StructType字段的通用
处理
scala
、
apache-spark
、
apache-spark-sql
如何
在Scala
中
对
Spark
StructType执行通用
处理
,如按名称选择字段、遍历映射/列表字段等?
在
spark
dataframe
中
,我有类型为"ArrayType“的列"instances”,其模式如下: instances[ArrayType]: } return total
浏览 117
提问于2020-07-10
得票数 0
1
回答
卡桑德拉映射可能持有空
值
dictionary
、
null
、
cassandra
卡桑德拉(CQL 3) map能保持
空
值
吗?我认为null
值
是允许的,但是我的程序的失败表明情况并非如此。或者我正在使用的驱动程序中有错误?所以键可能不是
空
的(否则排序是不可能的),但是没有提到映射
值
不为
空
的要求。 我有一个字段是map<timestamp,uuid>,我正在尝试将它写到使用Map< Date, UUID >
中
的
值
。其中一个映射
值
(UUIDs)为
空
。当编组映射的UUID
浏览 5
提问于2014-07-29
得票数 8
回答已采纳
1
回答
如何
在
中
创建嵌套的二元组
python
、
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
小队,我需要你的帮助我
处理
了一个CSV
值
文件,并传递给map函数来创建一个嵌套的字典结构。当我
处理
地图函数
中
的数据
时
..。嵌套字典的
值
以字符串的形式返回。我需要嵌套的字典作为dict。它转换为String的原因是..默认情况下,火花中的
MapType
处理
Map(StringType, StringType
浏览 7
提问于2020-01-05
得票数 1
回答已采纳
2
回答
不使用UDF从dataframe访问scala映射
scala
、
apache-spark
、
apache-spark-sql
、
rdd
、
user-defined-functions
我有一个
Spark
(版本1.6) Dataframe,我想添加一个包含在Scala
中
的
值
的列,这是我的简化代码:valdf2 = df.withColumn("newVal", map(col("key")))found : org.apache.
浏览 2
提问于2018-05-18
得票数 2
回答已采纳
2
回答
将Case类
中
的映射类型转换为StructField类型
scala
、
apache-spark
我有一个case类,我想将它转换为
Spark
中
的模式
如何
将此类转换为架构对象StructField("request1", Map[String, Any], false),StructField(" response1", Option[String],true)) 地图和选项
在</e
浏览 0
提问于2016-01-06
得票数 7
1
回答
左联接错误: org.apache.
spark
.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积
apache-spark
、
pyspark
、
apache-spark-sql
*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache
Spark
2.4.5
中
出现标题异常 df_raw有2列"x“、"y”的数据,而df_items是模式的
空
数据框,还有其他一些列 左
连接
发生在null的
值
上,它应该从第一个dataframe
中
获取整个数据,并从第二个dataframe
中
获取
空
列。当"X“是浮点
浏览 31
提问于2020-12-20
得票数 0
4
回答
如何
将
空
映射类型列添加到DataFrame?
dataframe
、
scala
、
apache-spark
、
dictionary
、
apache-spark-sql
string我试过密码:错误是: (致: String)org.apache.
spark
.sql.Column ( to : org.apache.
spark
.sql.types.DataType)org.apache.
s
浏览 12
提问于2017-05-28
得票数 10
回答已采纳
1
回答
为什么我的数据类型
在
作为Int开始
时
是Any?
scala
、
types
、
spark-dataframe
我正在读入一个带有权重的有向边(源节点和目标节点)的文件;第一部分似乎工作得很好:import org.apache.
spark
.SparkContext._import org.apache.
spark
.sql.SQLContext import org.apache.
spark
.sql.functions按照与上面相同的思路,我成功地为每个节点构建了两个数据
浏览 0
提问于2018-03-11
得票数 1
2
回答
Spark
DataFrame对数据集为
空
scala
、
apache-spark
从MS SQL数据库导入数据
时
,可能会出现
空
值
。
在
Spark
中
,DataFrames能够
处理
空
值
。但是,当我尝试将DataFrame转换为强类型Dataset
时
,收到编码器错误。Int], var b: Option[Int]) def main(args: Array[String]): Unit = { import
spark
.implic
浏览 2
提问于2017-03-31
得票数 0
1
回答
具有Struct列类型的读/写部分
apache-spark
、
pyspark
、
apache-spark-sql
、
pyarrow
、
fastparquet
: 30}]fastparquet.write('/my/parquet/location/toy-fastparquet.parq', df)df =
spark
.read.parquet("/my/parquet/location/") df.registerTempTa
浏览 8
提问于2020-02-14
得票数 4
回答已采纳
2
回答
用null替换空字符串会导致数据帧大小增加吗?
apache-spark
、
spark-dataframe
我很难理解以下现象:
在
Spark
2.2
中
,
在
Scala上,
在
将文字空字符串的
值
替换为DataFrame (Null)后,我发现持久化的空字符串大小有了显著的增加。这是我用来替换空字符串
值
的函数: var in = df for (e <- df.columns
浏览 2
提问于2017-11-20
得票数 3
2
回答
从火花表中提取json的
值
会导致SyntaxError错误,或者keyType应该是DataType错误。
python
、
json
、
apache-spark
、
pyspark
、
apache-spark-sql
假设我在下面有这样的数据org:123|{"inn":"123”, "prof": "tkie"}org.withColumn('inn', from_json($"raw",
MapType
(StringType, StringType))).withColumn('inn', col('searchcard
浏览 14
提问于2021-12-27
得票数 0
回答已采纳
2
回答
熊猫数据到星火数据,
处理
NaN转换为实际
空
?
python
、
pandas
、
apache-spark
、
apache-spark-sql
我想把数据从熊猫转换为火花,我正在使用
spark
_context.createDataFrame()方法来创建数据。我还将在createDataFrame()方法中指定模式。我想知道的是
如何
处理
特殊情况。例如,熊猫
中
的NaN,当转换为
Spark
时
,最终会变成字符串"NaN“。我
在
寻找
如何
获得实际的
空
值
而不是"NaN“的方法。
浏览 3
提问于2017-07-19
得票数 11
回答已采纳
1
回答
火花SQL卡桑德拉
如何
处理
时间戳
空
值
?
cassandra
、
apache-spark
、
apache-spark-sql
我目前正在使用ApacheCassandra2.1.2集群和
Spark
1.2.0
连接
器。对于一些初始测试,我需要通过
Spark
命令从Cassandra表中选择一些行。
spark
-shell -i myscript
在
一行包含ts单元格的
空
值
之前,一切都是正常的。如果有一个为ts
值
为
空
的行,那么我得到了几个与several相关的异常,它们等待一个长
值
(8个字节),却没有字节。即使我试图
在
不显示行的情况
浏览 5
提问于2015-01-29
得票数 0
2
回答
所有
Spark
SQL DataType的Scala类型映射是什么
sql
、
scala
、
apache-spark
、
apache-spark-sql
、
sqldatatypes
可用于
Spark
SQL的不同DataType可以
在
中找到。谁能告诉我每个
Spark
SQL的DataType对应的Java/Scala数据类型是什么?
浏览 0
提问于2015-10-02
得票数 10
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python数据处理技巧:如何将数据列表中的空值补0
灵活强大:iObjects Java for Spark模块扩展开发
教程:Apache Spark SQL入门及实践指南!
XGBoost缺失值引发的问题及其深度分析
每天读一本:Spark快速大数据分析
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券