在Spark中连接MapType值时如何处理空值_Apache Spark (PySpark)在读取CSV时处理空值_如何在spark scala中处理模式匹配中的空值 - 腾讯云开发者社区

scala、apache-spark、null

我正在尝试使用concat_map()连接Maptype的两列。我的问题是，当我试图连接一个null和一个映射时，我得到了一个null，而我希望获得nonNull映射值。DF_concatenated= DF.select(col("_1"), map_concat(col("m2"),col("m3"))).show() 我正在尝试从这个DataFrame DF中获得

浏览 26提问于2021-07-09得票数 2

1回答

向现有DataFrame添加mapType列

scala、dataframe、apache-spark

关于Spark中的Scala中的DataFrames，我有一个简单而快速的问题。我有一个现有的Spark DataFrame (在Scala2.10.5和Spark 1.6.3上运行)，我想用ArrayType或MapType添加一个新列，但不知道如何实现。但不知道该怎么处理。我不想用“单一”值创建多个列，而是将它们存储在一个列中。这将缩短我的代码，并使其更容易更改。import

浏览 9提问于2019-11-20得票数 0

3回答

将模式数据类型JSON混合到PySpark DataFrame

python、json、pyspark

问题是JSON中dicts的值条目有不同的数据类型。例如:字段complex是一个Dicts数组，Dict有四个键，但类型不同(整数、字符串、浮点数和嵌套Dict)。参见下面的示例JSON。如果我使用df = spark.createDataFrame(json_list)从jsons中创建我的DataFrame，因为他无法正确地推断模式，所以pyspark“删除”了一些数据。PySpark决定complex-field的架构应为：StructType("complex", ArrayType(<em

浏览 23提问于2022-03-28得票数 0

回答已采纳

1回答

在拼图中的map类型列上使用spark-sql过滤下推

dictionary、apache-spark、predicate、parquet

我正在尝试以嵌套的方式在拼图中存储我的数据，并使用映射类型列将复杂的对象存储为值。['1M'] from RiskFactor where businessDate='2016-03-14' and bookId='FI-UK'` measureMap是一个映射，关键字作为字符串，值作为自定义数据类型我想知道下推是否会在map上起作用，例如，如果map有10个键值对，Spark会将整个map的数据存储在内存中并创建对象模型，或者它会在I/

浏览 2提问于2016-06-21得票数 6

1回答

如何在pyspark中连接不同的map类型

pyspark、apache-spark-sql

我有不同的地图类型，如下所示：MapType(StringType(), IntegerType())如何在保持类型不变的情况下将其合并为一个？

浏览 0提问于2020-07-26得票数 1

1回答

Spark dataframe中ListType、MapType、StructType字段的通用处理

scala、apache-spark、apache-spark-sql

如何在Scala中对Spark StructType执行通用处理，如按名称选择字段、遍历映射/列表字段等？在spark dataframe中，我有类型为"ArrayType“的列"instances”，其模式如下： instances[ArrayType]: } return total

浏览 117提问于2020-07-10得票数 0

1回答

卡桑德拉映射可能持有空值

dictionary、null、cassandra

卡桑德拉(CQL 3) map能保持空值吗？我认为null值是允许的，但是我的程序的失败表明情况并非如此。或者我正在使用的驱动程序中有错误？所以键可能不是空的(否则排序是不可能的)，但是没有提到映射值不为空的要求。我有一个字段是map<timestamp,uuid>，我正在尝试将它写到使用Map< Date, UUID >中的值。其中一个映射值(UUIDs)为空。当编组映射的UUID

浏览 5提问于2014-07-29得票数 8

回答已采纳

1回答

如何在中创建嵌套的二元组

python、dataframe、apache-spark、pyspark、apache-spark-sql

小队，我需要你的帮助我处理了一个CSV值文件，并传递给map函数来创建一个嵌套的字典结构。当我处理地图函数中的数据时..。嵌套字典的值以字符串的形式返回。我需要嵌套的字典作为dict。它转换为String的原因是..默认情况下，火花中的MapType处理Map(StringType, StringType

浏览 7提问于2020-01-05得票数 1

回答已采纳

2回答

不使用UDF从dataframe访问scala映射

scala、apache-spark、apache-spark-sql、rdd、user-defined-functions

我有一个Spark (版本1.6) Dataframe，我想添加一个包含在Scala中的值的列，这是我的简化代码：valdf2 = df.withColumn("newVal", map(col("key")))found : org.apache.

浏览 2提问于2018-05-18得票数 2

回答已采纳

2回答

将Case类中的映射类型转换为StructField类型

scala、apache-spark

我有一个case类，我想将它转换为Spark中的模式如何将此类转换为架构对象StructField("request1", Map[String, Any], false),StructField(" response1", Option[String],true)) 地图和选项在</e

浏览 0提问于2016-01-06得票数 7

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

apache-spark、pyspark、apache-spark-sql

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列。当"X“是浮点

浏览 31提问于2020-12-20得票数 0

4回答

如何将空映射类型列添加到DataFrame？

dataframe、scala、apache-spark、dictionary、apache-spark-sql

string我试过密码：错误是： (致: String)org.apache.spark.sql.Column ( to : org.apache.spark.sql.types.DataType)org.apache.s

浏览 12提问于2017-05-28得票数 10

回答已采纳

1回答

为什么我的数据类型在作为Int开始时是Any？

scala、types、spark-dataframe

我正在读入一个带有权重的有向边(源节点和目标节点)的文件；第一部分似乎工作得很好：import org.apache.spark.SparkContext._import org.apache.spark.sql.SQLContext import org.apache.spark.sql.functions按照与上面相同的思路，我成功地为每个节点构建了两个数据

浏览 0提问于2018-03-11得票数 1

2回答

Spark DataFrame对数据集为空

scala、apache-spark

从MS SQL数据库导入数据时，可能会出现空值。在Spark中，DataFrames能够处理空值。但是，当我尝试将DataFrame转换为强类型Dataset时，收到编码器错误。Int], var b: Option[Int]) def main(args: Array[String]): Unit = { import spark.implic

浏览 2提问于2017-03-31得票数 0

1回答

具有Struct列类型的读/写部分

apache-spark、pyspark、apache-spark-sql、pyarrow、fastparquet

: 30}]fastparquet.write('/my/parquet/location/toy-fastparquet.parq', df)df = spark.read.parquet("/my/parquet/location/") df.registerTempTa

浏览 8提问于2020-02-14得票数 4

回答已采纳

2回答

用null替换空字符串会导致数据帧大小增加吗？

apache-spark、spark-dataframe

我很难理解以下现象:在Spark2.2中，在Scala上，在将文字空字符串的值替换为DataFrame (Null)后，我发现持久化的空字符串大小有了显著的增加。这是我用来替换空字符串值的函数： var in = df for (e <- df.columns

浏览 2提问于2017-11-20得票数 3

2回答

从火花表中提取json的值会导致SyntaxError错误，或者keyType应该是DataType错误。

python、json、apache-spark、pyspark、apache-spark-sql

假设我在下面有这样的数据org：123|{"inn":"123”, "prof": "tkie"}org.withColumn('inn', from_json($"raw", MapType(StringType, StringType))).withColumn('inn', col('searchcard&#

浏览 14提问于2021-12-27得票数 0

回答已采纳

2回答

熊猫数据到星火数据，处理NaN转换为实际空？

python、pandas、apache-spark、apache-spark-sql

我想把数据从熊猫转换为火花，我正在使用spark_context.createDataFrame()方法来创建数据。我还将在createDataFrame()方法中指定模式。我想知道的是如何处理特殊情况。例如，熊猫中的NaN，当转换为Spark时，最终会变成字符串"NaN“。我在寻找如何获得实际的空值而不是"NaN“的方法。

浏览 3提问于2017-07-19得票数 11

回答已采纳

1回答

火花SQL卡桑德拉如何处理时间戳空值？

cassandra、apache-spark、apache-spark-sql

我目前正在使用ApacheCassandra2.1.2集群和Spark1.2.0连接器。对于一些初始测试，我需要通过Spark命令从Cassandra表中选择一些行。spark-shell -i myscript 在一行包含ts单元格的空值之前，一切都是正常的。如果有一个为ts值为空的行，那么我得到了几个与several相关的异常，它们等待一个长值(8个字节)，却没有字节。即使我试图在不显示行的情况

浏览 5提问于2015-01-29得票数 0

2回答

所有Spark* SQL DataType的Scala类型映射是什么*

sql、scala、apache-spark、apache-spark-sql、sqldatatypes

可用于Spark SQL的不同DataType可以在中找到。谁能告诉我每个Spark SQL的DataType对应的Java/Scala数据类型是什么？

浏览 0提问于2015-10-02得票数 10

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云