从spark dataframe中的结构数组中筛选出空值的结构_Spark DataFrame中的结构排序数组_从结构元素的嵌套数组创建Spark DataFrame？ - 腾讯云开发者社区

scala、apache-spark

从MS SQL数据库导入数据时，可能会出现空值。在Spark中，DataFrames能够处理空值。但是，当我尝试将DataFrame转换为强类型Dataset时，收到编码器错误。下面是一个简单的例子： case class optionTest(var a: Option[Int], var b: Option[Int]) object testObject { def main(args: Array[String]): Unit = { import spark.implicits._ val df = spark.sparkContext.parallelize(

浏览 2提问于2017-03-31得票数 0

1回答

创建不可空的空数组列

scala、apache-spark

我在scala中使用spark(2.4)。我有一个dataframe，我正在尝试用dé故障值(空数组)替换空值(我的数组列)。 val emptyStringArray = udf(() => Array.empty[String], DataTypes.createArrayType(DataTypes.StringType, false)) def ensureNonNullCol: DataFrame => DataFrame = inputDf => { inputDf.select(inputDf.sc

浏览 7提问于2022-08-02得票数 0

2回答

访问空数组或空数组时引发错误

java、json、scala、apache-spark

我有一个带有这种模式的JSON文件： { "name" : "john doe", "phone-numbers" : { "home": ["1111", "222"], "country" : "England" } } 家庭电话号码数组有时可能是空的。我的spark应用程序收到这些JSONS的列表，并执行以下操作： val dataframe = spark.read.json(filePaths: _*) val result = da

浏览 2提问于2017-05-21得票数 3

回答已采纳

1回答

使用scala将一行添加到空的数据文件中

scala、apache-spark、dataframe、apache-spark-sql

我试图使用scala自动地将随机数据加载到一个空数据中。 import org.apache.spark.sql.DataFrame import org.apache.spark.sql.Row import org.apache.spark.rdd.RDD val df = spark.sql("select * from test.test") val emptyDF= spark.createDataFrame(spark.sparkContext.emptyRDD[Row], df.schema) 在这里，我尝试用测试表模式创建一个空的dataframe。在本例中，

浏览 0提问于2018-10-22得票数 2

回答已采纳

1回答

读取配置单元托管表时，Spark sql返回空dataframe

apache-spark、hive、pyspark、apache-spark-sql

使用HDP 3.1中的Spark 2.4和Hive 3.1.0，我试图使用spark sql从hive读取托管表，但它返回一个空的dataframe，而它可以轻松地读取外部表。如何通过spark sql从hive读取托管表？注意:当从hive客户端读取时，hive maanged表不是空的。 1-我尝试通过ORC和拼花来格式化表格，但两者都失败了。 2-我无法使用HWC读取它。 3-我在使用JDBC时无法读取它。 os.environ["HADOOP_USER_NAME"] = 'hdfs' spark = SparkSession\ .build

浏览 26提问于2019-09-25得票数 1

1回答

创建空的dataframe Java Spark

java、dataframe、apache-spark

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

2回答

火花放电中RDD到DF的不完全转换

python、apache-spark、pyspark

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

如何将数据帧中的org.apache.spark.mllib.linalg.Vector保存到cassandra

apache-spark、cassandra、apache-spark-sql、spark-dataframe、spark-cassandra-connector

我需要在其中一列中保存包含org.apache.spark.mllib.linalg.Vector的dataframe。在cassandra中从dataframe创建表时，抛出错误。 java.lang.Exception: Cassandra Writer Failed. java.lang.IllegalArgumentException: Unsupported type: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce at com.datastax.spark.connector.types.ColumnType$.u

浏览 28提问于2016-08-09得票数 3

1回答

我希望斯派克在保存到数据库时忽略坏记录

apache-spark、spark-jdbc

我正在使用spark保存数据库中的行。数据的保存很好。问题:如果遇到任何错误的记录(例如，当表期望非空值时为空值的列)，则火花将中止保存。我想要的东西：，我希望火花忽略坏的行，然后继续保存下一行。如何才能做到这一点？我在文件里没看到多少东西。使用StructType不是一种选择。有指针吗？我的代码看起来是这样的。 class DatabaseWriter { def writeData(dataFrameTobeWritten: DataFrame, schema: String, targetTableName: String, sparkSession: SparkSessi

浏览 4提问于2020-12-03得票数 1

1回答

如何在星火/Scala中将数据格式的日期值传递给查询

scala、apache-spark、pyspark、apache-spark-sql

我正在从“雪花”中的存储表中读取数据。我希望将日期从dataframe maxdatefromtbl传递给我在spark中的查询，以筛选记录。此条件(s"CREATED_DATE!='$maxdatefromtbl'")未按预期工作。 var retail = spark.read.format("snowflake").options(options).option("query","Select MAX(CREATED_DATE) as CREATED_DATE from RSTORE").load() va

浏览 4提问于2022-10-26得票数 0

回答已采纳

1回答

DataFrame列(Array类型)包含Null值和空数组(len =0)。如何将空数组转换为空数组？

arrays、pyspark、null

我已经用数组列( DataFrame )点燃了StringType 示例DataFrame: df = spark.createDataFrame([ [None], [[]], [['foo']] ]).toDF("a") 电流输出： +-----+ | a| +-----+ | null| | []| |[foo]| +-----+ 期望输出： +-----+ | a| +-----+ | []| | []| |[foo]| +-----+ 我需要将Null值转换为空Array，以便与另一个数组列连接。已经

浏览 1提问于2020-08-13得票数 0

回答已采纳

2回答

Spark DataFrames中的argmax :如何检索具有最大值的行

apache-spark、apache-spark-sql

给定一个Spark DataFrame df，我想在某个数值列'values'中找到最大值，并获得达到该值的行。我当然可以这样做： # it doesn't matter if I use scala or python, # since I hope I get this done with DataFrame API import pyspark.sql.functions as F max_value = df.select(F.max('values')).collect()[0][0] df.filter(df.values == max_v

浏览 0提问于2016-08-07得票数 15

回答已采纳

2回答

Spark fillNa不替换空值

apache-spark、pyspark

我有下面的数据集，它包含一些空值，需要在spark中使用fillna替换空值。 DataFrame： df = spark.read.format("com.databricks.spark.csv").option("header‌","true").load("/sam‌ple.csv") >>> df.printSchema(); root |-- Age: string (nullable = true) |-- Height: string (nullable = true) |-- Nam

浏览 1提问于2016-11-03得票数 20

回答已采纳

2回答

将文件读取并附加到spark数据文件中

pyspark

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？ from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import StructType import os, glob spark = SparkSession.builder.\ config("spark.jars.packages","saurf

浏览 1提问于2019-09-06得票数 3

回答已采纳

1回答

Kafka删除(墓碑)没有更新星火结构化流中的最大聚合

apache-spark、apache-kafka、spark-structured-streaming

我是原型，计算聚合在一个星火结构流(Spark3.0)作业和发布的更新卡夫卡。我需要计算的最大日期和最大百分比的所有时间(没有窗口)的每一组。代码看起来很好，除非在源流中有Kafka墓碑记录(删除)。流接收一个具有有效键和空值的Kafka记录，但是最大聚合继续在计算中包含该记录。什么是最好的选择，让这个重新计算，而没有删除记录时，删除是从卡夫卡消费？示例产生的信息： <"user1|1", {"user": "user1", "pct":30, "timestamp":"2021-01-01 01

浏览 6提问于2021-01-19得票数 0

2回答

如何在spark中插入空数据框中的值

pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我正在使用spark sql开发一个SPARK应用程序，我的工作之一是从两个表中选择值，并将其插入到一个空表中，这就是我的结果。但为此，我正在尝试使用spark创建一个空表，我已经创建了一个空数据框，但无法将其注册为表。下面是我的情况代码 from pyspark import SQLContext from pyspark.sql.types import StructType,StructField,StringType,DateType,IntegerType sqlc=SQLContext(sc) schema= StructType([StructField("Name&#

浏览 2提问于2016-08-03得票数 0

回答已采纳

1回答

计数和收集操作在空的spark数据帧上占用了大量时间

dataframe、pyspark

我用spark.createDataFrame([]，schema)创建了一个空的spark数据框，然后从列表中添加行，但是访问数据框( count-collect)花费了太多的时间，而不是在这个数据框上。对于从Csv文件创建的数据框上的1000行，函数dataframe.count()耗时300ms，但对于从模式创建的空数据框，则需要4秒。这里的差异是从哪里来的？ schema = StructType([StructField('Average_Power',FloatType(),True), StructField('Average_Temperature&

浏览 28提问于2019-07-02得票数 0

回答已采纳

1回答

星星之火(Scala)，考虑两年前的几天

scala、apache-spark

我正在用Scala编写一个Spark批处理作业，并且需要过滤一个dataframe ('driverTable'，带有列'date')，这样我只能将日期保持在2年前(丢弃所有其他列)。 val dayList: Seq[Date] = driverTable .select("date") .as[Date] .distinct .filter(s"date <= ... ") .collect() .sortBy(_.getTi

浏览 3提问于2021-05-25得票数 0

回答已采纳

1回答

火花结构化流检查点在生产中的使用

scala、apache-spark、apache-kafka、spark-structured-streaming、spark-kafka-integration

当使用Spark结构化流时，我难以理解检查点是如何工作的。我有一个火花处理程序，它生成一些事件，我将这些事件记录在一个Hive表中。对于这些事件，我收到卡夫卡流中的确认事件。我创造了一个新的火花过程将事件从Hive日志表中读取到DataFrame中使用Spark结构化流将这些事件与确认事件流连接起来将已连接的DataFrame写入HBase表。我在shell中测试了代码，它运行良好，低于伪代码(我使用的是Scala)。 val tableA = spark.table("tableA") val startingOffset = "ea

浏览 7提问于2020-07-08得票数 3

2回答

Scala/Spark -如何获取所有子数组的第一个元素

scala、apache-spark、apache-spark-sql

我在Spark中有以下DataFrame (我正在使用Scala)： [[1003014, 0.95266926], [15, 0.9484202], [754, 0.94236785], [1029530, 0.880922], [3066, 0.7085166], [1066440, 0.69400793], [1045811, 0.663178], [1020059, 0.6274495], [1233982, 0.6112905], [1007801, 0.60937023], [1239278, 0.60044676], [1000088, 0.5789191], [1056268,

浏览 1提问于2019-12-09得票数 1

回答已采纳

1回答

如何检查dataframe列不为空的值？

apache-spark-sql

我希望从dataframe中读取列的值，并检查该值是否为空，并且值的长度为<= 500。我的代码: import org.apache.spark.sql.functions._ object OmegaProcess { // Some scala lines of Code .... val line_flag = generateomegaLineFlag(omegaDF) def generateomegaLineFlag(omegaDF: DataFrame): Int = { if (omegaDF("omega_file_

浏览 2提问于2017-05-31得票数 0

回答已采纳

1回答

如何从pyspark中的dataframe列中选择不同的非空值

apache-spark、pyspark

如何从py-spark中的dataframe列中选择不同的非空值。

浏览 30提问于2021-07-03得票数 0

1回答

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

apache-spark、pyspark、apache-spark-sql

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列。当"X“是浮点数时，它是完全正常的，但是当我将"X”转换为字符串时，它会抛出隐式笛卡尔乘积的错误我在spark 2.4.5中收到了这个错误。为什么会发生这种

浏览 31提问于2020-12-20得票数 0

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳

1回答

创建一个空的数据帧

scala、apache-spark

因为我是新手，所以我有一个简单的疑问我必须创建一个空的dataframe，稍后我必须根据一些条件填充它。我已经经历了创建空数据帧的许多问题，但是下面这些方法之间的区别是什么我不知道这是不是正确的方法 def function1(df: DataFrame): DataFrame = { var newdf:DataFrame= null; if(!x._2(0).column.trim.isEmpty){ newdf= spark.sql("SELECT f_name,l_name FROM tab1"); }else{

浏览 1提问于2020-01-20得票数 1

1回答

Spark Scala -处理空DataFrame

scala、apache-spark

我有一个特定的要求，其中我需要检查空的DataFrame。如果为空，则填充默认值。这是我尝试过的，但没有得到我想要的。 def checkNotEmpty(df: org.apache.spark.sql.DataFrame, col: String):org.apache.spark.sql.DataFrame = { if (!df.rdd.isEmpty()) df else df.na.fill(0, Seq(col)) } val age = checkNotEmpty(w_feature_md.filter("age='22'"

浏览 4提问于2016-09-16得票数 2

1回答

从任意长度csv列创建火花数据

scala、apache-spark

我正在尝试从我的dataframe中的单个csv格式化列创建一个新的dataframe。我之前不知道模式，所以我尝试使用没有模式参数的spark.createDataFrame方法(类似于中的方法1)。我正在尝试下面这样的代码，但会引发异常： var csvrdd = df.select(df("Body").cast("string")).rdd.map{x:Row => x.getAs[String](0)}.map(x => x.split(",").toSeq) var dfWithoutSchema = spark.cre

浏览 6提问于2017-05-08得票数 0

回答已采纳

1回答

Snowflake : SQL访问控制错误:权限不足，无法对架构进行操作

pyspark、aws-glue、snowflake-cloud-data-platform

我已经编写了aws glue job，我试图将雪花表作为spark数据帧读取，并尝试将spark数据帧写入snowflake表。在这两种情况下，我的工作都无法显示“操作模式的权限不足”。但是当我在雪花cli上直接写insert语句时，我能够插入数据。所以基本上我有插入权限。那么，当我尝试从dataframe中插入数据或从snowflake表中读取数据作为dataframe时，我的作业为什么会失败呢？下面是我将数据写入雪花表的代码。 sfOptions = { "sfURL" : "xt30972.snowflakecomputing.com",

浏览 0提问于2019-02-09得票数 0

1回答

如何将数据架构的字符串拆分为每个结构

scala、apache-spark、schema

我想将dataframe的架构拆分为一个集合。我正在尝试这个方法，但是模式被打印成一个字符串。我是否可以将其拆分为每个StructType的集合，以便对其进行操作(比如只从输出中提取数组列)？我试图平平一个复杂的多层次的结构+数组数据。 import org.apache.spark.sql.functions.explode import org.apache.spark.sql._ val test = sqlContext.read.json(sc.parallelize(Seq("""{"a":1,"b":[2,3],"

浏览 0提问于2018-03-09得票数 0

回答已采纳

2回答

我可以对列执行哪些操作

scala、apache-spark、apache-spark-sql

我有一张桌子 DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15 United States Croatia 1 United States Ireland 344 我把上面的代码转换成了DataFrame val flightData2015 = spark .read .option("inferSchema", "true")//infers the input schema automatically from data .option("he

浏览 19提问于2019-02-08得票数 0

回答已采纳

2回答

使用spark连接器从snowflake自定义数据类型映射

python、pyspark、pyspark-sql、snowflake-cloud-data-platform

使用snowflake spark连接器从snowflake复制表时，默认行为是将结构化数据映射到spark字符串：https://docs.snowflake.net/manuals/user-guide/spark-connector-use.html#from-snowflake-to-spark-sql 例如，给定snowflake中的一个表： create table schema.table as select array_construct('1','a') as array_col, object_construct(

浏览 26提问于2019-05-30得票数 1

4回答

如何在写拼图文件时避免空文件？

apache-spark、pyspark、spark-structured-streaming

我正在使用Spark Structured从Kafka队列中读取。读完卡夫卡之后，我在dataframe上应用了filter。我正在将这个经过过滤的数据帧保存到一个拼图文件中。这将生成许多空拼图文件。有没有什么方法可以让我不再写空文件？ df = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", KafkaServer) \ .option("subscribe", KafkaTopics) \ .load

浏览 1提问于2017-09-27得票数 2

2回答

在spark结构化流中写入来自kafka / json数据源的损坏数据

apache-spark、apache-spark-sql、spark-structured-streaming

在spark批处理作业中，我通常会将JSON数据源写入到一个文件中，并且可以使用DataFrame阅读器的损坏列功能将损坏的数据写出到不同的位置，并使用另一个阅读器从同一作业中写入有效数据。(数据写为拼接) 但在Spark Structred Streaming中，我首先通过kafka将流作为字符串读取，然后使用from_json获取我的DataFrame。然后，from_json使用JsonToStructs，它在解析器中使用FailFast模式，并且不将未解析的字符串返回到DataFrame中的列。(参见参考文献中的注释)那么我如何使用SSS将与我的模式不匹配的损坏数据和可能无效的JSO

浏览 34提问于2018-12-27得票数 1

回答已采纳

1回答

如何从火花放电中的字符串中创建相同的结构数组？

python、scala、apache-spark、pyspark、apache-spark-sql

我编写了将字符串转换为结构数组的代码。我也想在python上做同样的事情。你知道我该怎么做吗？ import org.apache.spark.sql.DataFrame import org.apache.spark.sql.functions._ import org.apache.spark.sql.Column val df: DataFrame = Seq( "adserviceCalculateCpcAlgorithmV1:2;searchProductsDecorator:3;searchOffersDecorator:3;bundlediscounts:5;se

浏览 3提问于2022-08-02得票数 0

回答已采纳

2回答

如何使用pySpark读取分区parquets的子示例？

python-3.x、apache-spark、pyspark、apache-spark-sql

假设为我提供了parquets数据的以下分区： . └── data/ ├── product=soda/ │ ├── <hash>_toto.parquet │ ├── ... │ └── <hash>.parquet └── product=cake/ ├── <hash>.parquet └── ... 我想使用PySpark读取数据，但不包括包含<hash>_toto.parquet的给定parquets列表。我可以读取整个分区数据，但我不知道如何排除其

浏览 8提问于2022-01-20得票数 1

回答已采纳

1回答

无法添加spark列并添加元组数据

scala、apache-spark

下面是需要填充到dataframe中的数据 val columnNames = Array("ID", "Name","Age") val d1 = Array("QWER","TOM","28") val d2 = Array( "SPSRT","BENJI","45") val d1zip = columnNames.zip(d1) val d2zip1 = columnNames.zip(d2)

浏览 8提问于2022-03-25得票数 0

1回答

基于先前值的前向填充电火花数据

python、dataframe、pyspark、apache-spark-sql

我有两个火花数据，这将是充分的外部连接。 df1 = spark.createDataFrame(pd.DataFrame([[1,5,[1,2]],[1,15,[1,3]],[2,4,[3,4]]], columns=["id","day","state"])) df2 = spark.createDataFrame(pd.DataFrame([[1,10,[5,6]],[1,12,[7]],[2,4,[3]], [2,6,[10

浏览 2提问于2022-09-29得票数 1

回答已采纳

2回答

空行，尽管使用NULL和<> '‘

postgresql、pandas、blank-line

我正在尝试从我的表中删除所有空/空白单元格。但是，即使在尝试用标题中的上述方法删除空白单元格之后，我仍然保留一些空白单元格。我试过NOT NULL和<> ''，同样，我也尝试过>0。所有这些似乎都没有去除空白细胞。我不知道它还能是什么类型的。列是varchar，所以很难识别它是什么。从表面上看，没有人遇到过这种情况，因为我没有找到任何类似的文章或问题。这张桌子乱七八糟，到处都是明显的矛盾。我所用的声明是： SELECT * FROM table WHERE column is NOT NULL AND column <> ''

浏览 0提问于2019-02-01得票数 0

回答已采纳

1回答

火花:从嵌套DataFrame打印元素

scala、apache-spark、dataframe

我试图从包含嵌套值的DataFrame中打印特定元素：这是我得到的Spark SQL DataFrame： scala>result org.apache.spark.sql.DataFrame = [P1: struct<t1:tinyint,t2:tinyint,t3:smallint,t4:int>, P2:struct<k1:tinyint,k2:int>] 它包括： scala>result.take(3).foreach(println) [[15,78,60,1111111],[10,7525619]] [[15,78,60,2222222]

浏览 4提问于2015-12-02得票数 0

回答已采纳

1回答

数据帧为空时的联合问题

scala、apache-spark

我想在循环中将一个dataframe附加到另一个空dataframe，最后写到一个位置。我的代码- val myMap = Map(1001 -> "rollNo='12'",1002 -> "rollNo='13'") val myHiveTableData = spark.table(<table_name>) val allOtherIngestedData = spark.createDataFrame(sc.emptyRDD[Row],rawDataHiveDf.schema) myMap.k

浏览 8提问于2020-07-23得票数 0

2回答

Spark DataFrameWriter ignoreNullFields不工作

apache-spark、apache-spark-sql

我有一个包含多个具有不同模式的空值的DataFrame df.show(false) +----+----+----+----+ |col1|col2|col3|col4| +----+----+----+----+ |null|null|1 |a | +----+----+----+----+ 我尝试将此数据帧作为JSON文件写入HDFS，但Spark在写入JSON时省略了为空的字段。这可以理解为但即使我使用 spark.write.option("ignoreNullFields", "false").json(...) 或 spark.write

浏览 50提问于2020-02-27得票数 3

1回答

试图将DataFrame写入csv文件

scala、apache-spark、apache-spark-sql

我正在尝试将我的DataFrame写入CSV文件。我试过这个 df.write.format("com.databricks.spark.csv").option("header", true) .option("codec", "org.apache.hadoop.io.compress.GzipCodec").save("myFile.csv") 但它给了我一个错误： java.lang.UnsupportedOperationException: CSV data source does not su

浏览 5提问于2017-03-15得票数 2

1回答

Spark Dataframe最大列数

apache-spark、pyspark、apache-spark-sql

spark Dataframe的最大列数是多少？我试着从data frame文档中获取它，但找不到。

浏览 9提问于2016-09-07得票数 7

1回答

KMeansModel.clusterCenters返回空

scala、apache-spark、k-means、apache-spark-mllib、aws-glue

我正在使用AWS胶水在我的数据集上执行Kmeans集群。我不仅希望找到集群标签，还希望找到集群中心。我找不到晚一点的。在下面的代码中，model.clusterCenters返回NULL。clusterInstance集群工作得很好，它返回集群标签，即KMeans变量。 import java.time.LocalDate import java.time.format.DateTimeFormatter import com.amazonaws.services.glue.util.JsonOptions import com.amazonaws.services.glue.{Dynam

浏览 0提问于2018-09-25得票数 0

1回答

星星之火:未能将包含空值的布尔列发送到Oracle

oracle、scala、apache-spark、apache-spark-sql

我有一个包含布尔列(TRUE、FALSE、NULL)的dataframe。当我使用Spark2 Scala将此数据发送到Oracle19c中的现有表时，由于错误: java.sql.SQLException:无效列类型: 16，它失败了。但是，当它们不是dataframe中的空值时，任务就成功地完成了。此外，如果我将一个空值直接插入到Oracle中的布尔字段中，我就没有问题(这只是为了在Oracle中直接测试空值)。我使用Spark在Oracle中编写数据的方式如下： df.write.mode(SaveMode.Append).jdbc(url, tableName, connectio

浏览 2提问于2021-03-21得票数 1

1回答

我有一个满是对象的数组。所有对象都有密钥作者和发行者。我想找出出版大多数不同作者的出版商

javascript

这里，我用key (publisher)和value author设置空对象；我也试过了，然后把它们推到空数组中。 let publisherAutors = {}; let pushedAutorsPerPublisher = []; 使用这个循环，我从我的图书馆获取元素，这些元素是书籍(对象)，我把出版商和编辑都拿出来了。 for (let i = 0; i < library.length; i++) { const element = library[i]; autorCount = 0; 我想我的问题是，在if语句中，我想比较一下，但是有些地方出了问题。 if (

浏览 3提问于2022-01-31得票数 -3

1回答

对于spark结构化流式处理Json记录，架构是否为必填项

apache-spark、spark-streaming、spark-structured-streaming

我正在浏览下面的博客中的spark structured。他首先使用下面的代码创建模式变量。 val cloudTrailSchema = new StructType() .add("Records", ArrayType(new StructType() .add("additionalEventData", StringType) .add("apiVersion", StringType) .add("awsRegion", StringType) 下面是实际的spark代码 val raw

浏览 3提问于2018-03-23得票数 1

2回答

是否会在每次操作中从外部源读取数据？

caching、apache-spark、spark-csv

在星火外壳上，我使用下面的代码从csv文件中读取 val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the spark session df.show() 假设这将显示10行。如果我通过编辑在csv中添加一个新行，那么调用df.show()是否会再次显示新行？

浏览 5提问于2016-12-05得票数 1

回答已采纳

1回答

PySpark替换()函数不使用空值替换整数

python、dataframe、python-2.7、apache-spark、pyspark

注意:这是用于Spark 2.1.1.2.6.1.0-129 我有一个星星之火数据帧(Python)。我想用空值替换整个dataframe的所有0实例(不指定特定的列名)。以下是我编写的代码： my_df = my_df.na.replace(0, None) 以下是我收到的错误： File "<stdin>", line 1, in <module> File "/usr/hdp/current/spark2-client/python/pyspark/sql/dataframe.py", line 1634, in repl

浏览 4提问于2021-10-24得票数 0

回答已采纳

2回答

pyspark json读取忽略空集

python、json、apache-spark、pyspark

在Pyspark中，每当我读取一个带有空set元素的json文件时。在生成的DataFrame中会忽略整个元素。我怎样才能让spark考虑一下而不忽略它。我使用的是spark 2.4.2和Python 3.7.3 我尝试使用df.fillna('Null')。这不起作用，因为在创建DataFrame的那一刻，元素就不在那里了。 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("SimpleApp").getOrCreate() people = ['{

浏览 0提问于2019-07-19得票数 0