如何使用Spark Sql连接null列？

Spark SQL是Apache Spark的一个模块，用于处理结构化数据。在Spark SQL中，连接null列的方法取决于具体的需求和数据处理场景。以下是一种常见的方法：

使用isNull()函数进行过滤：可以使用isNull()函数来筛选出包含null值的列，并进行相应的处理。示例代码如下：

import org.apache.spark.sql.functions._

val df = spark.read.format("csv").option("header", "true").load("data.csv")
val filteredDF = df.filter(col("columnName").isNull)

在上述代码中，我们使用了isNull()函数来筛选出名为"columnName"的列中包含null值的行。

使用coalesce()函数进行替换：如果需要将null值替换为其他值，可以使用coalesce()函数。示例代码如下：

import org.apache.spark.sql.functions._

val df = spark.read.format("csv").option("header", "true").load("data.csv")
val replacedDF = df.withColumn("columnName", coalesce(col("columnName"), lit("replacementValue")))

在上述代码中，我们使用coalesce()函数将名为"columnName"的列中的null值替换为"replacementValue"。

使用join操作连接null列：如果需要连接包含null值的列，可以使用join操作。示例代码如下：

val df1 = spark.read.format("csv").option("header", "true").load("data1.csv")
val df2 = spark.read.format("csv").option("header", "true").load("data2.csv")

val joinedDF = df1.join(df2, Seq("columnName"), "inner")

在上述代码中，我们使用join操作连接了两个数据集，连接键为名为"columnName"的列。

需要注意的是，以上方法仅为常见的处理方式，具体的使用方法取决于数据的结构和需求。在实际应用中，可以根据具体情况选择合适的方法来处理连接null列的场景。

关于Spark SQL的更多信息和使用方法，可以参考腾讯云的产品文档：Spark SQL产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

左联接错误: org.apache.spark.sql.AnalysisException:检测到逻辑计划之间的左外部联接的隐式笛卡尔乘积

、、

*编辑 df_joint = df_raw.join(df_items,on='x',how='left') Apache Spark 2.4.5中出现标题异常 df_raw有2列"x“、"y”的数据，而df_items是模式的空数据框，还有其他一些列左连接发生在null的值上，它应该从第一个dataframe中获取整个数据，并从第二个dataframe中获取空列。当"X“是浮点数时，它是完全正常的，但是当我将"X”转换为字符串时，它会抛出隐式笛卡尔乘积的错误我在spark 2.4.5中收到了这个错误。为什么会发生这种

浏览 31提问于2020-12-20得票数 0

17回答

在Apache Spark DataFrame中连接列

、、、

如何在Apache Spark DataFrame中连接两列？Spark SQL中有没有我们可以使用的函数？

浏览 7提问于2015-07-16得票数 159

1回答

我怎样才能在Scala中加入星火数据的列表呢？

、

我有一个Seq of Spark (即Seq[org.apache.spark.sql.DataFrame])，它可以包含一个或多个元素。有一个列的列表对每个数据文件都是通用的，每个dataframe也有一些额外的列。我想要做的是使用连接条件中的那些公共列将所有这些数据文件连接在一起(记住，数据格式的数量是未知的) 我怎样才能把所有这些数据文件连接起来？我想我可以对它们进行foreach，但这似乎不太优雅。谁能想出一种更实用的方法来做这件事呢？编辑:递归函数会比预测更好，我现在正在做这个工作，完成后会在这里发布。下面是一些代码，它创建了n个dataframes列表(在本例中是n=3)，每个列

浏览 0提问于2018-05-15得票数 4

回答已采纳

1回答

将数组类型的列处理为udf时的Spark - java.lang.ClassCastException [数组[Map[String，String]

、、、

我连接了Array[Map[String,String]]类型的spark中的两个列，生成了一个新的Array[Array[Map[String,String]]]类型的列。但是，我希望将该列展平，以获得一个Array[Map[String,String]]类型的列，其中包含两个原始列的值我从Spark2.4中读到，可以直接在列的连接上应用flatten。如下所示： df.withColumn("concatenation", flatten(array($"colArrayMap1", $"colArrayMap2"))) 但是我仍然使用S

浏览 30提问于2020-12-24得票数 0

回答已采纳

1回答

Spark处理具有数百列的json数据

、、、

我正在为scala在本地模式下的Spark应用程序做一个POC。我需要处理一个json数据集，它有300列，但只有很少的记录。我们使用的是Spark SQL，我们的程序对于数据集中的30 - 40列运行得非常好。我们在Where子句中使用Spark SQL和其他条件进行内部连接和外部连接。问题是SQL没有为300列连接执行，它只是卡住了。不确定如何分析SQL。这个问题有没有解决方案，而不必在分布式模式下运行？在dfs上做inner join可以缓解这个问题吗？就像这样，df1.join(df2，col("id1") == col("id2")，“==”)。谢谢

浏览 0提问于2019-11-05得票数 0

1回答

当列数未知时，如何在多个列上连接两个表(pyspark)

、、

假设我有两个表A和B。假设它们的结构如下： A ------------------------------ col_1 | col_2 | col_3 | col_4 ------------------------------ 1 | A | a | i 2 | B | b | ii 3 | C | c | iii 4 | D | d | iv 5 | E | e | v ------------------------------ B -----------

浏览 15提问于2020-09-02得票数 1

回答已采纳

1回答

scala类的spark scala冒号.immutable.$ scala.MatchError $colon

、、、、

我正在通过查询和合并hive表的列来构建结构列的映射。稍后，我在id列上对这些记录进行分组，以便为这些id构建相关的映射。在将其写回配置子表之前，它将在稍后连接到其他Dataframe。 import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.SQLContext import org.apache.spark.sql.hive.HiveContext; import org.apache.spark.sql._ import org.apache.sp

浏览 23提问于2017-01-16得票数 0

1回答

函数从大型数据集中删除重复的列。

尝试在连接hdfs表后删除pyspark df中的重复列名称？您好，我正在尝试连接多个具有200+最终列数的数据集。由于要求和大量的列，我不能在连接时选择特定的列。有没有办法在连接后删除重复的列。我知道有一种方法可以通过spark df的.join方法来做到这一点，但是我加入的基表不是spark df，并且我正在试图避免在join之前将它们转换为spark df。用于创建Spark DF的原始pyspark连接查询 cust_base=sqlc.sql(''' Select distinct * FROM db.tbl1 as t1 LEFT JOIN db.tb

浏览 20提问于2018-12-20得票数 1

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

星火红键列映射无效-返回空

、、、

我正在学习火花-redis连接器文档中的示例，以便从现有的散列创建Dataframes。构建的散列如下： 127.0.0.1:6379> hset人:1名30岁的约翰 (整数)2 127.0.0.1:6379> hset人:2名45岁的彼得 (整数)2 127.0.0.1:6379> hset人:3名40岁的詹姆斯读取哈希的代码如下- SparkSession spark = SparkSession .builder() .appName("MyApp") .master("loca

浏览 0提问于2018-11-10得票数 1

回答已采纳

1回答

如何为结构化查询的不同代码部分指定分区数？

、

我有一个Spark流，类似于： dataFrame .join(anotherDataFrame, columns) .repartition(partitionColumn) .save() 在join步骤中，我希望spark.sql.adaptive.enabled是true，因为这将加快连接的速度。在repartition步骤中，我希望spark.sql.adaptive.enabled是false，因为如果是真的，它可能会更改分区，保存的结果将被格式化为错误的分区。如何在Spark流的不同步骤中更改spark.sql.adaptive.enabled的行为？例如:当只

浏览 0提问于2019-01-28得票数 2

1回答

如何在星火中强制启用广播连接

、、

我有一个火花SQL查询，它是这样的- SELECT /*+ BROADCASTJOIN (sbg_published.sk_e2e_web_all_vis) */ a.* FROM sbg_published.sk_e2e_web_all_vis a LEFT JOIN sbg_published.web_funnel_detail_v4 b ON a.col1 = b.col1 我使用spark.sql()运行这个查询，第一个表有1 million记录，第二个表有1.5 billion records 我试图使用广播连接的火花，但

浏览 11提问于2022-05-23得票数 0

1回答

ANALYZE表对于星火中的所有统计信息都为NULL。

、、、

var df2 = spark.read .format("csv") .option("sep", ",") .option("header", "true") .option("inferSchema", "true") .load("src/main/resources/datasets/titanic.csv") df2.createOrReplaceTempView("titanic") spark.table("titanic&

浏览 1提问于2022-11-20得票数 1

2回答

为什么spark将甲骨文中的数字(1)转换为火花数据帧中的布尔值

、、、、

下面的是我使用scala代码连接到oracle的程序： /usr/hdp/current/spark2-client/bin/spark-shell --driver-memory 5g --executor-memory 5g --jars /usr/hdp/current/sqoop-client/lib/ojdbc7.jar import org.apache.spark.sql.SQLContext val sqlcontext = new org.apache.spark.sql.SQLContext(sc) val dataframe_mysql = sq

浏览 0提问于2018-02-21得票数 3

回答已采纳

1回答

两个dataframes的联接正在工作，但当我更改其中一个dataframes的内容时，它失败了。

、、

我正在做以下工作：使用新4j火花连接器从neo4j中获取数据使用apache火花连接器从hbase中获取数据通过df.show()将两种数据打印到控制台使用spark连接两个数据帧，使用两个数据文件中存在的唯一id列： Dataset mergedData = ss.sql("SELECT * from hbasetable，neo4jtable WHERE hbasetable.nodeId = neo4jtable.id")；通过mergedData.show()将数据打印连接到控制台一切都很顺利。但是，现在，我更改了用于获取neo4

浏览 1提问于2018-06-04得票数 1

2回答

Spark 2.3.1 AWS EMR没有返回某些列的数据，但在雅典娜/Presto和频谱中工作

、

我在星火2.3.1上使用PySpark在AWS EMR上(Python2.7.14) spark = SparkSession \ .builder \ .appName("Python Spark SQL data source example") \ .config("hive.metastore.client.factory.class", "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory") \ .config

浏览 1提问于2018-09-13得票数 4

回答已采纳

2回答

只从卡桑德拉拉出星火中所需的列，而不加载所有列

、、、

使用连接器，可以直接将所需列从ES加载到Spark。然而，使用火花-卡桑德拉连接器，似乎不存在这样一个直接向前的选项来进行同样的操作。将ES中的数据读入火花--这里只有必需的列被从ES带到Spark： spark.conf.set('es.nodes', ",".join(ES_CLUSTER)) es_epf_df = spark.read.format("org.elasticsearch.spark.sql") \ .option("es.read.field.include", "id_,empl

浏览 1提问于2020-06-18得票数 0

回答已采纳

2回答

Spark基于特定列将多行合并为单行，无需groupBy操作

、、、、

我有一个像下面这样有7k列的spark数据框架。 +---+----+----+----+----+----+----+ | id| 1| 2| 3|sf_1|sf_2|sf_3| +---+----+----+----+----+----+----+ | 2|null|null|null| 102| 202| 302| | 4|null|null|null| 104| 204| 304| | 1|null|null|null| 101| 201| 301| | 3|null|null|null| 103| 203| 303| | 1| 11| 21| 31|nu

浏览 31提问于2020-07-11得票数 0

1回答

火花-销售力连接器中的空类型模式

、、

我有一个Dataset< Row>，其中48列是从Salesforce导入的： Dataset<Row> df = spark.read() .format("com.springml.spark.salesforce") .option("username", prop.getProperty("salesforce_user")) .option("password", prop.getProperty("salesforce_auth")) .option("l

浏览 0提问于2019-02-18得票数 1

回答已采纳

1回答

不在Presto v.s Spark SQL的实现中

、、、

我得到了一个非常简单的查询，当在相同的硬件上运行Spark SQL和Presto (3小时v.s 3分钟)时，显示出显着的性能差异。 SELECT field FROM test1 WHERE field NOT IN (SELECT field FROM test2) 通过对查询计划的研究，我发现原因在于Spark SQL如何处理NOT IN谓词子查询。为了正确处理NOT IN的NULL，Spark SQL将NOT IN谓词转换为Left AntiJoin( (test1=test2) OR isNULL(test1=test2))。 Spark SQL引入了OR isNULL(test

浏览 13提问于2019-11-07得票数 6

回答已采纳

1回答

使用和Java直接运行sql查询

、、、、

我试图弄清楚如何使用Spark直接执行查询。我指的是： SQLContext sql = new SQLContext(ctx); sql.sql("QUERY HERE"); 但是如何设置数据库的连接信息呢？我用的是Oracle DB。在我用sql.read().jdbc..的方式之前。在这里，我传递连接URL作为参数。但是，与SQL控制台上的直接查询(0,05秒)相比，这种方式非常慢(4秒)。格列茨

浏览 3提问于2016-10-07得票数 3

回答已采纳

4回答

如何将空映射类型列添加到DataFrame？

、、、、

我想向dataframe添加一个新的map类型列，如下所示： |-- cMap: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true) 我试过密码： df.withColumn("cMap", lit(null).cast(MapType)).printSchema 错误是： :132: error:重载的方法值转换为可选方法： (致: String)org.apache.spark.sql.Column ( to : org.apache.sp

浏览 12提问于2017-05-28得票数 10

回答已采纳

12回答

在Dataframes中将日期从字符串转换为日期格式

、

我试图使用to_date函数将字符串格式的列转换为日期格式，但它返回的是Null值。 df.createOrReplaceTempView("incidents") spark.sql("select Date from incidents").show() +----------+ | Date| +----------+ |08/26/2016| |08/26/2016| |08/26/2016| |06/14/2016| spark.sql("select to_date(Date) from incidents").show

浏览 20提问于2016-11-23得票数 63

回答已采纳

1回答

无法查看通过Spark SQL创建的新数据

、、、

我正面临一个问题，在这个问题中，我无法查看来自Hive的某些数据。重现问题的步骤。创建一个表 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as PARQUET; 然后创建一个具有新列的数据框并加载它们 import java.sql.Date import org.apache.spark.sql._ import org.apache.spark.s

浏览 30提问于2019-12-21得票数 3

回答已采纳

3回答

Spark SQL广播哈希连接

、

我正在尝试使用SparkSQL对数据帧执行广播散列联接，如下所示：在该示例中，(小) DataFrame通过saveAsTable持久化，然后通过spark SQL (即通过sqlContext.sql("...")) )进行连接我遇到的问题是，我需要使用SQL来构造我的sparkSQL (我需要用一个ID列表连接大约50个表，并且不想手动编写这个SQL语句)。 How do I tell spark to use the broadcast hash join via the API? The issue is that if I load the ID list (f

浏览 7提问于2016-05-27得票数 16

回答已采纳

2回答

检查列是否包含缺失的值

、

我正在编写一个验证函数，它应该检查： Dataset<Row> ds有col1和col2列。它也可能包含其他列。验证没有缺少值(NaN、NULL、null等)。在col1和col2。代码应该是Java代码。这是我到目前为止所拥有的 private static boolean isSleepDataValid(SparkSession spark, Dataset<Row> ds) { ds.createOrReplaceTempView("validityData"); if (spark.sql("SEL

浏览 0提问于2019-05-06得票数 0

回答已采纳

1回答

大数据( spark sql和spark数据帧连接)

、、

我是大数据平台的新手。您能告诉我不同的方法:1)我们如何连接到spark for Spark sql? 2)我们如何连接到spark数据帧或数据集？对于hive，我们通过unix与beeline连接，如果我们有像teradata这样的sql工具，我们必须通过安装了hive驱动的odbc连接到hive。如何连接到spark sql和spark数据帧或数据集？另外，如果有人能给我提供一个很好的链接或资源，让像我这样的新手理解概念、命令及其用法，easily.That将会非常有帮助。

浏览 13提问于2020-06-09得票数 0

2回答

Pyspark问题将计数结果转换为数据帧

、、、

我有一个pyspark函数，看起来像这样。\ spark.sql("select count(*) from student_table where student_id is NULL") \ spark.sql("select count(*) from student_table where student_scores is NULL") \ spark.sql("select count(*) from student_table where student_health is NULL") 我得到的结果看起来像\ +-------+|

浏览 0提问于2021-11-07得票数 0

1回答

Spark Join:分析异常引用不明确

、、、

您好，我正在尝试连接spark中的两个数据帧，并收到以下错误： org.apache.spark.sql.AnalysisException: Reference 'Adapazari' is ambiguous, could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法，当您尝试将两个不同的数据帧连接在一起时，可能会发生这种情况，这两个数据帧都具有相同的名称(、、)。然而，在我的例子中，这并不是错误的来源。我之所以能说出来，是因为(1)我的列都有不同的名称，(2)错误中指示的reference是包含在join列中的

浏览 8提问于2017-02-14得票数 1

回答已采纳

3回答

如何避免join中的键列名称重复？

、

我正在尝试在spark sql中连接两个表。每个表都有50+列。两者都将列id作为关键字。 spark.sql("select * from tbl1 join tbl2 on tbl1.id = tbl2.id") 联接的表具有重复的id列。当然，我们可以像下面这样指定要保留的id列： spark.sql("select tbl1.id, .....from tbl1 join tbl2 on tbl1.id = tbl2.id") 但是由于我们在两个表中都有这么多列，所以我不想在上面的查询中键入所有其他列名。(除了id列，没有其他重复的列名)。我该怎么办

浏览 79提问于2021-08-08得票数 2

1回答

用unix_timestamp方法创建火花时间戳

、

我有个csv文件。它有许多列，其中两列是月和年。月份为1.12，而2013年.(例如)。我需要创建一个mm/yyyy格式的时间戳，作为一个新列，比如“时间戳”。我试过下面的片段，但失败了。 scala> val df = spark.read.format("csv").option("header", "true").load("/user/bala/*.csv") df: org.apache.spark.sql.DataFrame = [_c0: string, Month: string ... 28

浏览 2提问于2016-09-29得票数 0

回答已采纳

1回答

spark cassandra连接器在回读时缺少数据

、、

我正在使用spark cassandra连接器(Python)向cassandra写入3000000行8列的数据，当我读回时，我只得到了50000行。当我检查cqlsh中的行数时，也有50000中的行数，我的数据去哪里了，spark -cassandra连接器有问题吗？这是我的spark配置 spark = SparkSession.builder.appName("das_archive").config( "spark.driver.memory", "25g").config('spark.cassandra.connectio

浏览 10提问于2020-06-21得票数 1

回答已采纳

2回答

Apache Spark :org.apache.spark.sql.Dataset.drop(字符串...colNames)方法

、、

我有两个表，有两个公共列。我正在使用这些列进行连接。现在，我想删除其中一个表中的公共列。我检查了API，发现Spark中有很多重载的方法。其中之一是：org.apache.spark.sql.Dataset.drop(String... colNames) 但是，我的问题是如何指定要从中删除列的表名。有什么办法吗？我搜索并发现有一些别名的概念，但我不确定如何将其应用于此方法。

浏览 4提问于2018-04-25得票数 0

1回答

星火转换列到存储在字符串中的sql类型

、、、

简单的请求是，我需要帮助将列添加到dataframe，但是，列必须是空的，它的类型来自...spark.sql.types，类型必须由字符串定义。我也许可以用ifs或case来完成这个任务，但是我正在寻找更优雅的东西。不需要为org.apache.spark.sql.types中的每一种类型编写案例的东西例如，如果我这样做： df = df.withColumn("col_name", lit(null).cast(org.apache.spark.sql.types.StringType)) 它按预期工作，但我将类型存储为字符串， var the_type = "

浏览 4提问于2017-08-31得票数 2

回答已采纳

2回答

如何提示排序合并联接或随机散列联接(并跳过广播散列联接)？

、、

我对Spark2.1中的join有一个问题。Spark (错误的？)选择广播散列join，尽管该表非常大(1400万行)。然后作业崩溃，因为没有足够的内存，Spark以某种方式尝试将广播片段持久存储到磁盘，这将导致超时。所以，我知道有一个查询提示可以强制广播连接(org.apache.spark.sql.functions.broadcast)，但是有没有办法强制另一个连接算法呢？我通过设置spark.sql.autoBroadcastJoinThreshold=0解决了我的问题，但我更喜欢另一种更细粒度的解决方案，即不全局禁用广播加入。

浏览 32提问于2018-01-08得票数 7

1回答

参数为动态的火花滞后函数

、

我需要在spark中实现滞后函数；我可以像下面这样做(使用hive/temp spark表中的一些数据) 假设DF包含以下行： lagno:value 0, 100 0, 200 2, null 3, null 其中，第一列是要使用的实际滞后数，第二列是实际值。当我运行这个查询时，它可以工作： DataFrame df; DataFrame dfnew=df.select( org.apache.spark.sql.functions.lag( df.col("value"), 1 ).over(org.apache.spark.sql.express

浏览 3提问于2016-09-16得票数 3

1回答

带有蜂巢仓库连接器的Spark应用程序在蜂巢表中错误地保存数组和映射字段

、、、、

我将Spark 2.4与Hive Warehouse Connector和Scala 2.11结合使用。目前由Hortonworks提供的蜂巢仓库连接器与Spark2.4不兼容。因此，我从编译了jar文件，这使得它与Spark2.4兼容。我的Spark应用程序从Kafka输入流读取，并使用Hive Warehouse连接器提供的Hive输出流写入Hive表(ORC格式)。这是我的火花代码(Scala)： package example import org.apache.spark.sql.SparkSession import org.apache.spark.sql.function

浏览 1提问于2020-04-01得票数 3

1回答

如何在Spark中连接其他数据帧时从其中一个数据帧中选择结果列？

、、、

我有两个数据帧： val df1 = List(("Sid", 1), ("Teni", 2), ("Bob", 3), ("Spark", 4), ("Hbase", 5)).toDF("name", "value") val df2 = List(("Sidhartha", 1), ("Tammineni", 2), ("Bobby", 3), ("Spark", 4)).toDF("name", &

浏览 0提问于2021-04-14得票数 0

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

如何通过Spack JDBC选择特定的列？

、、

现在我正在使用Spark连接我的oracle数据库。但是，有一个名为“带有时区的时间戳”的列类型，它是Oracle中的一个特定列。当我从包含此类型列的表中加载数据时，它将引发一个错误"java.sql.SQLException:不支持的类型-101“。有人知道如何从表中加载特定的列吗？然后，我可以避免选择“带有时区的时间戳”列。如果有人能找出"java.sql.SQLException:不受支持的类型-101“错误会更好。但我觉得这可能是星火的臭虫。我的代码如下，非常感谢。 spark = SparkSession\ .builder\ .appName(&

浏览 1提问于2016-10-04得票数 1

回答已采纳

3回答

蒙戈火花连接器: MongoTypeConversionException不能将DATE_TIME转换成NullType

、、、

我正试着从一个蒙戈源中读取，并对其进行一些转换。但是，当我试图应用任何转换，甚至做一个df.count()。我得到以下错误。 MongoTypeConversionException: Cannot cast DATE_TIME into a NullType 因此，我理解一列具有混合数据类型，在本例中是NULL和TIMESTAMP。我使用的是mongo-spark-connector_2.11版本的2.2.1，它说ConflictTypes有一个基本类型为StringType。因此，解决办法是传递模式、列名和类型，这样连接器就不会推断类型本身。但是如何传递模式呢？这是我从mongo读的J

浏览 2提问于2018-03-17得票数 2

1回答

Spark To Cassandra:将没有空值的稀疏行写到Cassandra

、、、、

问:如何高效地将Spark DataFrame中包含值的列写入Cassanrda？(在最小的Scala代码行中高效，而不是在Cassandra中创建一堆tombstones，让它快速运行，等等) 我有一个包含两个键列和300个潜在描述符值的Cassandra表。 create table sample { key1 text, key2 text, 0 text, ............ 299 text, PRIMARY KEY (key1, key2) } 我有一个与底层表匹配的Spark数据帧，但数据帧中的每一行都

浏览 0提问于2018-11-06得票数 2

1回答

如何从Spark中的列数据类型中提取字符串？

、、、

我有一个函数，它接受一个字符串参数，并对它执行一个“匹配”来确定返回值，如下所示- 编辑(完整函数)： def getSubscriptionDaysFunc(account_status:Column, created_at: org.apache.spark.sql.Column, updated_at: org.apache.spark.sql.Column):org.apache.spark.sql.Column = { account_status match { case "expired" =>datediff(updated_at,created

浏览 4提问于2017-07-13得票数 2

1回答

在Spark中的数据帧中选择非空值

、

我正在读取Spark 2.0中的CSV文件，并使用以下内容计算列中的非空值： val df = spark.read.option("header", "true").csv(dir) df.filter("IncidntNum is not null").count() 当我使用spark-shell测试它时，它工作得很好。当我创建一个包含代码的jar文件并将其提交给spark-submit时，我在上面的第二行得到一个异常： Exception in thread "main" org.apache.spark.sql.cat

浏览 5提问于2016-11-19得票数 2

1回答

BROADCASTJOIN提示不适用于PySpark SQL

、、、

我试图提供广播提示的表是较小的规模，但物理计划仍然显示给我SortMergeJoin。 spark.sql('select /*+ BROADCAST(pratik_test_temp.crosswalk2016) */ * from pratik_test_staging.crosswalk2016 t join pratik_test_temp.crosswalk2016 c on t.serial_id = c.serial_id').explain() 产出：注意：表的大小在KBs (测试数据)连接列'serial_id‘不分区列中使用胶水目录作为亚稳

浏览 2提问于2020-06-28得票数 1

回答已采纳

1回答

为什么简单的UDF抛出一个不受支持的错误？

、、

只需使用UDF函数连接2个字符串..The，下面就是我的代码 import org.apache.spark.sql.functions.udf val udfconcat =udf[String ,String, String](concat_udf) spark.sqlContext.udf.register("udf_sel","udfconcat") spark.sql("select FirstName,LastName, udf_sel(FirstName,LastName) AS CONCATENATEDNAME FROM check

浏览 0提问于2019-04-22得票数 0

回答已采纳

1回答

使用pyspark将两个字符串列值连接到整数数组

、、

我有一个数据帧具有不同的eventtype(10，11，12)，数据根据eventtype而变化，我这里的要求是，当eventtype=11时，我需要将两列数据(传感器，field1)连接到传感器列中的数组0，1，并将数据左移，我已经给出了我想要的输出，有没有一种方法可以使用pyspark实现这一点。我可以使用spark.sql concat()函数进行连接，但是寻找一个更通用的代码，它可以连接列值并将列值左移，并将最后一个列值赋值为NULL。 eventtype sensor field1 field2 eventcategory 11 1 0

浏览 35提问于2021-06-17得票数 1

回答已采纳

1回答

当我们有很少的非连接列名相同时，如何获得连接后内部连接的单个数据集？

、、、

浏览 1提问于2019-09-05得票数 0

回答已采纳

2回答

HDP 3.0不能保存表格以保存细胞亚稳态

、、、

我不能再用亚稳态保存一个表格来保存数据库了。我使用spark.sql看到了spark中的表，但在hive数据库中看不到相同的表。我试过这个，但它并不是为了储存蜂巢而储存的。我如何配置蜂巢亚稳态？火花版本为2.3.1。如果你想要更多的细节，请评论。 %spark import org.apache.spark.sql.SparkSession val spark = (SparkSession .builder .appName("interfacing spark sql to hive metastore without configuration

浏览 2提问于2018-11-15得票数 1

回答已采纳

1回答