Spark Sql Dataframe Join on one field

Spark SQL DataFrame是Spark中用于处理结构化数据的API。它提供了一种类似于关系型数据库的编程接口，可以进行数据查询、转换和分析。

在Spark SQL DataFrame中，Join操作是将两个DataFrame基于一个字段进行连接的一种操作。Join操作可以通过指定连接字段来将两个DataFrame中的数据进行合并，生成一个新的DataFrame。

Join操作的语法如下：

df1.join(df2, "join_field")

其中，df1和df2是要连接的两个DataFrame，"join_field"是连接字段。

Join操作的分类：

Inner Join：返回两个DataFrame中连接字段匹配的行。
Left Outer Join：返回左侧DataFrame中所有行和右侧DataFrame中连接字段匹配的行。
Right Outer Join：返回右侧DataFrame中所有行和左侧DataFrame中连接字段匹配的行。
Full Outer Join：返回左侧DataFrame和右侧DataFrame中所有行。

Join操作的优势：

灵活性：可以根据不同的需求选择不同类型的Join操作。
数据整合：可以将多个DataFrame中的数据按照连接字段进行合并，方便进行后续的数据分析和处理。
提高效率：Spark SQL使用分布式计算，可以并行处理大规模数据集，提高处理效率。

Join操作的应用场景：

数据整合：将多个数据源中的数据按照共同字段进行合并，方便进行数据分析和挖掘。
数据关联：将两个数据集中的数据进行关联，以获取更全面的信息。
数据筛选：根据连接字段的匹配情况，筛选出满足条件的数据。

腾讯云相关产品推荐：腾讯云提供了多个与Spark SQL相关的产品和服务，包括云数据库TDSQL、云数据仓库CDW、弹性MapReduce EMR等。这些产品可以帮助用户在云上快速搭建和管理Spark集群，进行大规模数据处理和分析。

云数据库TDSQL：腾讯云的云数据库TDSQL是一种高性能、可扩展的分布式数据库服务，适用于大规模数据存储和查询。它支持Spark SQL的连接操作，并提供了高可用、自动备份等功能。了解更多：云数据库TDSQL产品介绍
云数据仓库CDW：腾讯云的云数据仓库CDW是一种用于存储和分析大规模结构化数据的云服务。它支持Spark SQL的数据查询和分析，并提供了高性能、弹性扩展等特性。了解更多：云数据仓库CDW产品介绍
弹性MapReduce EMR：腾讯云的弹性MapReduce EMR是一种大数据处理和分析服务，基于Apache Hadoop和Spark等开源框架。它支持Spark SQL的数据处理和分析，并提供了灵活的计算资源调度和管理功能。了解更多：弹性MapReduce EMR产品介绍

以上是关于Spark SQL DataFrame Join操作的完善且全面的答案。

奴隶的迷失和缓慢的加入火花

、、、

我在一个公共列上连接了两个dataframes，然后运行了一个show方法： df= df1.join(df2, df1.col1== df2.col2, 'inner') df.show() 然后，join运行得非常慢，最后引发了一个错误:奴隶丢失。 Py4JJavaError: An error occurred while calling o109.showString. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage

浏览 4提问于2016-11-16得票数 0

1回答

谓词下推不适用于Spark Dataframe中的完全外连接

、

Spark Dataframe中的完全外连接似乎没有发生谓词下推当连接类型为inner时，谓词下推似乎起作用。但当它是满的时，它不会向下推送谓词 scala> val left = Seq((0, "a"), (1, "b"), (2, "c")).toDF("id", "val") 2019-07-03 13:46:40 WARN ObjectStore:568 - Failed to get database global_temp, returning NoSuchObjectException

浏览 24提问于2019-07-04得票数 2

1回答

除了火种之外，左撇子有什么区别吗？

、、

在我下面的实现中，左反连接和除星火之外是否有区别？除非两个外勤部都有3所学校。 scala> val someDF5 = Seq( | ("202003101750", "202003101700", 122), | ("202003101800", "202003101700", 12), | ("202003101750", "202003101700", 42), | ("202003101810"

浏览 1提问于2020-04-29得票数 0

回答已采纳

2回答

加入来自相同来源的两个DataFrames

、、、

我使用的是pyspark (Apache Spark)的DataFrame接口，遇到了以下问题：当我连接来自相同源DataFrame的两个DataFrames时，得到的DF将分解为大量的行。一个简单的例子：我从磁盘加载一个包含n行的DataFrame： df = sql_context.parquetFile('data.parquet') 然后，我从该源文件创建了两个DataFrames。 df_one = df.select('col1', 'col2') df_two = df.select('col1', 'c

浏览 1提问于2015-04-21得票数 6

3回答

Apache Spark、范围连接、数据倾斜和性能

、、

我有以下Apache Spark SQL连接谓词： t1.field1 = t2.field1 and t2.start_date <= t1.event_date and t1.event_date < t2.end_date 数据： t1 DataFrame have over 50 millions rows t2 DataFrame have over 2 millions rows t1 DataFrame中几乎所有的t1.field1字段都有相同的值(null)。现在，Spark集群在单个任务上挂起超过10分钟，以便执行此连接，并且由于数据不对称。此时，只有一个wor

浏览 2提问于2019-04-02得票数 0

2回答

如何在Map[String，Dataframe]中存储多个dataframe，并使用map的key访问每个dataframe

、

我有多个数据帧需要将它们存储在MapString中，数据帧数据结构。下一步，我们的目标是访问它们以进行连接操作。以下是输入数据帧： names_df: +-----+----------+----------+ |Id |FirstName | LastName | +-----+----------+----------+ |1000 | Bob | B | |1001 | Alice | A | +-----+----------+----------+ addresses_df +----+----+----+ |I

浏览 27提问于2019-08-27得票数 0

1回答

Spark允许对不存在的列进行筛选/选择

、、

我在使用Spark SQL库版本2.2.1时遇到了一种非常奇怪的行为，或者至少是一种非预期的行为。我有一个简单的数据框架： val df = spark.read.parquet("...") df: org.apache.spark.sql.DataFrame = [FIELD_A: string, FIELD_B: string ... 244 more fields] val tmp = df.select("FIELD_A") tmp: org.apache.spark.sql.DataFrame = [FIELD_A: string] 如果我执行以下

浏览 0提问于2018-06-21得票数 2

1回答

InternalCompilerException:通过不同的加载器加载了编译类

我正在使用Scala解释器来评估来自配置的Scala语句。示例代码如下： import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import scala.tools.nsc.Settings import scala.tools.nsc.interpreter.IMain object BSFTest { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf()

浏览 0提问于2018-10-24得票数 0

1回答

如何连接星星之df中的小写列值

、

val df_final = Data1 .join(broadcast(df), Seq(lower(col("NAME")), lower(col("TYPE"))), "left") 上面的代码正在抛出以下错误。 <console>:65: error: overloaded method value join with alternatives: (right: org.apache.spark.sql.Dataset[_],joinExprs: org.apac

浏览 0提问于2018-06-07得票数 1

回答已采纳

1回答

合并地图的所有值，其中每个值都是一个数据帧

、、

在使用Spark的Scala中，我有一个映射，其中键是一个字符串，值是一个DataFrame。模式如下所示： scala.collection.immutable.Map[String,org.apache.spark.sql.DataFrame] = Map(Key_A -> [value_col1: string, value_col2: string ... 1 more field], Key_B -> [value_col1: string, value_col2: string ... 1 more field]) 我不关心这里的钥匙。我想要一个数据帧，它结合了所有

浏览 12提问于2019-05-25得票数 1

回答已采纳

1回答

Spark 2.2结构化流流-静态左外部连接问题

我似乎错过了什么在流静态加入在星火2.2。手册指出这样的联接是可能的，但我无法得到正确的语法。很奇怪。不使用水印。 val joinedDs = salesDs .join(customerDs, "customerId", joinType="leftOuter") 得到的错误如下所示，但我非常肯定我有正确的一面： <console>:81: error: overloaded method value join with alternatives: (right: org.apache.spark.sql.Dataset[_],join

浏览 0提问于2019-03-05得票数 0

回答已采纳

1回答

箭头:转换为RuntimeError: VectorUDT时不支持的类型

、、、、

我想转换一个大的spark数据帧到Pandas超过1000000行。我尝试使用以下代码将spark数据帧转换为Pandas数据帧： spark.conf.set("spark.sql.execution.arrow.enabled", "true") result.toPandas() 但是，我得到了错误： TypeError Traceback (most recent call last) /usr/local/lib/python3.6/dist-packages/pyspark/sql/da

浏览 3提问于2018-07-04得票数 7

1回答

以编程方式将所有特定的数据类型列转换为Scala星火中的其他数据类型

、、

我正在以编程的方式尝试转换列的数据类型，并遇到一些编码问题。为此，我修改了使用的代码。数据>>任何被读取为字符串的数字。代码>> import org.apache.spark.sql raw_data.schema.fields .collect({case x if x.dataType.typeName == "string" => x.name}) .foldLeft(raw_data)({case(dframe,field) => dframe(field).cast(sql.types.IntegerType

浏览 0提问于2018-11-27得票数 1

回答已采纳

2回答

根据两个数组列的相交大小连接两个星火DataFrame

、、

我的spark (v1.5.0)代码中有两个DataFrame： aDF = [user_id : Int, user_purchases: array<int> ] bDF = [user_id : Int, user_purchases: array<int> ] 我想要做的是加入这两个数据格式，但是我只需要aDF.user_purchases和bDF.user_purchases之间的交集有超过2个元素的行(交集> 2)。我是否必须使用RDD，还是可以使用org.apache.sql.functions的一些功能？

浏览 1提问于2016-11-26得票数 4

回答已采纳

3回答

Spark SQL广播哈希连接

、

我正在尝试使用SparkSQL对数据帧执行广播散列联接，如下所示：在该示例中，(小) DataFrame通过saveAsTable持久化，然后通过spark SQL (即通过sqlContext.sql("...")) )进行连接我遇到的问题是，我需要使用SQL来构造我的sparkSQL (我需要用一个ID列表连接大约50个表，并且不想手动编写这个SQL语句)。 How do I tell spark to use the broadcast hash join via the API? The issue is that if I load the ID list (f

浏览 7提问于2016-05-27得票数 16

回答已采纳

1回答

线程"main“org.apache.spark.sql.catalyst.parser.ParseException异常

、、

我有以下数据帧： dataframe1 +-----------------------+ |ID | +-----------------------+ |[10,80,60,] | |[20,40,] | +-----------------------+ 和另一个数据帧： dataframe2 +------------------+----------------+ |ID_2 | name | +------------------+-------

浏览 76提问于2020-08-15得票数 0

1回答

当连接两个数据文件时，CassandraSourceRelation不可序列化

、、、、

我有一个数据设置与火花-卡桑德拉-连接器1.6.2.我试着用卡桑德拉进行一些转换。Datastax企业版为5.0.5。 DataFrame df1 = sparkContext .read().format("org.apache.spark.sql.cassandra") .options(readOptions).load() .where("field2 ='XX'") .limit(limitVal) .reparti

浏览 1提问于2017-08-09得票数 0

回答已采纳

1回答

从Spark生成SQL

、、

我有一个带有Scala代码的Spark DataFrame，它连接了几个帧，过滤器和动态部分。可以生成和写入一个经典的SQL代码来控制这个过程吗？ val target = List( ("0", "0", "Orange", "2020-03-10") ).toDF("id", "new_id", "name", "process_date") .... dynamic p

浏览 4提问于2020-04-01得票数 1

回答已采纳

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

、、、

我用的是火花1.5。我有两份表格的数据： scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = [person_id: int, family_id: int] libriFirstTable50Plus3DF有766,151记录，linkPersonItemLessThan

浏览 5提问于2016-12-13得票数 71

回答已采纳

1回答

自联接不像预期的那样在DataFrame API中工作。

、、、

我正在尝试使用self从表中获取最新的记录。它使用spark-sql工作，但不使用spark DataFrame API。有人能帮忙吗？是虫子吗？我在本地模式下使用Spark2.2.0 创建输入DataFrame scala> val df3 = spark.sparkContext.parallelize(Array((1,"a",1),(1,"aa",2),(2,"b",2),(2,"bb",5))).toDF("id","value","time") df3: org

浏览 4提问于2017-10-31得票数 6

回答已采纳

1回答

如何从雪花SQL查询创建PySpark熊猫星火中的DataFrame？

、、、

注意:需要使用分布式处理，这就是我使用的原因。为了创建DataFrame上的熊猫，我尝试了两种不同的方法(概述如下：“选项1"，”选项2")。这两种选择都可行吗？如果是这样的话，我如何处理错误(在下面“问题(S)”和“选项2”的错误日志中概述)？或者，我应该从开始查询，然后转换为DataFrame上的熊猫？ # (Spark 3.2.0, Scala 2.12, DBR 10.0) ##~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~## ## I. Import libraries & dependencies ##~~~~~~~~~~~~

浏览 3提问于2021-10-25得票数 1

2回答

处理dataskew而不盐碱化spark中的连接键

、、

我试图用一个30行的dataframe内部连接一百万行数据，这两个表都有相同的连接键，spark正在尝试执行排序合并连接，并且由于这个原因，我的所有数据都在同一个执行器中结束，而Job永远不会完成。 DF1(million rows dataframe registered as TempView DF1) +-------+-----------+ | id | price | +-------+-----------+ | 1 | 30 | | 1 | 10 | | 1 | 12 | | 1 |

浏览 8提问于2020-06-06得票数 1

3回答

将每一行数据合并，返回数据帧到输出数据帧中

、、

在我有父级的场景中，我正在寻求帮助。我需要循环遍历父数据中的每个记录。使用父级的ID值根据过滤器从数据库中查询记录(此步骤的输出是dataframe) 从父属性到查询数据from追加几个属性例如： ParentDF id父名1 x 2 Y查询id 1 id queryid 1 23 lobo 1 45 aobo查询Dataframe id 2 id queryid 2 53 lam2 67 dama 2 56 pama Final output required : id parentname queryid name

浏览 7提问于2022-11-21得票数 1

1回答

星星之火，然后加入给IndexOutOfBoundsException

、、

试图连接两个dataframes A&B.B在连接之前有一个不同的操作。另外，B中的一个列在A中的两列上连接，这种特殊情况是给出一个IndexOutOfBoundsException。以前有人遇到过这种情况吗？详情如下。提前感谢！环境： spark-shell standalone mode Spark version 2.3.1 代码： val df1 = Seq((1, "one", "one"), (2, "two", "two")).toDF("key1", "val11", &

浏览 0提问于2018-09-11得票数 5

回答已采纳

2回答

为什么在显示操作员之后不能加入？

、、、

下面的代码可以正常工作，直到我在show之后添加agg。为什么show是不可能的？ val tempTableB = tableB.groupBy("idB") .agg(first("numB").as("numB")) //when I add a .show here, it doesn't work tableA.join(tempTableB, $"idA" === $"idB", "inner") .drop("idA", "numA"

浏览 0提问于2017-07-26得票数 2

回答已采纳

1回答

并发地运行一个for循环，而不是在pyspark中按顺序运行

、、、、

下面是在Databricks集群上运行的for循环执行： datalake_spark_dataframe_downsampled = pd.DataFrame( {'IMEI' : ['001', '001', '001', '001', '001', '002', '002'], 'OuterSensorConnected':[0, 0,

浏览 2提问于2020-06-04得票数 2

回答已采纳

2回答

数据帧数据插入MySQL表后模式发生变化

、、

我是Spark SQL的新手，我使用的是DataFrame，它的模式如下 fields.add(DataTypes.createStructField(fieldName[0], DataTypes.StringType, true)); fields.add(DataTypes.createStructField(fieldName[1], DataTypes.StringType, true)); fields.add(DataTypes.createStructField(fieldName[2], DataTypes.DoubleType, true)); fields.add(Da

浏览 0提问于2018-05-21得票数 1

1回答

Scala & Spark:回收SQL语句

、、

我花了相当长的时间编写多个SQL查询的代码，这些查询以前用于获取各种R脚本的数据。这就是它的工作原理 sqlContent = readSQLFile("file1.sql") sqlContent = setSQLVariables(sqlContent, variables) results = executeSQL(sqlContent) 线索是，对于某些查询，需要一个来自先前查询的结果--为什么在数据库本身中创建VIEW并不能解决这个问题。有了Spark 2.0，我已经想出了一种方法 // create a dataframe using a jdbc connecti

浏览 1提问于2016-09-23得票数 11

1回答

从Spark连接到HANA

、、

我正在编写一个python应用程序从SAP HANA加载数据。 dfr = DataFrameReader(sqlContext) df = dfr.jdbc(url='jdbc:sap://ip_hana:30015/?user=<user>&password=<pwd>',table=table) df.show() 它抛出一个错误，说明： y4j.protocol.Py4JJavaError: An error occurred while calling o59.showString. : org.apache.spark.SparkEx

浏览 0提问于2016-02-24得票数 2

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

org.apache.spark.sql.AnalysisException:无法解析“`sub_tot`”给定的输入列

我无法使用Dataframe中的选择所需的列。如果我从df_ord DataFrame中选择一列，则结果将显示来自df_ord的一列，并对df_od_item数据的列进行重命名，这些列是不正确的。请参阅所附的截图。另外，当我从两个Dataframe中选择多列时，我得到了一个错误。请协助。 Py4JJavaError Traceback (most recent call last) /usr/hdp/current/spark2-client/python/pyspark/sql/utils.py in deco(*a,

浏览 4提问于2020-05-23得票数 1

回答已采纳

1回答

pyspark从spark dataframe列创建不同列表，并在spark sql where语句中使用

、、

我有一个dataframe df和一个列名为setp的列来创建我编写的列表。 setp_list=df.select ('setp').distinct().collect() setp_array=[row.setp for row in setp_list] setp_array= str(setp_array)[1:-1] 我想在spark.sql语句中使用它 df1=spark.sql(f"select * from table where setp in ({setp_array})"). 我不确定如何显示列表以查看是如何创建的，但我主要希望将其包含

浏览 12提问于2021-01-10得票数 0

回答已采纳

1回答

无法为RDD创建DataFrame

、、、

我正在尝试创建一个具有动态模式生成的Dataframe。下面是代码片段： def mapMetricList(row: Row): Seq[Metric] = ??? val fields = Seq("Field1", "Field2") case class Metric(name: String, count: Long) def convertMetricList(df: DataFrame): DataFrame = { val outputFields = df.schema.fieldNames.filter(f => fields.

浏览 0提问于2017-09-05得票数 1

1回答

在Databricks中加入pyspark给出"IllegalStateException:意外分区: DataSourcePartitioning“错误

、、

我正在使用Databricks中的pyspark编写以下函数： def expand_category(input_df: DataFrame, category_list: list, column_list: list) -> DataFrame: ''' @input: dataframe to exapand @category_list: list of category @column_list: column that identify the unicity of the record ''&

浏览 8提问于2022-11-21得票数 1

2回答

连接多个数据的功能方法

、

我正在学习Scala中的Spark，它来自于大量的Python滥用，而且我得到了一个java.lang.NullPointerException，因为我是用python的方式来做事情的。我说了每个4x2形状的数据，第一列总是索引0,1,2,3，第二列是一些二进制特性。最终的目标是拥有一个4x4的数据格式，并加入所有的独立数据。在python中，我首先定义一些主df，然后对中间的主df进行循环，在每个循环中将得到的联合dataframe分配给主dataframe变量名(丑陋)： dataframes = [temp1, temp2, temp3] df = pd.DataFrame(index

浏览 3提问于2018-10-24得票数 0

回答已采纳

1回答

无法合并Scala Spark中的两个DataFrames

、、

我一直在尝试将1个DataFrame附加到Scala中的另一个DF上。本例中的追加操作只是将一个相同大小的新列添加到现有列中-不涉及键匹配。两个DataFrames的形状相同(仅5行1列)。 scala> val coefficients = lrModel.coefficients.toArray.toSeq.toDF("coefficients") coefficients: org.apache.spark.sql.DataFrame = [coefficients: double] scala> coefficients.show() +---------

浏览 8提问于2017-08-05得票数 0

回答已采纳

1回答

Spark dataframe筛选器最小值(列)失败

、、

我正在使用hadoop 3.0.0和spark 2.2.0中的以下scala代码处理数据帧。BAQ是ID列，AAA是日期YYMMDD的字符串列。 scala> val dtfAbnoFirs=dtfAbno.filter("AAA>='20201201' and BAQ<>'0'"). | groupBy("BAQ").agg("AAA"->"min"); dtfAbnoFirs: org.apache.spark.sql.DataFrame = [BA

浏览 34提问于2021-04-08得票数 0

回答已采纳

1回答

如何在Spark中将dataframe作为函数参数传递

、、

我正在实现一个程序，它将整个数据帧作为参数。我知道这可能不是Spark的支持，但我想知道有没有好的方法来解决我的问题。我有一个Spark数据框，如下所示： Item_sale_table item_id date Sale Amount aaa 3-11 20 aaa 3-12 21 aaa 3-13 28 ... ... ... bbb 3-11 17 bbb 3-12 12 ...

浏览 0提问于2016-12-10得票数 0

1回答

Spark HiveContext -从外部分区配置单元表分隔符读取问题

、、

我有一个外部分区Hive表，其下划线文件行格式的分隔字段以'|‘结尾，通过Hive直接读取数据是可以的，但当使用Spark的Dataframe API时，分隔符'|’不被考虑。创建外部分区表： hive> create external table external_delimited_table(value1 string, value2 string) partitioned by (year string, month string, day string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'

浏览 6提问于2016-08-20得票数 2

2回答

Scala火花:为json找到的多个源

、、

在我的hadoop集群上执行spark2-submit时，当在hdfs中读取.jsons目录时，我不知道如何解决它。我在几个黑板上发现了一些关于这方面的问题，但没有一个是很受欢迎的，也没有一个有答案。我尝试过显式导入org.apache.spark.sql.execution.datasources.json.JsonFileFormat，但导入SparkSession似乎是多余的，因此没有得到认可。不过，我可以确认这两个类都是可用的。 val json:org.apache.spark.sql.execution.datasources.json.JsonDataSource val

浏览 0提问于2020-07-05得票数 0

回答已采纳

1回答

将Groupby with Join Spark SQL查询更改为Spark Dataframe

我最初使用Spark SQL编写脚本，但现在出于性能和其他原因，我尝试将Sql查询转换为PySpark数据帧。我有Orders表(OrderID,CustomerID,EmployeeID,OrderDate,ShipperID)和Shippers表(ShipperID, ShipperName) 我的Spark SQL查询列出了每个发货人发送的订单数量： sqlContext.sql("SELECT Shippers.ShipperName, COUNT(Orders.ShipperID) AS NumberOfOrders FROM Orders LEFT JOIN Shi

浏览 17提问于2018-09-04得票数 2

回答已采纳

1回答

使用嵌套结构域的滤波器

、、、

|-- data: struct (nullable = true) | |-- keyNote: struct (nullable = true) | | |-- key: string (nullable = true) | | |-- note: string (nullable = true) 使用上面的示例结构，如何选择structs数据和keyNote下的note字段？我需要使用两个不同的数据帧进行筛选，而且似乎无法选择嵌套字段。我使用的是Spark1.6.2，在这里左边的anti不可用，所以我使用了下面的过滤器。以下是我尝试过的两种方法。 v

浏览 5提问于2017-09-27得票数 0

回答已采纳

4回答

值toDF不是org.apache.spark.rdd.RDD的成员

、

异常: val people = sc.textFile("resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF() value toDF is not a member of org.apache.spark.rdd.RDD[Person] 下面是TestApp.scala文件： package main.scala import org.apache.spark.SparkContext import org.apache.spark

浏览 9提问于2015-11-14得票数 30

1回答

在不更改Spark属性的情况下执行连接时未广播数据帧的示例

、、

根据documentation的说法，如果这是一个“蜂窝元存储表”并且DataFrame大小小于10MB，则默认广播一个小的DataFrame。如何在本地spark-shell中创建尚未计算统计数据的表？到目前为止，我在spark.read.csv、Seq(("SOF")).toDF("name")和spark.range(1000)上尝试了df df.join(df, Seq("name")).explain(true) 下面的所有数据帧都导致了broadcast join 如何制作一个不广播的“小”DataFrame (大小小于10MB

浏览 8提问于2019-09-17得票数 1

3回答

在星火中连接两个数据中心

、、

当我试图连接两个数据帧时，使用 DataFrame joindf = dataFrame.join(df, df.col(joinCol)); //.equalTo(dataFrame.col(joinCol))); 我的程序抛出在异常下面 org.apache.spark.sql.AnalysisException:类型为string的联接条件'url‘不是布尔值。在这里，joinCol值是url需要输入的，因为什么可能导致这些异常？

浏览 4提问于2016-02-19得票数 3

2回答

mkString在PySpark中的等价性是什么？

、、、

我正在将一个dataframe转换成一个管道分隔的值，并将其写入shell (scala)中的一个文件中。但我在PySpark方面毫无头绪。会很感激你的帮助。尤其是我不知道如何用“\”来连接每个列这是scala版本 scala> val stgDF = spark.read.table("tbl") stgDF: org.apache.spark.sql.DataFrame = [name: string, num: int] scala> stgDF.map(line => line.mkString("|")).take(2) //H

浏览 3提问于2017-10-30得票数 4

回答已采纳

1回答

Apache Spark:特征调用实现在列上抛出java.io.NotSerializableException

、

我有两个成本计算Spark作业的实现，扩展如下trait trait Cost { val calculateCost: Column def df: DataFrame lazy val aggregate = df .withColumn("cost", calculateCost) } 实施1 case class CurrentCost(df: DataFrame) extends Cost { override val calculateCost = when(includeCost, $"c1" * $"c2

浏览 11提问于2019-12-14得票数 0

回答已采纳

2回答

如何将dataframe中的空值填充到uuid？

、、、、

在一个列中有一个带有空值的dataframe (并非全部为空)，它需要用uuid填充空值，有方法吗？ cala> val df = Seq(("stuff2",null,null), ("stuff2",null,Array("value1","value2")),("stuff3","stuff3",null)).toDF("field","field2","values") df: org.apache.spark.sql.D

浏览 3提问于2016-12-26得票数 1

回答已采纳

1回答

为每个循环嵌套两个DataFrame

、、

foreach循环嵌套的DataFrams迭代会抛出一个NullPointerException： def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit = { val leftCols: Array[String] = leftDF.columns val riteCols: Array[String] = riteDF.columns leftCols.foreach { ltColName => leftDF.select(ltColName).foreach

浏览 1提问于2019-05-08得票数 2

回答已采纳

1回答