在spark中使用regexp连接两个数据帧_基于OR条件在spark scala中连接两个数据帧_使用Scala连接spark数据帧中的数据 - 腾讯云开发者社区

regex、scala、apache-spark

我想加入两个数据帧，其中d1中的颜色出现在d2中的短语中。我不能使用d1.join(d2, d2("phrases").contains(d1("color"))，因为它会连接短语中出现单词的任何位置。我只想当颜色作为一个单独的单词出现在短语中时加入。我可以使用正则表达式来解决这个问题吗？当我需要引用表达式中的列时，我可以使用什么函数，语法

浏览 37提问于2020-09-24得票数 5

1回答

如何合并或连接spark中列号不相等的数据帧

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的

浏览 13提问于2016-09-22得票数 0

1回答

Spark作业在显示所有作业已完成然后失败后重新启动(TimeoutException: Futures在[300秒]后超时)

scala、apache-spark、apache-spark-sql、spark-dataframe

它显示所有作业都已完成：然而，在几分钟后整个作业重新启动，这一次它将显示所有作业和任务也已完成，但几分钟后它将失败。我在日志中发现了以下异常：因此，当我试图连接两个很大的表时就会发生这种情况:其中一个是3B行，第二个是200M行，当我在结果数据帧上运行show(100)时，所有的数据都会被评

浏览 4提问于2016-03-30得票数 6

回答已采纳

2回答

Spark最佳方法查找Dataframe以提高性能

scala、apache-spark、cassandra、datastax-enterprise

数据帧A(百万条记录)其中一列是create_date，modified_date当前方法： Select a.

浏览 16提问于2016-08-27得票数 1

1回答

两个数据帧火花连接操作

pyspark、pyspark-dataframes

我的问题是取O(n^2) 是否有可能对两个数据帧进行排序并使其具有更好的性能？如果不是这样的话，怎样才能让join更快呢？

浏览 0提问于2019-09-20得票数 0

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

python、sql、join、pyspark

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的结果：从本质上讲，

浏览 1提问于2020-08-08得票数 2

1回答

适用于大型数据集的sparklyr中copy_to的替代方案

r、hive、apache-spark-sql、sparklyr

我有下面的代码，它使用包装器函数对数据集进行SQL转换，并使用Sparklyr调用spark SQL API。然后，我使用"invoke("createOrReplaceTempView"，"name")“将Spark环境中的表保存为spark数据帧，以便在将来的函数调用中调用。然而，要做到这一点，我似乎必须使用sparklyr<e

浏览 0提问于2017-06-07得票数 3

1回答

如何在Spark中加速大数据帧连接

python、scala、apache-spark

我在Spark 2.4中有两个数据帧，它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3加载数据帧生成的，另一种是加载一堆数据帧并使用sparkSQL生成大型数据帧。然后我将这两个数据帧多次连接到多个数据帧中，并尝试将

浏览 12提问于2020-05-14得票数 0

回答已采纳

1回答

Spark Join:分析异常引用不明确

scala、join、apache-spark、dataframe

您好，我正在尝试连接spark中的两个数据帧，并收到以下错误：could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法，当您尝试将两个不同的数据帧连接在一起时，可能会

浏览 8提问于2017-02-14得票数 1

回答已采纳

2回答

Spark -如何在列的基础上以最小的混洗重新划分数据帧？

apache-spark、apache-spark-sql

我们有多个数据帧。其中一个数据帧是主数据帧，它使用左-外连接与其他数据帧连接。所有这些数据帧都连接在4列上(比如col1、col2、col3、col4)。为了减少数据混洗，目前我们正在对4个连接列上的所有数据帧进行重新分区，然后连接这些数据</em

浏览 2提问于2019-02-08得票数 2

1回答

连接两个h2o数据帧

h2o

我有两个h2o帧，我想基于这两个列中存在的一个相同的列来连接它们，我使用Java API并从spark dataframes中获取h2o帧。h2oContext.asH2OFrame(train_validation);我可以使用spark datafr

浏览 8提问于2017-06-22得票数 2

2回答

如何在spark中使用Regexp_replace

scala、apache-spark、apache-spark-sql、regexp-replace

我是spark的新手，我想在数据帧的列上执行一个操作，以便用.替换列中的所有,x41,6566我希望输出结果为1.3435我使用的代码是def replace = regexp_replace((x.x4,1,6566:String,1.6566:String

浏览 1提问于2016-10-17得票数 17

3回答

在写入dataframe - pyspark之前从表中删除记录

sql-server、pyspark、apache-spark-sql、pyspark-dataframes、aws-glue-spark

在从dataframe向表中写入数据之前，我正在尝试从表中删除记录。这对我不起作用。我做错了什么？query = "(delete from xx_files_tbl)" .option("url", "jdbc:sqlserver

浏览 172提问于2020-10-14得票数 1

回答已采纳

1回答

Spark: Catalyst在Dataframe上添加策略

apache-spark、join、catalyst

我需要将使用Spark SQL的连接操作转换为自定义连接。(逻辑计划到自定义物理计划)。我已经编写了一个将spark join操作转换为自定义连接的策略 def apply(plan: LogicalPlancondition)) case _ =&

浏览 2提问于2017-05-04得票数 2

1回答

Spark CSV读取忽略字符

scala、apache-spark、apache-zeppelin

我通过齐柏林飞艇使用Spark 2.2.1。现在我的spark读取代码如下： val data = spark.read.option("header", "true").option("delimiter", ",").option("treatEmptyValuesAsNulls","true").csv("listings.csv") 我注意到，当我使用.sho

浏览 14提问于2020-04-23得票数 0

1回答

在pyspark中连接同名的Dataframe

python、apache-spark、pyspark、apache-spark-sql、apache-spark-2.0

我有两个数据帧，它们是从两个csv文件中读取的。pyspark代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')连接这两个使用NUMBER coumn的数据，生成的新数据帧如下。，因为连接后的数据帧具有重复的列。)在加入<em

浏览 1提问于2018-10-03得票数 1

1回答

无法获得中regex表达式的结果

sql、apache-spark、pyspark、apache-spark-sql

我在Spark3.1的Databricks中使用了Pyspark。email_df11 = spark.sql("select New_id, regexp_extract_all(subject,'(?<!^DT!但是，当我使用相同数据帧的视图并运行下面的查询时。我能看到输出。方法2s

浏览 5提问于2022-01-27得票数 0

1回答

是否有解决"org.apache.spark.SparkException: Kryo序列化失败:缓冲区溢出。可用: 0，必需: n“错误的解决方法？

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在通过spark-submit运行一个pyspark作业，在这个作业中，在应用一些额外的逻辑之前，首先将两个大型镶嵌板桌子连接在一起。To avoid this, increase spark.kryoserializer.buffer.max value *n只是一个变量，表示需要多少内存。该值取决于我将spark.kryoserializer.buffer.max设置为多少。我已经将这个参数的值增加到2047MB，并且我不再命中错误，作业在Ap

浏览 87提问于2020-01-18得票数 0

2回答

Apache Spark当调用repartition($" key ")时，当每个键的所有记录的大小大于单个分区的大小时会发生什么？

scala、apache-spark、apache-spark-sql、apache-spark-sql-repartition

假设我有一个10 c1的数据帧，其中一个列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。

浏览 34提问于2021-09-23得票数 2

回答已采纳

1回答

如何比较两个pyspark数据帧？

python、pyspark

我试图比较两个spark数据帧，以从两个数据帧中找出不匹配的值，但我只能得到不匹配的df1值。我需要连接不匹配的df1和df2的值。df1 = spark.read.load("df1.csv", format = "csv", header = "True") df2 = spark.read.load("df2.csv&quo

浏览 1提问于2021-10-29得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云