Spark join -匹配长列表中的任何列

Spark join是Spark框架中的一个操作，用于将两个数据集（DataFrame或RDD）按照指定的条件进行连接操作。在进行join操作时，可以通过指定连接条件来匹配两个数据集中的任何列。

Spark join操作的基本语法如下：

result = dataset1.join(dataset2, join_condition, join_type)

其中，dataset1和dataset2是要连接的两个数据集，join_condition是连接条件，join_type是连接类型。

连接条件可以是简单的等值条件，也可以是复杂的逻辑表达式。Spark会根据连接条件将两个数据集中的记录进行匹配，并将匹配成功的记录合并到结果数据集中。

连接类型包括内连接（inner join）、左连接（left join）、右连接（right join）和全外连接（full outer join）。不同的连接类型会影响结果数据集中的记录数量和内容。

Spark join操作的优势包括：

高性能：Spark使用分布式计算模型，能够充分利用集群资源进行并行计算，提高处理速度。
灵活性：Spark join操作支持多种连接类型和复杂的连接条件，可以满足不同的业务需求。
扩展性：Spark可以与其他Spark组件（如Spark SQL、Spark Streaming等）无缝集成，实现更复杂的数据处理和分析任务。

Spark join操作在各种场景下都有广泛的应用，例如：

数据库查询：可以将多个表中的数据进行连接，实现复杂的查询操作。
数据分析：可以将多个数据集按照指定的条件进行连接，进行数据分析和挖掘。
数据集成：可以将不同来源的数据进行连接，实现数据集成和整合。

腾讯云提供了一系列与Spark相关的产品和服务，可以帮助用户进行大数据处理和分析。其中，推荐的产品包括：

腾讯云EMR（Elastic MapReduce）：基于Spark和Hadoop的大数据处理平台，提供了强大的集群管理和作业调度功能。详情请参考：腾讯云EMR产品介绍
腾讯云COS（Cloud Object Storage）：可扩展的对象存储服务，适用于存储和管理大规模的数据集。详情请参考：腾讯云COS产品介绍
腾讯云DTS（Database Transfer Service）：可靠的数据库迁移和同步服务，支持多种数据库之间的数据传输和同步。详情请参考：腾讯云DTS产品介绍

通过使用这些腾讯云产品，用户可以轻松地进行Spark join操作，并实现高效的大数据处理和分析任务。

熊猫:从一个dataframe列过滤数据，并更新另一个df列。

、、

我在熊猫身上有一种情况。我有一个excel文件，它有一个名为item的列，它有一些文本。我有另一个dataframe有一个名为brand的列。如果项目列文本中存在品牌字符串，我希望在项目列前面添加品牌名称。这是我的excel文件快照。我的品牌数据图如下所示。 brand_df = pd.DataFrame({'brand':['spark','hadoop','hive']}) 我想看看brand_df品牌是否存在于item_df中。如果品牌存在，那么它应该以update_column的名字出现在项目前面，如下所示

浏览 0提问于2019-07-09得票数 0

回答已采纳

2回答

在星火数据库中查找列表中的最大值

我想在列表中找到最大值。你怎么在火星雨里做这件事？ df = spark.createDataFrame([(1, [4,1]), (2, [4,5]), (3, [4,0])], ["A", "B"]) df.show() +---+------+ | A| B| +---+------+ | 1|[4, 1]| | 2|[4, 5]| | 3|[4, 0]| +---+------+ 在下面的示例中，如何在每一行中找到B列中列表中的最大值：行1->4行2->5行3-> 4

浏览 3提问于2020-08-24得票数 2

2回答

如何使用.contains()在PySpark中进行单子或多子串筛选？

、、、

这是一个简单的问题(我认为)，但我不确定回答它的最佳方法。我需要基于存在“子字符串”的列进行过滤，该列包含Spark中的字符串。目前，我正在执行以下操作(使用.contains进行过滤)： data = [[1, "ABC"], [2, "DEF"], [3, "DEF"], [4, "JFKLMN"], [5, "JFKOPQ"], [6, "MNO"]] df = pd.DataFrame(data, columns=["Item", "String"])

浏览 7提问于2021-11-10得票数 0

1回答

我怎样才能在Scala中加入星火数据的列表呢？

、

我有一个Seq of Spark (即Seq[org.apache.spark.sql.DataFrame])，它可以包含一个或多个元素。有一个列的列表对每个数据文件都是通用的，每个dataframe也有一些额外的列。我想要做的是使用连接条件中的那些公共列将所有这些数据文件连接在一起(记住，数据格式的数量是未知的) 我怎样才能把所有这些数据文件连接起来？我想我可以对它们进行foreach，但这似乎不太优雅。谁能想出一种更实用的方法来做这件事呢？编辑:递归函数会比预测更好，我现在正在做这个工作，完成后会在这里发布。下面是一些代码，它创建了n个dataframes列表(在本例中是n=3)，每个列

浏览 0提问于2018-05-15得票数 4

回答已采纳

1回答

如何从Scala中有很多条目的其他数据框中更新基于列的Spark数据框？

、、、、

我正在使用Spark dataframe，我想使用Scala中的spark-sql更新hive-table中的一个列column_to_be_updated。到目前为止，我的代码确实可以处理较小的数据帧： var data_frame = spark.sql("Select ... From TableXX") var id_list = spark.sql("Select Id From TableXY Where ...")..collect().map(_(0)).toList data_frame.withColumn("column_t

浏览 17提问于2019-05-08得票数 2

回答已采纳

1回答

pyspark从spark dataframe列创建不同列表，并在spark sql where语句中使用

、、

我有一个dataframe df和一个列名为setp的列来创建我编写的列表。 setp_list=df.select ('setp').distinct().collect() setp_array=[row.setp for row in setp_list] setp_array= str(setp_array)[1:-1] 我想在spark.sql语句中使用它 df1=spark.sql(f"select * from table where setp in ({setp_array})"). 我不确定如何显示列表以查看是如何创建的，但我主要希望将其包含

浏览 12提问于2021-01-10得票数 0

回答已采纳

1回答

在列表上迭代

、

我有一个清单和火种数据，如下所示。今天，我的列表只有3个元素，明天它可能有5个元素，列表是动态的，而不是静态的。 my_list = ['4587','9920408','9920316'] a=spark.createDataFrame([(101,'~1~20448~3~22901~12214~27681~9920408~20013~19957~19993~ ~ ~ ~ ~ ~'),(102, '~1~20448~4462~4586~24739~4587~9914381~99214

浏览 1提问于2022-06-23得票数 2

回答已采纳

3回答

Spark SQL广播哈希连接

、

我正在尝试使用SparkSQL对数据帧执行广播散列联接，如下所示：在该示例中，(小) DataFrame通过saveAsTable持久化，然后通过spark SQL (即通过sqlContext.sql("...")) )进行连接我遇到的问题是，我需要使用SQL来构造我的sparkSQL (我需要用一个ID列表连接大约50个表，并且不想手动编写这个SQL语句)。 How do I tell spark to use the broadcast hash join via the API? The issue is that if I load the ID list (f

浏览 7提问于2016-05-27得票数 16

回答已采纳

3回答

如何避免join中的键列名称重复？

、

我正在尝试在spark sql中连接两个表。每个表都有50+列。两者都将列id作为关键字。 spark.sql("select * from tbl1 join tbl2 on tbl1.id = tbl2.id") 联接的表具有重复的id列。当然，我们可以像下面这样指定要保留的id列： spark.sql("select tbl1.id, .....from tbl1 join tbl2 on tbl1.id = tbl2.id") 但是由于我们在两个表中都有这么多列，所以我不想在上面的查询中键入所有其他列名。(除了id列，没有其他重复的列名)。我该怎么办

浏览 79提问于2021-08-08得票数 2

1回答

根据CSV记录过滤Spark数据帧中的部分数据

、、、

我有一个包含一些单词的CSV文件。总共没有。csv文件中的字数不会超过50k条记录。我有一个从具有keywords列的JSON文件创建的Spark Dataframe。我需要做的是从dataframe中过滤出其keywords列值与CSV文件中的值匹配的记录。这里，匹配表示csv文件中的单词是否出现在dataframe列中。举个例子，假设csv文件中有一个单词"baby toys"，spark dataframe看起来像这样 ***Keywords*** new baby toys baby toys for all costly baby toys price baby

浏览 2提问于2019-05-31得票数 0

2回答

将列与多个可能的值匹配

、、

我试图使用awk过滤出文件中的数据。到目前为止，对于单个值，我将使用如下命令 hadoop fs -text file:///a/b/filename.snappy awk -F'|' '$11 == 655' > filter_20180705.txt 我想在比较部分传递一个值列表，而不是传递$11 == 655，而是传递一个类似于$11 in ( list )的列表。任何有关这方面的想法都是有帮助的。样本-数据： karthick,bangalore,software,it,bfsi,spark,hadoop,bigdata,etl,pentah

浏览 0提问于2018-10-29得票数 1

回答已采纳

1回答

如果列表中的元素作为字符串的一部分出现，则将该元素作为新的列条目返回

、

我有一个包含几个条目的列表： val list = Seq("Car", "House", "Beach") 数据如下所示： val df = spark.sparkContext.parallelize(Seq( ("Pete", "He has a Car"), ("Mike", "The Beach is beautiful"), ("Steve", "Look at this House") )).toDF("Name", &#

浏览 2提问于2018-02-05得票数 0

回答已采纳

2回答

如何用星火查找文本表中的关键字？

、、

我是星火的新手。我在HDFS中有两个表。一个表(表1)是一个标签表，由一些文本组成，可以是一些单词或句子。另一个表(表2)有一个文本列。在表1中，每行可能有多个关键字。我的任务是为表2中的文本列查找表1中所有匹配的关键字，并输出表2中每一行的关键字列表。问题是，我必须迭代表2和表1中的每一行。如果我为表1生成一个大列表，并为表2使用一个map函数。我仍然需要使用一个循环来迭代map函数中的列表。驱动程序显示JVM内存限制错误，即使循环不是很大(10,000次)。 myTag是表1的标记列表。 def ourMap(line: String, myTag: List[String]): Str

浏览 4提问于2016-06-01得票数 2

回答已采纳

1回答

星火DataFrame筛选:保留属于列表的元素

、、、、

我正在使用Spark1.5.1和Scala在齐柏林飞艇笔记本上。我有一个DataFrame，它有一个名为userID的长类型列。总共有400万行和20万个唯一的userID。我还有一个50,000 userID的列表要排除。我可以轻松地构建要保留的userID列表。删除所有属于要排除的用户的行的最佳方法是什么？提出同样问题的另一种方法是:保留属于用户的行的最佳方法是什么？我看到了并应用了它的解决方案(参见下面的代码)，但是执行速度很慢，因为我知道我正在本地机器上运行SPARK 1.5.1，内存为16 of，初始的DataFrame适合内存。下面是我正在应

浏览 1提问于2015-11-20得票数 5

回答已采纳

1回答

如果只有句子包含来自搜索列表的任何关键字，则从数据框文本列中选择句子

、、、、

我有一个数据框架，在一列中，我有一个全文，其中有多个非常长的句子。我使用NLTK对文本进行标记化，但现在我需要确保只从给定的完整单词的长列表中提取包含任意单词的句子。我写了下面的代码，但它的问题是，它不是作为一个整体检查文本中的单词，而是例如在搜索列表中找出一个给定的单词，比如'tic'，它选择一个包含单词‘统计’的句子。 symptoms = [long list of words ~ about 100] new_df = df[df['Sentence'].str.contains('|'.join(symptoms))] 就在这段代码之上

浏览 0提问于2020-10-17得票数 1

2回答

两个不同列的Spark数据帧的并集

、、

我正在尝试将两个具有不同列集的Spark数据帧联合起来。为此，我参考了以下链接：我的代码如下： val cols1 = finalDF.columns.toSet val cols2 = df.columns.toSet val total = cols1 ++ cols2 finalDF=finalDF.select(expr(cols1, total):_*).unionAll(df.select(expr(cols2, total):_*)) def expr(myCols: Set[String], allCols: Set[String]) = { allCols.toL

浏览 1提问于2017-07-30得票数 1

回答已采纳

1回答

PYSPARK -多列上的联接空安全

、、、、

让我们假设我们有两个dataframes，我们想要比较它与左连接的差异： data1 = [ (1, 11, 20, None), (2, 12, 22, 31), ] data2 = [ (1, 11, 20, None), (2, 12, 22, 31), ] schema = StructType([ \ StructField("value_1",IntegerType(), True), \ StructField("value_2",IntegerType(), True), \ StructField(&

浏览 4提问于2022-06-29得票数 0

回答已采纳

2回答

python列表中的唯一元素

、、、

我有一个清单 a = ['a', 'b', 'c' ,'ab','d','bc','b','c','d'] result = ['a','b','c','d'] (desired output) result = ['a','b','c','d','ab','bc' ] (my output

浏览 0提问于2018-09-13得票数 0

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

2回答

PySpark用新列表向dataframe添加新列

、、、

基于前面的问题：，。假设我有以下数据： df = spark.createDataFrame( [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3")) 我想要添加新的x4列，但是我在Python中有值，而不是添加到新列中，例如x4_ls = [35.0, 32.0]。是否有最佳方法将新列添加到Spark？(，注意，，我使用Spark2.1) 输出应该类似于： ## +---+---+-----+----+ ## | x1| x2| x3|

浏览 0提问于2017-02-15得票数 0

回答已采纳

2回答

Spark dataframe:使用第二个dataframe查找数组元素

、、

我有一个spark dataframe，其中每一行都有一个I列表： ident list_of_ids 1 [3,4,5] 2 [5,6] 3 [2] 4 [] 第二个spark数据帧将id映射到某个文本描述： id desc 2 "aa" 3 "bb" 4 "cc" 5 "dd" 6 "ee" 有没有一种简单(快速)的方法将第三列添加到第一个dataframe中，其中包含与列表中的ids相对应的描述列表： iden

浏览 18提问于2017-12-16得票数 2

2回答

在与列表匹配的列中保持单词的火花

、、、、

我现在有一个列表和一个Spark数据文件： ['murder', 'violence', 'flashback', 'romantic', 'cult', 'revenge', 'psychedelic', 'comedy', 'suspenseful', 'good versus evil'] 我很难找到在dataframe中创建一个新列的方法，它从标记列中为每一行获取第一个匹配单词，并将其放入新创建的该行列中。例如，假设

浏览 11提问于2022-05-29得票数 0

回答已采纳

1回答

如何使用Spark比较两个表的列？

、、、

我试图通过读取DataFrames来比较两个表()。对于那些使用主键连接的表中的每个公共列，假设order_id与其他列，如order_date、order_name、order_event。我正在使用的Scala代码 val primary_key=order_id for (i <- commonColumnsList){ val column_name = i val tempDataFrameForNew = newDataFrame.selectExpr(s"concat($primaryKey,$i) as concatenated"

浏览 0提问于2019-10-31得票数 0

1回答

为列表中的每一项启动联接

、、、

我有一个星火数据集 +----------+-------+----+---+--------------+ | _1| _2| _3| _4| _5| +----------+-------+----+---+--------------+ | null|1111111|null| 15| [98765]| | null|2222222|null| 16|[97008, 98765]| |6436334664|3333333|null| 15| [97008]| |2356242642|4444444|

浏览 4提问于2022-09-21得票数 0

回答已采纳

4回答

如何通过从另一个dataframe中获取值来更新dataframe列？

、、、、

我有两个数据格式：df_1和df_2 rdd = spark.sparkContext.parallelize([ (1, '', '5647-0394'), (2, '', '6748-9384'), (3, '', '9485-9484')]) df_1 = spark.createDataFrame(rdd, schema=['ID', 'UPDATED_MESSAGE', 'ZIP_CODE']) # +---+----

浏览 26提问于2022-11-03得票数 0

回答已采纳

2回答

熊猫的UDF功能需要非常长的时间才能完成大数据

、、、

我是PySpark和Pandas的新手，我运行以下Pandas函数来混淆包含字符串的列(例如:输入'Luke‘将导致'ulek') pandas_udf("string") def jumble_string(column: pd.Series)-> pd.Series: return column.apply(lambda x: None if x==None else ''.join(random.sample(x, len(x))).lower()) spark_df = spark_df.withColumn(

浏览 1提问于2021-08-30得票数 1

回答已采纳

1回答

读取拼花文件的火花问题

、、、

我有两个部分文件part-00043-0bfd7e28-6469-4849-8692-e625c25485e2-c000.snappy.parquet (从2017年11月14日开始是部分文件)和part-00199-64714828-8a9e-4ae1-8735-c5102c0a834d-c000.snappy.parquet (从2017年11月16日开始运行是部分文件)，并且都有相同的模式(我通过打印模式验证了这一点)。我的问题是，如果我使用Spark分别读取这两个文件的话，就会有10列，这是正确的。但是如果我把这个文件是文件夹一起读取，总计数是正确的(两个文件中的行之和)，但是从第二

浏览 10提问于2017-11-20得票数 2

回答已采纳

3回答

如何在PySpark中从列表中选择行

、、

假设我们有两个dataframes df1和df2，其中df1有列[a, b, c, p, q, r]，df2有列[d, e, f, a, b, c]。假设公共列存储在list common_cols = ['a', 'b', 'c']中。如何在sql命令中使用common_cols列表连接这两个数据文件？下面的代码尝试这样做。 common_cols = ['a', 'b', 'c'] filter_df = spark.sql(""" select * from

浏览 4提问于2022-03-17得票数 0

回答已采纳

2回答

打印scala中不带括号的结构列表Spark Scala中的[

、、

我在Dataset[Row]中有一个列，它是(Scala Spark)中的一个结构列表，其中包含字段id (String)和score (Double)。我需要将结构列表转换为一个原始字符串，以便在打印时不带[括号符号，这些符号在打印时自动附加到每个结构和列表的末尾。例如，当我现在打印出该列时，它看起来是这样的： [[id1, 0.4], [id2, 0.2], [id3, 0.2], [id4, 0.2]] 但我需要删除列表两端的[，并将,分隔符替换为: (或任何不是,的分隔符)，如下所示(并保持顺序)： id1, 0.4: id2, 0.2: id3, 0.2: id4, 0.2 我尝试

浏览 14提问于2021-10-11得票数 0

回答已采纳

1回答

如何与流窗口操作一起指定groupby中的多列？

、、

我无法在groupBy函数中指定列列表以及窗口操作。我现在的代码是： val groupCols = List("SINR_Distribution","NE_VERSION","NE_ID","NE_NAME","cNum","EarfcnDl","datetime","circle") val aggDFrame = dframe.groupBy(groupCols, window($"EVENT_TIME", "60 minutes

浏览 4提问于2020-10-30得票数 0

回答已采纳

1回答

PySpark -使用df.select(*column_list)后错误"IndexOutOfBoundsException: No group 2“

、、

我找了又找，但我找不到答案。我有一个函数，它本质上将列(根据它们的名称和数据类型)排序为我的公司在将DataFrames保存到SQL之前所需的特定顺序。我知道这个功能起作用。它所做的就是输出一个列列表(在源DataFrame中找到)。我调用这个排序列名列表col_list，并使用它作为df.select()的参数。这种方法几个月来一直行之有效。但是，在一个特定的项目中，当我试图通过以下方法将排序应用于数据访问时： df = df.select(*col_list) ...I得到了以下错误： org.apache.spark.SparkException: Job aborted due t

浏览 11提问于2022-04-13得票数 0

2回答

熊猫，在字符串列表和df列值(作为列表)之间找到匹配(任意)来创建新列？

、

我有一个字符串列表。我需要遍历我的dataframe的行，以尝试查找是否有任何或更多的列表项包含在一个列(String)的值中。我试图在列表项和dataframe列值之间找到子字符串匹配。然后，我需要为一个新列分配匹配的值，或者在没有匹配的情况下传递NaN。不只是任何，而是所有匹配的字符串部分。所以，在我的df的第三行，这些都是'E‘和'F22’。 df = pd.DataFrame({'type':['A23 E I28','I28 F A23', 'D41 E F22']}) matches = ['E

浏览 5提问于2019-08-13得票数 2

回答已采纳

2回答

如何强制CSV的inferSchema将整数视为日期(带有"dateFormat“选项)？

、、、

我使用Spark2.2.0 我正在读取csv文件如下： val dataFrame = spark.read.option("inferSchema", "true") .option("header", true) .option("dateFormat", "yyyyMMdd") .csv(pathToCSVFile) 该文件中有一个日期列，对于该特定列，所

浏览 3提问于2017-10-02得票数 8

回答已采纳

2回答

当源表行中的多列与目标表中单行的相同列匹配时，从目标火花增量表中删除一行

、、、、

当行中的某些列值与Source表中的相同列值匹配时，我希望更新databricks中的目标Delta表。问题是当源表中有多个行与目标Delta表中的一行匹配时。在这种情况下，源表中两个或两个以上行的主键与delta表中的一行主键匹配。我试图复制以下场景： sql=""" MERGE INTO """ + targetTable + """ TGT USING """ + tempView + """ SRC ON TGT.id = SRC.id and T

浏览 2提问于2020-06-08得票数 0

回答已采纳

3回答

循环2个列表，重复最短的列表，直到最长列表的末尾

、、

我相信有一种简单明了的方法可以做到这一点，但我一直在谷歌上搜索和阅读文档，就是找不到任何东西。这就是我想要实现的： la = ['a1', 'a2', 'a3', 'a4'] lb = ['b1', 'b2'] result = ['a1_b1', 'a2_b2', 'a3_b1', 'a4_b2'] 我有一个日期列表，其中一些日期上有标记。然后我有一个更大的日期列表，我想把最小的列表放在更大的列表中尽可能多的次数。它可能需要某种循环

浏览 0提问于2011-01-27得票数 31

回答已采纳

1回答

Pyspark根据条件创建新列

、

你好，我对pyspark完全是个新手，我不知道该怎么做。我使用以下命令读取pyspark dataframe中的csv文件 spark = SparkSession.builder \ .appName("Python Spark SQL basic example") \ .config("spark.some.config.option", "some-value") \ .getOrCreate() df = spark.read.option("header",True).csv("i

浏览 30提问于2021-03-20得票数 0

2回答

SparkR -为R函数提取数据的array<int>

、、、

我有1000个传感器，我需要划分数据(即每个传感器每天)，然后将每个数据点列表提交给一个R算法)。使用Spark，简化的示例如下： //Spark val rddData = List( ("1:3", List(1,1,456,1,1,2,480,0,1,3,425,0)), ("1:4", List(1,4,437,1,1,5,490,0)), ("1:6", List(1,6,500,0,1,7,515,1,1,8,517,0,1,9,522,0,1,10,525,0)), ("1:11", List(1,11,6

浏览 2提问于2016-01-12得票数 1

回答已采纳

1回答

从现有列创建新列。放置已存在列中不存在的值。从给定值的列表中选择

、、、、

我拥有的- 我有一个星星之火-sql dataframe(df)，它有一个名为“Country”的列+其他列。我有一份24个国家的名单。(注:这可以转换成一个数据表或表格，任何可行的解决方案)列表国家=奥地利，印度，俄罗斯，法国，德国我的问题是什么？我需要在'df‘中创建一个新的列(“剩余的国家”)，它将使所有国家从名单上给定的24个国家中分离出来，，除了，也就是df.Country中的一个。预期解决方案：注意:在这个解决方案中，我更喜欢pyspark/spark/sql。

浏览 3提问于2022-02-22得票数 0

1回答

Regex -如何考虑‘除非前面有某些短语’

、

我正在通过regex表达式过滤列，该表达式检查文本字段中是否存在列表中的某些短语： phrase = ["email was deleted", "click on link", etc.] df['text'].str.contains(r'\b(?:{})\b'.format('|'.join(sorted(phrase, key=len, reverse=True))), case=False, regex=True) 然而，现在我想添加一个条件，以排除任何在前面有短语/单词列表的结果： neg_phrase

浏览 1提问于2022-02-18得票数 1

回答已采纳

2回答

使用SQL表达式删除Spark中的重复列

、、

我认为这个问题类似于其他一些问题，但它没有被问到。在Spark中，我们如何在删除重复列的情况下运行SQL查询？例如，在spark上运行的SQL查询 select a.* from a left outer join select b.* from b on a.id = b.id 在这种情况下，如何删除重复的列b.id？我知道我们可以在Spark中使用其他步骤，比如提供遗憾或重命名列，但是有没有一种更快的方法来简单地通过编写SQL查询来删除重复的列？

浏览 8提问于2017-09-10得票数 1

2回答

如何突出显示/标记出现在电子邮件地址列表中的域名？

在Google电子表格中，我有： A列-包含裸域名列表(apples.com、banana.com、oranges.com) 列C-可能包含具有这些裸域名( jack@banana.com、mike@pineapple.com、michelle@banana.com)的电子邮件地址 C列肯定包含A列的域，但反之亦然。如何突出显示/marl A列中包含裸域的所有电子邮件地址？然后删除未突出显示/标记的电子邮件地址？或者我可以找到答案的任何指针？

浏览 0提问于2016-04-21得票数 0

1回答

新的Dataframe列作为其他行的通用函数(spark)

、、、

如何有效地在 DataFrame 中创建一个新列，该列是 spark 中其他行的函数这是我描述的问题的spark实现 from nltk.metrics.distance import edit_distance as edit_dist from pyspark.sql.functions import col, udf from pyspark.sql.types import IntegerType d = { 'id': [1, 2, 3, 4, 5, 6], 'word': ['cat', 'hat'

浏览 0提问于2018-01-09得票数 0

回答已采纳

1回答

使用google电子表格计算列表中文本的重复次数

、

我有一个文本列表，假设从A1到A{n}，如下所示： Alternative Ambient Rock Metal ecc.. 然后，我在每个单元格中得到一个文本列表，除以";“ 例如，在第一个单元格中 Alternative; Rock; Pop 我为{n}列提供了这样的列表，假设从C1到C{n}。我需要做的是计算每一列的每个列表中每个文本(从A1到A{n})出现的次数。例如，假设我有两列： Alternative; Rock; Pop Ambient; Rock; Metal 我需要知道的是，Alternative只存在一次，Rock只有两次，然后从B1到B{n}。所以我所期待

浏览 0提问于2018-10-21得票数 0

回答已采纳

2回答

从SQL中的列表中计算表中的值

、、、

下面实例化了一个列表： SELECT chklRefTo FROM CSART.DBO.tblMaintenance 并返回以下内容： chklRefTo ---------- SRH STI GP/Walk-in ED/UCC Other 另一列值 Ref to ------- STI STI,GP/Walk-in,ED/UCC GP/Walk-in,ED/UCC SRH,STI,ED/UCC STI,Other 实例化如下所示： SELECT ReferredTo AS "Reason Not Admitted" FROM CSART.DBO.tblPhoneConsul

浏览 4提问于2016-03-10得票数 0

回答已采纳

1回答

python关键字匹配(关键字列表-列)

、、、、

假设数据集， Name Value 0 K Ieatapple 1 Y bananaisdelicious 2 B orangelikesomething 3 Q bluegrape 4 C appleislike 我有关键字列表 [apple, banana] 在此数据集中，匹配列'Value‘-关键字列表 *我的意思是匹配是“值”中的关键字。我想看看列表匹配列中的关键字，所以..。我想知道匹配率是多少。最终，我想知道的是“找到关键字和列之间的匹配率”，如果可以的话，过滤数据谢谢。编辑在我真实的数据集中，句子中有关键词

浏览 0提问于2020-02-03得票数 0

回答已采纳

4回答

如何获取表1中的记录，而不是表2中的记录？

、、

我有两张桌子:不包括和卡格列斯。我试图找到excluded中存在但在kaggleresults中不存在的记录计数： scala> spark.sql("select * from excluded").count() res136: Long = 4652 scala> spark.sql("select * from kaggleresults").count() res137: Long = 4635 区别是17 scala> res136-res137 res139: Long = 17 我在试着弄到那17张唱片。我在下面写了这个查询

浏览 6提问于2016-11-16得票数 1

回答已采纳

4回答

比较两种数据火花

、、、、

我试图比较两个列数相同的两个数据帧，即在两个数据帧中有4列以id作为键列 df1 = spark.read.csv("/path/to/data1.csv") df2 = spark.read.csv("/path/to/data2.csv") 现在我想将新列附加到DF2，即column_names，它是与df1值不同的列的列表。 df2.withColumn("column_names",udf()) DF1 +------+---------+--------+------+ | id | |name | sal | Address

浏览 7提问于2020-02-18得票数 7

回答已采纳

2回答

PySpark -将单个整数列表与列表列进行比较

、、

我正在尝试检查spark dataframe (具有列表的列)中的哪些条目包含来自给定列表的最大数量的值。我想出的最好的方法是使用rdd.foreach()遍历数据帧，并使用python的set1.intersection(set2)将给定的列表与每个条目进行比较。我的问题是，spark有没有内置的功能，所以可以避免使用.foreach迭代？谢谢你的帮助！另外，我的数据帧看起来像这样： +-------------+---------------------+ | cardnumber|colle

浏览 19提问于2018-02-01得票数 2

回答已采纳

3回答

如何有效地识别特定列中不同的记录

、、、

我有两个数据集df1和df2，在这两个数据集中，我需要检测df2中与df1中不同的任何记录，并创建一个带有附加列的结果数据集，该列标记了不同的记录。下面是一个例子。 package playground import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions.{col, sum} object sample4 { val spark = SparkSession .builder() .

浏览 29提问于2020-07-26得票数 1

2回答

根据另一个单词的存在创建新列

、、

我有过 pd.DataFrame({'text':['fewfwePDFerglergl','htrZIPg','gemlHTML']}) text 0 wePDFerglergl 1 htrZIPg 2 gemlHTML 一列长10k行。每一列包含一个'PDF'，'ZIP'，'HTML‘之一。文本中每个条目的长度最大为14 14char。我如何得到： pd.DataFrame({'text':['wePDFerglergl','

浏览 2提问于2019-11-27得票数 0

回答已采纳