在没有重复列的pyspark中连接

文章/答案/技术大牛

发布

1回答

、

这是对scala for thread中给出的解决方案的参考[如何在join?](https://stackoverflow.com/questions/35258506/how-to-avoid-duplicate-columns-after-join)之后避免重复列| a| 11|预期输出+---+----++---+----+ | a| 1|

浏览 14提问于2018-09-07得票数 0

回答已采纳

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。文件"/opt/spark/python/lib/pyspark.zip/pysp

浏览 3提问于2021-11-25得票数 0

1回答

如何从F.col对象中恢复列名？

、

简单的问题:假设我们那么如何从pyspark.sql.column.Column对象F.col('a')中恢复列名字符串'a‘。

浏览 2提问于2020-05-10得票数 0

回答已采纳

1回答

如何避免联接操作后的重复列？

、、、

在Scala中，在联接操作之后很容易避免重复列：然而，在PySpark中有类似的解决方案吗？如果我在df1.join(df1, df1["id"] == df2["id"], "left").show() in PySpark，我会得到两列id.

浏览 0提问于2019-07-22得票数 1

回答已采纳

1回答

函数从大型数据集中删除重复的列。

尝试在连接hdfs表后删除pyspark df中的重复列名称？您好，我正在尝试连接多个具有200+最终列数的数据集。由于要求和大量的列，我不能在连接时选择特定的列。有没有办法在连接后删除重复的列。我知道有一种方法可以通过spark df的.join方法来做到这一点，但是我加入的基表不是spa

浏览 20提问于2018-12-20得票数 1

2回答

Drop函数在连接数据帧的相同列后不能正常工作

、、、

我在连接两个数据帧A、B时也面临着同样的问题。对于ex： c = df_a.join(df_b, [df_a.col1 == df_b.col1], how="left").drop(df_b.col1) 当我像上面那样尝试删除重复列时，该查询不会删除df_b的col1，相反，当我尝试删除df_a的col1时，它能够删除df_a的col1。有没有人能谈谈这件事。注意:我在我的项目中尝试了相同<e

浏览 14提问于2019-10-08得票数 0

回答已采纳

3回答

Laravel，列已经存在:1060重复列名

、

I运行的是laravel版本5.4.22照明\数据库\QueryException SQLSTATE42S21:列已经存在: 1060重复列名'is_admin‘(SQL: alter posts添加is_admin int not null)PDOException SQLSTATE42S21:列已经存在: 1060重复列

浏览 4提问于2017-05-16得票数 5

回答已采纳

1回答

使用联接查找PySpark中包含字符串的两个数据集的相似之处

、、、

我试图在两个数据集中匹配文本记录，主要是通过使用PySpark (目前没有尽可能多地使用BM25或NLP技术等库)，-using Spark和SparkNLP库很好。另外，下面是这两个数据集的架构。请注意不同的ID。df1 columns:fullTe

浏览 6提问于2022-05-23得票数 0

回答已采纳

1回答

Symfony 4.3原则移徙问题

、、、、

几天前，我运行了一个名为“20190819021520”的版本，运行得很好。数据库已经更新，没有任何问题。JSON默认NULL注释‘(DC2Type:json_array)，更改角色JSON默认空注释'(DC2Type:json_array)’‘时发生异常：JSON默认为空注释'(DC2Type:json_array)''： SQLSTAT

浏览 1提问于2019-08-22得票数 0

1回答

Pyspark dataframe连接的列名重复的很少，没有重复列的也很少

、、

我需要在我的项目中实现pyspark数据帧连接。我需要加入3个不同的案例。 1)如果两个数据帧具有相同的名称连接列。我加入如下所示。它消除了重复的列col1, col2。cond = ['col1', 'col2'] df1.join(df2, cond, "inner") 2)如果两个数据帧具有不同的名称连接列。我加入如下所示。它按预期维护所有4连接列

浏览 35提问于2019-12-03得票数 1

回答已采纳

1回答

PySpark:根据值中的字符列出列名

、

在PySpark中，我试图清理一个数据集。一些列的值中有不需要的字符(=“")。DataFrame (df)：="100010" 10 20 ="30" if type(value) == str and value.startswith('=')

浏览 0提问于2018-09-24得票数 1

回答已采纳

1回答

查询错误重复列id sql

、、

为什么这个查询返回错误的重复id？我在使用php LEFT OUTER JOIN (SELECT DISTINCT * FROM product_aliasesON productimages.product_id = prd.id 错误：数据库错误: SQLSTATE42S21:列已经存在: 1060重复列名上的product_aliases，product_aliase

浏览 2提问于2013-01-27得票数 1

回答已采纳

1回答

左外加入火花放电后下降功能不起作用

、、

我的火花放电版本是2.1.1。我正在尝试连接两个具有两个列( id和优先级)的数据文件(左外部)。我正在创建这样的数据格式：a_df = spark.sql(a) c_df = a_df.join(b_df, (a_df.id==b_df.id), 'left').drop(a_df.priority) 然后删除a_df<e

浏览 1提问于2019-02-11得票数 2

1回答

如何在PySpark应用程序中读写Google Cloud Bigtable中的数据？

、、、

我在Google Cloud Dataproc集群上使用Spark，我想在PySpark作业中访问Bigtable。我们有没有像谷歌BigQuery连接器那样的Spark的Bigtable连接器？如何从PySpark应用程序访问Bigtable？

浏览 4提问于2016-11-02得票数 5

5回答

在连接中不显示连接列的SQL select

、

在进行连接时，如何排除连接键的重复列？

浏览 0提问于2010-07-06得票数 1

3回答

从多个表中选择

、

这些表具有重复列名(如果这一点重要的话)。我看过手册，它说我可以使用JOIN，但我没有得到它。我试过的是： stmt = $mysqli->prepare("SELECT * FROM table1, table2 where firstname LIKE ?

浏览 4提问于2013-08-25得票数 0

1回答

连接到电子病历导入自定义SageMaker模块的Python笔记本

、、

我查看了类似的问题，但都没有解决我的问题。我有一个SageMaker笔记本实例，打开了一个连接到AWS EMR集群的SparkMagic Pyspark笔记本。我有一个连接到这个笔记本的SageMaker存储库，也叫做dsci-Python。/SomeClass

浏览 9提问于2019-11-28得票数 2

2回答

SQLSTATE[42S21]：列已经存在: 1060重复列名'id‘

、、

我也没有在其他页面上做任何改动。这是我的_create_articles_table.php页面： */ { Schema::dropIfE

浏览 5提问于2021-09-12得票数 0

回答已采纳

1回答

1060重复列名‘position_brand’，该怎么办？

、、、、

我安装了Magento第三方"Brands“扩展更新程序，在安装之前我禁用了缓存，安装后我的主页显示了一个错误：文件中的错误："/home/directory/public_html/site/app/local/extension/brandsextension/sql/brandsextension_setup/mysql-2-1-1-2“- SQLSTATE42S21:列已经存在: 1

浏览 2提问于2015-11-02得票数 2

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

点击加载更多