合并spark dataframe中的重复列

文章/答案/技术大牛

发布

1回答

、、

浏览 4提问于2018-01-05得票数 3

回答已采纳

1回答

我正在探索聚合()函数，我有几个问题没有得到回答：是只在executor中移动数据，还是将分布在多台机器上的数据分区移动？如果它只是执行器级别，那么在这种情况下，如果每台机器只有一个分区，并且在三个节点上有3个分区，则合并()是如何工作的？如何合并(1)？当我在数据帧上运行coalesce()函数时，它创建了一个500 MB的输出文件和一个1.2 GB文件的输出文件，为什么会有如此巨大的差异？我知道coalesce()分区的大小并不相同，但是创建大文

浏览 4提问于2021-06-10得票数 0

3回答

Spark Dataframe中的重复列

、、、、

我在hadoop集群中有一个10 in的csv文件，其中包含重复的列。我尝试用SparkR分析它，所以我使用spark-csv包将它解析为DataFrame sqlContext, source= "com.databricks.spark.csv", mode = "DROPMALFORMED"但是由

浏览 0提问于2015-11-20得票数 7

回答已采纳

3回答

如何删除PySpark DataFrame中的列复制而不声明列名

、、

这是我在熊猫身上做的事如何在PySpark中做到这一点？我找到了，但是代码的数量太不一样了

浏览 3提问于2021-09-30得票数 2

回答已采纳

3回答

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

、、、、

问题陈述:在升级Databricks运行时版本时，复制列在创建dataframe时抛出错误。在较低的运行时，会创建dataframe，并且由于下游不需要重复列，因此它只是在select中被排除在外。文件位置:存储在ADLS Gen2 (Azure)上的Json文件。集群模式:标准代码:我们在中阅读它，如下所示。以前，我们在Databricks运行时7.3LTS(Spark3.0.1)上运行，在那里它创建了包含重复列的data

浏览 1提问于2021-11-16得票数 2

回答已采纳

1回答

要将应用程序从Spark1.5迁移到Spark2.1，我需要做哪些更改？

、

我必须迁移到Spark2.1，这是一个使用Spark1.6用Scala2.10.4编写的应用程序。

浏览 1提问于2019-01-31得票数 0

回答已采纳

2回答

处理dataskew而不盐碱化spark中的连接键

、、

我试图用一个30行的dataframe内部连接一百万行数据，这两个表都有相同的连接键，spark正在尝试执行排序合并连接，并且由于这个原因，我的所有数据都在同一个执行器中结束，而Job永远不会完成。Select /*+ BROADCAST(Df2) */ Df1.* from Df1 inner join Df2 on Df1.id=Df2.id").createTempView("temp") 重分区

浏览 8提问于2020-06-06得票数 1

1回答

[ spark* -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java*

、、、

我正在尝试将spark-cassandra使用的项目从scala_2.11重构为java_1.8。我使用的是spark-sql_2.11-2..3.1和spark-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8中。我有一些隐含和DataFrame被使用。import com.datastax.spark.connector._ import spark.imp

浏览 7提问于2019-04-17得票数 0

回答已采纳

2回答

熊猫合并列复制和和值

、、

如何合并重复列和它们的值？我所拥有的A 40我所需要的B 50d = {'address': ["A", "A", "B"], 'balances': [30, 40, 50]}df

浏览 0提问于2019-03-10得票数 11

回答已采纳

1回答

Git重基工作流问题

、、

有许多关于git重基工作流的帖子/问题/博客。:所以让我们尝试解决它们的git状态。# both modified: sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveQl.scalagit add -a git

浏览 3提问于2014-08-04得票数 0

回答已采纳

1回答

、、

我使用火花- excel (com.crealytics.spark.excel)库来读取excel文件.如果excel文件中没有重复列，则库可以正常工作。如果excel文件中出现任何重复的列名，则在异常下面抛出。有什么解决办法来解决这个问题吗？线程"main“org.apache.spark.sql.AnalysisException中的异常:在数据模式中找到重复列：net territory；at

浏览 5提问于2018-05-19得票数 0

2回答

如何合并火花(java)中具有不同模式的两个拼花文件

、、

我有两个不同列数的拼板文件，并试图将它们与下面的代码片段合并如何使用java中的spark合并这些文件？| 11 | 22 |

浏览 2提问于2021-08-26得票数 2

回答已采纳

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。= sparkSession.createDataFrame(rddStringToRowRDD,dfschema) val rDD

浏览 0提问于2016-10-07得票数 6

回答已采纳

1回答

Pandas连接产生重复的结果和标头- python

、、、

我正在尝试从CDOT网站收集几年的流量数据进行分析。我使用以下代码来获取每个月和年的数据的URL；我需要将这些信息连接到一个大型数据帧中。value) dataframe= pd.read_html(r.text, header =0) appended_data.append(dataframe</e

浏览 37提问于2020-06-24得票数 0

点击加载更多