基于一列的相同输入并合并其他列的spark合并数据集

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

UserRecord]，它看起来像这样 case class UserRecord( ts: Timestamp,) 让我们将这几个数据集称为现在我在想，是否可以先为每个数据集执行groupBy和agg，然后将它们连接在一起来解决面向对象的问题。也欢迎任何其他好的建议:) 我有一个数据集的IndexedSeq，如下所示 |name| lists

浏览 33提问于2021-06-17得票数 1

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列<

浏览 13提问于2016-09-22得票数 0

1回答

使用R中的合并单元格导入excel

、、

我有一个数据集，它的第一列与excel中的4列合并。当我在R中导入相同的数据时，只有这个列被导入，而其他列不被导入。你能建议我如何正确地导入数据吗？

浏览 0提问于2017-07-27得票数 1

0回答

在SAS会话之间共享散列对象

、、

我有一个非常大的数据集和一个中等大的数据集。我想散列合并较小的到较大的。我只需要从结果合并中保留一小部分行/列，所以我使用的方法是使用SAS/CONNECT启动几个并行会话，并让每个会话处理来自超大数据集的单独范围的行。当每个并行散列<e

浏览 8提问于2017-06-11得票数 2

1回答

合并R中的多列

、、、、

我对用同一个ID合并多个列有问题。我知道这对于两个列表是可能的，但是我需要将所有的物种列合并成一个，所以我有第一列为物种(合并)，然后是w，w.1，w.2，w.3，w.4…物种列都有相同的物种，但没有顺序，所以我不能只删除其他列，因为这意味着w值与正确的物种没有关联。这是一个包含10000行和2000列的非常大的数据</

浏览 2提问于2022-05-08得票数 0

4回答

将多个CSV文件(数据集)组合成一个联合文件

、、、、

我有5个数据集，作为CSV文件，每个数据集都包含周一到周五计算机上的事件日志。所以：Tuesday.csvThursday.csv我想知道如何将所有这些合并到一个大文件中，每个数据集在格式上是相同的，有80列，以及跟踪一周中的哪一天，当查看这个大数据集时，所有5天都是这

浏览 4提问于2021-03-02得票数 1

回答已采纳

1回答

模糊字符串匹配与归并

、、、

我正在尝试用字符串place合并两个数据集，它很相似，但在许多情况下并不完全相同。有没有办法用变量place合并两个数据集A和B？第一个数据集A有四个变量：name, plac

浏览 0提问于2015-05-09得票数 1

1回答

在spark中处理json文件

、、

在spark-scala中，我需要使用嵌套结构的json文件来创建数据帧我有一个具有复杂嵌套结构的json输入。每天都有可能一些键在任何记录上都不可用(键是可选的)，键的.some可能不会出现在day1上，可能会出现在day2中，但我希望得到一个通用的输出，其中所有列都期望inspite键缺失。我不能使用withcolumn函数并应用默认值，因为如果键出现在某一天，相应的值应该是我选择

浏览 1提问于2019-10-01得票数 0

1回答

五旬节

、、

我从五旬节数据整合开始。我正在尝试用XML文件中的数据更新我的数据库。但是，Get data from XML输出的格式不正确。然后，我使用Row denormaliser步骤来进行这一修正。但是，结果是：非常感谢!对不起我的英语:)

浏览 2提问于2015-02-03得票数 1

回答已采纳

1回答

熊猫的有效链合并

、、

我发现，如果将大量数据集与大量列合并到同一列中，那么直接与熊猫库合并的链式合并是非常低效率的。问题的根源就像我们加入许多str的愚蠢方式一样：而不是：在进行链式合并时，我们多次复制数据集(在

浏览 2提问于2016-11-12得票数 5

回答已采纳

3回答

使用OR代替R和在R中基于多个条件选择行

、

我有一个大的数据集，我正试图根据两个单独的列的值进行筛选。对于每一行，我都有一个列显示它们的总计数(tot)，一个列显示看到该类型的示例的总次数(tot.type)。例如，我希望基于(tot)和(tot.type)筛选数据，其中(tot) OR (tot.type)必须大于或等于2。我找到的所有基于多个值的过

浏览 7提问于2015-02-05得票数 4

回答已采纳

1回答

使用合并平面文件并导入Cloud

、、、、

我们必须从CSV文件中读取数据，并映射与一列相关的两个文件，并使用将数据推送到Cloud。将合并的pcollection复制到С大声SQL数据库中

浏览 2提问于2015-04-24得票数 3

1回答

将一个数据帧的avro模式复制到另一个数据帧-pyspark

、

我有一个具有模式A的数据集A，也有一个具有模式B的数据集B。这两个数据集A和B大多相似(具有相同的列，但数据类型仅在少数情况下不同)，但有一个次要的differences.One示例，即数据集A中的列具有日期值(‘2020-08-03’，表示为字符串数据类型)，数据<

浏览 7提问于2020-08-03得票数 1

2回答

awk，根据列值合并两个数据集

我需要合并存储在变量中的两个数据集。此合并需要基于"$x"的第一列和"$y"的第三列的值是有条件的12 hey34 hi aa bb 12ss ww 23 通过执行以下命令，

浏览 17提问于2018-08-17得票数 1

回答已采纳

1回答

如何将多组列串联成几个新列？

、

60行，~100列。例如，目前的列包括“战斗机1”、“战斗机2”、“战斗机3”、“向导1”、“向导2”、“向导3”等。我希望将来自每组的数据放在I列中，每列标记为"Fighter“、"Wizard”等，其中包含来自三列的<e

浏览 0提问于2019-08-13得票数 2

回答已采纳

2回答

如何使用python为每个列创建一个特定行的图，以及选择matplotlib还是seaborn的包？

、、

我试图为每个国家从2002年到2023年的排名创建一个地块。我创建了这个数据集，方法是从各个年份加载每个csv文件，其中包含国家和排名列，并使用Countries列组合这些单独的数据集。现在，在这个合并的数据集中，我想用Python绘制一个特定的国家，它显示2002到2023年的每一个等级。另外，我想从每一列中删除小数；当我使用合并</e

浏览 0提问于2023-05-26得票数 0

2回答

合并没有键列的两个Dataframes

、、

我有一个要求，我想要合并两个数据帧，没有任何键列。在输入表中，我将前三列视为一个数据框架，将最后一列视为另一列。我的计划是对第二个数据帧进行排序，然后将其合并到没有任何键列的第一个数据帧中，使其看起来类似于上面的输出。是否有可能以这种方式合并，或者是否有其他选择？

浏览 1提问于2018-03-26得票数 4

回答已采纳

2回答

Spark Java -合并同一列多行

、、

我使用的是Java Spark，我有一个这样的数据帧|id |color|datas ||1 |blue |data1| |data5||3 |white |data7|+----------------++---

浏览 1提问于2017-05-23得票数 3

1回答

SAS中的哈希合并

、、

我有8张不同的桌子，每张有2400万到4000万张记录。其中一个表是用于连接到其他7的主表。是否有其他有效的方法来合并中的大型数据集？另外，谁

浏览 2提问于2018-08-17得票数 0

1回答

SSIS -循环访问多个数据源数据

我是SSIS的新手。我有以下场景，我通过一个执行SQL任务从SourceA接收数据集-each行有3列- ColumnA，列b，列C你能给我一个关于如何进行的高层次<em

浏览 4提问于2015-08-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云