基于列值高效地从宽Spark数据帧中删除列

文章/答案/技术大牛

发布

1回答

、、

如果我有一个只包含IP地址的宽数据帧(200m cols)，并且我想删除包含空值或格式不佳的IP地址的列，那么在Spark中执行此操作的最有效方法是什么？我的理解是Spark并行地执行基于行的处理，而不是基于列的处理。因此，如果我尝试在列上应用转换，将会有大量的混洗。首先转置数据帧，然后应用筛选器删除行，然后重新转置是利用<em

浏览 11提问于2019-10-31得票数 1

2回答

火花镶嵌地板隔断移除了隔断柱

、、

数据将删除数据上的分区列。如何避免呢？

浏览 2提问于2021-03-16得票数 0

1回答

Spark To Cassandra:将没有空值的稀疏行写到Cassandra

、、、、

问:如何高效地将Spark DataFrame中包含值的列写入Cassanrda？(在最小的Scala代码行中高效，而不是在Cassandra中创建一堆tombstones，让它快速运行，等等) 我有一个包含两个键列和300个潜在描述符值的Cassandra表。数据帧，但数据帧中的每一行都非常稀疏-除了两个键值之外，特定行可能只

浏览 0提问于2018-11-06得票数 2

3回答

使用在R中重新出现的列名从宽到长重塑数据框

、、、

我正在尝试使用melt公式将数据帧从宽格式转换为长格式。挑战在于我有多个标记相同的列名。当我使用melt函数时，它会删除重复列中的值。我读过类似的问题，有人建议我使用重塑功能，但我不能让它工作。要重现我的起始数据帧，请执行以下操作：interaction.num<-c("1","1&qu

浏览 1提问于2014-05-27得票数 3

1回答

如何合并或连接spark中列号不相等的数据帧

、、、、

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据帧</

浏览 13提问于2016-09-22得票数 0

1回答

R高效地查找DataFrame列中的值

、、、

我有一个很大的R数据帧，我需要多次高效地查找基于两列$start和$end的行。我假设典型的解决方案是O(N)：我更喜欢对至少一列进行排序，并执行更高效的O(log(N))查找。有哪些内置的R方法可以利用数据帧中的排序进行查找？

浏览 0提问于2011-12-06得票数 2

1回答

在不使用collect的情况下高效地迭代spark数据帧

、、

我有一个有2000万条记录的巨大数据帧，我需要迭代数据帧df1，逐行读取，并根据df3的列值构造另外两个数据帧df2和df3作为输出。 Input - df1有20列和2000万条记录。Output -df2有4列，将根据df1中的列值创建2000万条记录。Output - df3有20列，将根据df1中的列<

浏览 0提问于2020-04-09得票数 0

3回答

删除spark数据帧中重复的所有记录

、、、、

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala 2.10。

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

如何截断spark* dataframe列的值？*

、、、

我想为spark数据帧的单个列中的每个字符串删除字符串的最后两个值。我想在spark数据帧中实现这一点，而不是将其移动到pandas，然后再移回来。下面是一个数据帧示例，# | age| name|# | 350|Michael|# |123| Just

浏览 1提问于2019-06-04得票数 1

1回答

正在将pyspark数据帧写入文本文件

、

我有一个从sql server中的一个表创建的pyspark数据框架，我对它做了一些转换，现在我要将它转换为动态数据框架，以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时，我将向该文件添加另一个头文件。这是我的动态数据框，将保存为文件： 2021_02_12| MT.1002

浏览 0提问于2021-04-23得票数 0

7回答

如何从包含特定列中特定字符串的熊猫数据框架中删除行？

、

我在python中有一个非常大的数据框架，我希望删除特定列中具有特定字符串的所有行。例如，我希望删除数据帧的C列中将字符串"XYZ“作为子字符串的所有行。能否使用.drop()方法高效地实现这一点？

浏览 7提问于2015-02-23得票数 169

回答已采纳

1回答

如何基于列值高效地迭代pandas数据帧

、、、

我有一个包含3列的df，其中最后一列保存一个组的code_name。15 0.518057 4332_1_24 2015-05-17 0.291904 4332_1_2 我想基于name列迭代这个df，这意味着在每次迭代中，只包含具有相同名称的行。

浏览 4提问于2020-06-12得票数 0

回答已采纳

1回答

使用SparkR向Spark* dataframes添加包含函数值的列*

、、、

我正在使用SparkR来处理一些在其技术堆栈中包含R和spark的项目。sdf1$result <- sdf1$value == sdf2$value 问题是当我必须比较两个不同长度的数据帧时。使用函数操作sdf1和sdf2数据帧并将值赋给sdf1的新<e

浏览 3提问于2017-05-18得票数 0

1回答

如何更新Spark中的数据框列

、、、

我有一个数据帧，其中有2个json列。我需要更新基于j1列的j2列。如果j2列的元素为空，则从j1列中选取元素值。j1为JSON字符串，j2为JSON数组。输入数据帧， +---------------------------+---------------------------------------+ | j150"}, {"A": "2

浏览 22提问于2021-08-04得票数 1

回答已采纳

1回答

定义一个函数，该函数将一组R代码作为单个程序

我有示例代码，从数据帧中过滤数据，并删除数据帧中的一些列，并执行连接。示例代码如下所示；其中，SB是基于snum列值为1创建SBR的数据帧，且SB具有6列在上面的代码中，我尝试删除1,2,4

浏览 0提问于2015-12-10得票数 0

1回答

AWS胶-不知道如何将NullType保存为红移

、、、

我有一个带有空单元格的文本文件和一个接受空值的表。当我运行胶水作业时，它会失败，例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题，或者通过Glue在RedShift中不支持空插入？getResolvedOptions(sys.argv, ['TempDir','JOB_NAME']) glueContext = GlueContext(sc)j

浏览 4提问于2017-11-28得票数 5

4回答

Python Pandas条件值消除

、

我试图在一个基于值的数据帧中删除值--基于另一个数据帧。我很感谢你在这方面的专业知识。数据帧1- df1：| -------- | -------------- || h | 35 | | e | 40

浏览 6提问于2021-02-16得票数 0

回答已采纳

1回答

在熊猫中，我在从长格式到宽格式的转换中遇到了困难。有很多从宽到长的例子，但我没有找到一个从长到宽的例子。我正在尝试重新格式化我的数据帧，pivot，groupby，unstack对于我的用例来说有点混乱。这就是我想要的样子。这些数字实际上是第二张图像中的强度列。 ? 我试图建立一个基于肽，电荷和蛋白质的MultiIndex。然后，我尝试基于多个索引进行旋转，并保持所有样本及其强度为值： df.set_index(

浏览 17提问于2021-02-09得票数 0

3回答

查看Spark* Dataframe列的内容*

、、、

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code'的列。所以我可以做df['zip_

浏览 1提问于2015-06-30得票数 43

回答已采纳

1回答

将csv读入包含时间列的hdfs将不起作用

、

我想将一个带有时间列的csv读入hadoop，在hadoop中，时间列将作为字符串读入。java.lan

浏览 0提问于2019-07-25得票数 0

点击加载更多