使用某些列和列表从spark dataframe中获取特定行

文章/答案/技术大牛

发布

1回答

python、list、dataframe、apache-spark

我有很大的spark数据帧'df'，(超过十亿行)由 meta_info | date | comment 我还有一个变量'lst'，它存储了我感兴趣的所有in。怎样才能只保留id包含在lst中的行？ df.where("meta_info".isin(lst)).show() 这就是我所尝试的，但它显示'string‘没有isin

浏览 21提问于2021-07-15得票数 0

1回答

如何从列表中创建spark数据帧

scala、apache-spark

，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize(myList)来创建一个RDD 但是，我也不能选择该行的特定元素：sc.parallelize(myList).map(line =>

浏览 2提问于2018-09-26得票数 1

1回答

Pyspark :检查日期列中的值是否有效

python、apache-spark、apache-spark-sql、pyspark-sql

我有一个从CSV文件导入的spark。在应用了一些操作(主要是删除列/行)之后，我尝试将新的DataFrame保存到Hadoop，这将显示一个错误消息： **如何检查DataFrame是否遵守所需的时间范围？我考虑编写一个

浏览 1提问于2018-08-27得票数 1

回答已采纳

1回答

N列m行的动态数据帧

scala、apache-spark

从json(动态模式)读取数据，并将其加载到dataframe。, (3, "GHIJ")someDF: org.apache.spark.sql.DataFrame-----++------+-----+| 2| DEF|+------+--

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

如何在没有Spark的情况下直接编辑HBase HFile

apache-spark、hbase

我需要批量编辑HBase数据，为每一行编辑特定单元格的内容。通过HBase PUT/GET API不是一种选择，因为这会非常慢。我想设置一个Spark任务，它将HBase HFile加载到正确定义的DFs中，让我编辑特定列中的数据，然后将数据保存回HDFS，保持HFile格式。我找到了关于如何将HFile从Spark批量写入HDFS的几个指南，但是，我不确定如何从HDFS中获取</

浏览 0提问于2019-01-24得票数 1

回答已采纳

1回答

计算数据的每一列的模式，将其存储在一个列表中，并使用它生成一个数据格式

pyspark

我正在查找数据中所有列的“模式”，并将它们存储在列表中。计算每个列的我的模式的代码： #calculating mode valuefor i in df_num.columns这是我将模式列表转换为dataframe的代码：错误 ----

浏览 0提问于2018-04-03得票数 2

回答已采纳

7回答

如何在spark的数据中“负选择”列

scala、apache-spark、dataframe、apache-spark-sql

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因为不能将org

浏览 21提问于2015-07-15得票数 22

回答已采纳

2回答

如何将值传递给表中的pyspark变量？

python、pyspark、apache-spark-sql

这可能是一个愚蠢的问题，但我有一个表，其中的每一列都包含要传递给变量的值： select sfObject from db.tblwhere Id = {} 我看到的是一个名为sfObject的列，它的预期值为'ValueA‘，我得到一个pyspark.sql.dataframe.DataFrame</e

浏览 1提问于2020-06-10得票数 1

回答已采纳

1回答

我应该在Spark* DataFrame上应用什么转换*

apache-spark、apache-spark-sql

我有两个DataFrame数据帧(A和B)，它们都有一个公共的列/字段(在Spark A中是主键，但在B中不是)。对于dataframe A中的每一条记录/行，dataframe B中有多条记录。基于该公共列值，我希望针对dataframe A中的每条记录从dataframe B中

浏览 0提问于2018-07-25得票数 0

1回答

使用scala从excel构建数据框架

excel、scala、apache-spark、apache-spark-sql、spark-excel

我正在寻找使用scala从spark中的excel文件构造数据格式的方法？我在下面引用了这样的帖子，并试图为一个excel表做一个附加的操作。 .option("sheetName", "Sheet1") &

浏览 3提问于2018-06-11得票数 0

回答已采纳

2回答

使用Scala删除列中包含特定值的Spark* DataFrame行*

scala、dataframe、apache-spark

我正在使用tryping来删除spark dataframe中包含特定行中的特定值的行。例如，如果我有下面的DataFrame，我想删除列"A“中有"two”的所有行。所以我想删除索引为1和2的行，我想使用Scala 2.11和Spark 2.4.0来实现。

浏览 188提问于2020-11-03得票数 0

回答已采纳

2回答

在与列表匹配的列中保持单词的火花

string、list、apache-spark、pyspark、apache-spark-sql

我现在有一个列表和一个Spark数据文件：我很难找到在dataframe

浏览 11提问于2022-05-29得票数 0

回答已采纳

1回答

标识满足条件的DataFrame索引对象

python、pandas

当满足特定条件(例如对于给定列)时，如何从DataFrame中获取索引对象？下面返回一个具有Series值的True/False对象，其中满足my_dataframe的foo列中的某些条件： true_entries = my_dataframe['foo'].apply(my_lambda_function作为应用程序的一个示例，我希望在满足该条件的数据帧中<

浏览 3提问于2013-07-26得票数 1

2回答

如何从Azure Databricks Spark中的DataFrame获取特定行和列

python、azure、apache-spark、apache-spark-sql、databricks

我在Azure Databricks中有一个DataFrame，它看起来像------------John | McCresult = ds.select(Col a) 例如，在这行代码中，如何获得第2行呢？

浏览 0提问于2018-08-26得票数 2

1回答

根据条件从spark数据帧中删除行

pyspark

我想根据条件从列表的spark数据帧中删除行。条件是列表的长度是一定长度。我曾尝试将其转换为列表列表，然后使用for循环(如下所示)，但我希望在spark内的一条语句中完成此操作，并基于此条件从原始df创建一个新的不可变df。finalList = [] if len(subList) < 4: finalList.ap

浏览 25提问于2019-04-30得票数 0

回答已采纳

1回答

生成包含(类似于SQL)字符串的列名列表。

scala、apache-spark、apache-spark-sql

下面这是一个简单的语法，用于搜索特定列中的字符串--使用类似SQL的功能。val dfx = df.filter($"name".like(s"%${productName}%")) 问题是如何获取的每个列名，其中包含其值中的特定字符串，并为每一行生成一个包含这些“列名”列表的新列到目前为止，这是我采用的方法，但由于我不能在UDF中使用sql "Li

浏览 1提问于2019-01-11得票数 1

回答已采纳

3回答

熊猫-在新的dataframe列中增加特定iloc的价值

python、pandas、numpy

我有一个包含很多列的大数据。对于dataframe中的每一行/索引，我都会执行一些操作，读取一些附加的ata，等等，并获得一个新的值。是否有方法将新值添加到正确的行/索引的新列中？我可以使用.assign添加一个新列，但由于我正在遍历行，而且每次只生成一个值要添加的数据(生成数据非常复杂)。当生成它时，我想立即将它添加到dataframe中，而不是等到生成了整

浏览 5提问于2017-09-08得票数 59

回答已采纳

3回答

如何使用createDataFrame创建pyspark数据帧？

pyspark

我知道这可能是一个愚蠢的问题。我有以下代码：rows = [1,2,3]df.printSchema()但是我得到了一个错误：我不明白为什么会发生这种情况，因为我已经提供了'data'，也就是变量row。

浏览 1提问于2018-03-12得票数 2

回答已采纳

4回答

在PySpark dataFrame中给特定单元格赋值

python、apache-spark、dataframe、pyspark

我希望使用Spark DataFrame的PySpark在特定的单元格中更改一个值。简单的例子--我创建了一个模拟Spark DataFrame [ (42 5.7 miami 1 6

浏览 4提问于2018-05-17得票数 7

回答已采纳

1回答

无法SaveAsTextFile AttributeError：“列表”对象没有属性“saveAsTextFile”

pyspark-sql

但我不确定是否有一个问题会提供与我现在有一个新的错误消息相同的答案：#%%findspark.init('/home/packt/spark-2.1.0-bin-hadoop2.7')spark = SparkSession.builder.appName('ops').getOrCreate() df = spark

浏览 1提问于2018-08-06得票数 1

点击加载更多