具有多个列表的Spark isin_Pandas无法计算具有重复轴的isin_有没有办法对多个列表使用pandas .isin()函数？ - 腾讯云开发者社区

scala、apache-spark

我想让我们使用不同列表的函数。$colon$colon List(103, 603, 613) at org.apache.spark.sql.catalyst.expressions.Literal$$anonfun$create$2.apply(literals.scala:164) at org.apache.spark

浏览 62提问于2021-01-11得票数 0

回答已采纳

2回答

迭代select查询

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我想创建一个数据集，它是许多select查询的堆叠数据集，在我的where子句中更改了一个参数。我可以使用python通过调用select查询n次并相应地更改where原因来做到这一点。这是我可以在SQL中一次性完成的事情，而不必进行n个单独的select查询吗？例如 dfs = [] dfs.append(spark.select("select * from personal_data where Name =当前采用上述方法的

浏览 31提问于2019-12-10得票数 0

3回答

根据另一个列表中的值从列表中选择多个对象

c#、.net、linq

我也给出了一个简单的例子，说明我试图在课程下面实现什么。这就是cascadeList进来的地方。因此，如果有3个PriceDetails具有相同<em

浏览 0提问于2016-01-15得票数 3

回答已采纳

1回答

基于广播变量的电火花滤波器数据

python、pyspark、broadcast

我有一个吡火花2.0数据，我试图过滤基于一个(相对的)短列表-也许长度50-100。filterList = ['A','B','C']filter_df= df.where((df['Foo'].isin(filterList )) | (df['B

浏览 1提问于2018-09-25得票数 0

回答已采纳

1回答

带isin的Pyspark数据帧过滤器

python、pyspark

我正在尝试将我的数据帧的一个子集应用于多个条件，但我无法在pyspark中复制常规的pandas isin行为。假设我的目标dataframe是(在pandas中)：其中，string1是来自同一df的列(其他df的串联)，而look_string是具有一列和不同长度的另一df string1 = esmm.col

浏览 3提问于2020-10-11得票数 1

2回答

火花放电数据的慢速滤波

python、pandas、pyspark、pyspark-sql

list(range(10000))t0 = time.time()print(time.time() - t0)df_spark_filtered = df_spark[df

浏览 1提问于2018-12-12得票数 5

回答已采纳

1回答

使用时，在列中向前倾斜，isin

pyspark、apache-spark-sql、pyspark-dataframes

看起来我不能过滤列中包含斜线的地方。我使用以下语法过滤掉它。a = a.filter(a.column.isin('A/B','A/B/C')SyntaxError:无效语法你能告诉我为什么吗？

浏览 2提问于2020-08-17得票数 1

回答已采纳

1回答

是否可以使用DataFrames过滤Spark来返回列表中列值所在的所有行？

python、apache-spark、pyspark

如果某列的值在指定的列表内，我如何才能只返回Spark DataFrame的行？下面是我的Python pandas执行此操作的方法：我看到了scala的实现，并尝试了几种排列方式，但都不能正常工作。下面是使用pyspark完成此操作<

浏览 17提问于2017-03-14得票数 5

回答已采纳

2回答

如果值包含在scala中的list中，如何筛选行？

scala、apache-spark

例如，我想使用列表筛选火花数据df.filter(col("id).isin(lisst))Unsupported literal type$colon$colon 我尝试了Seq和Set，得到了同样的错误。

浏览 1提问于2018-03-27得票数 2

回答已采纳

1回答

使用Scala中的值列表过滤Spark数据帧

scala、apache-spark、dataframe

创建后，我将通过Ids列表来筛选行。val myDF = spark.sql("select * from myhivetable")有没有一种方法可以查询配置单元表，如下所示： val myDF = spark.sql("select * from myhivetable").where (("id").isin(

浏览 0提问于2018-09-26得票数 1

3回答

(当使用列表过滤数据时)

list、scala、dataframe、apache-spark、underscore.js

当看到一些同事的Scala代码时，有时我会看到他们使用列表来过滤数据，如本例所示：上面的代码工作得很好，但是这段代码没有： df.filter(col("c

浏览 1提问于2020-06-28得票数 3

回答已采纳

1回答

将DF列转换为列表时出现的PySpark错误

pyspark、pyspark-sql

我的星火脚本有问题。 .coalesce(1000)\ .filter((df1.dt == 20181029) &(df1.user.isinFile "/home/keenek1/indev/rax.py", li

浏览 0提问于2018-10-30得票数 3

回答已采纳

1回答

星星之火SQL DF --如何为“`Column`”的“`isin`”方法动态传递多个值

scala、dataframe、apache-spark-sql

我正在尝试过滤带有where条件的Spark。例如，：工作一个我正在尝试的是，不是硬编码pType值，而是动态地构建它。因此，我构建了一个包含所有pType值的列表(字符串)。例如，如果我有List("type1","type2")，如何将此列表用于isin方法

浏览 9提问于2016-10-25得票数 1

回答已采纳

2回答

如何根据项目或描述的列表在dataframe中删除不需要的行

scala、list、apache-spark、dataframe、filter

我有一个装满ip地址的数据。我有一个ip地址列表，我想从我的数据删除。在根据"lista“删除所有ip地址之后，我想要一个新的数据格式"filtered_list”。 at org.apache.spark.sql.Column$$anonfun$is

浏览 1提问于2019-06-12得票数 1

回答已采纳

2回答

Scala筛选出任何column2与column1匹配的行。

scala、dataframe、apache-spark、filter、apache-spark-sql

嗨斯塔克沃夫， (scala.math

浏览 2提问于2020-06-04得票数 0

回答已采纳

1回答

将Pyspark隐藏到具有实际值的列表中

pyspark、apache-spark-sql

我正在尝试将Pyspark列转换为一个值列表(而不是对象)。另外，尝试转换为numpy Array和聚合collect_list() df.groupby('columnname

浏览 2提问于2020-04-22得票数 0

1回答

来自另一个表的分区列的火花条件(性能)

apache-spark、apache-spark-sql

我在registration_ts列上有一个巨大的分块表，名为stored。spark.sql("select * from stored where exists (select 1 from stream where stream.registration_ts我唯一能想到的解决办法是： val partitions = stream.select('registration_ts).distinct.collec

浏览 2提问于2019-07-13得票数 1

2回答

PySpark: TypeError：'Column‘对象不可调用

python、apache-spark、pyspark、spark-dataframe

我正在从HDFS中加载数据，我想通过特定的变量来过滤这些数据。但不知何故，Column.isin命令不起作用。sqlContext.read.option("mergeSchema", "true").parquet("parameters.parquet") same_var = col("Variable").isin

浏览 4提问于2016-09-07得票数 11

回答已采纳

1回答

PySpark:我可以使用一个join作为过滤的更轻的替代方案吗？

pyspark、apache-spark-sql

我所做的是，我已经做了一个列表与竞争对手和产品is临时数据，谁不辜负规则，然后过滤原始数据框架相应。但是，我发现使用filter(col )命令存在严重的性能问题，我正在寻找一种不同的方法。编辑以便下面的代码框显示命令，用于创建临时数据文件，其中的目的是使用concat_l作为列表进行以后的筛选。这个命令确实起作用，但是速度有点慢。此列表的长度为124 k。& (~f.col('store').i

浏览 3提问于2022-07-06得票数 0

回答已采纳

1回答

在迭代多个列表后，根据其他列值创建新列

python、list、loops、dataframe

我有一个数据，其中包括一个列多个食品项目。我想要创建一个包含食物项类型的新列，它存储在多个列表中。['steak', 'chicken', 'fish'] 我有一个列包含所有这些食物项目，但不想创建一个具有食物类型的列。我有一个相当笨重的解决方案来完成这个任务，但我想知道是否有一种更简单的方法来遍历这些列表并将食物类型添加到新的列中。以下是我目前的<

浏览 0提问于2018-10-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云