相当于pandas .isin()的PySpark_pyspark -列之间的isin_pandas中带有~isin()的if语句 - 腾讯云开发者社区

python、dataframe、apache-spark、pyspark、apache-spark-sql

我有以下PySpark DataFrame data = [ ('baz'), ('qux')df = spark.createDataFrame(data, ( "group")) 现在我想创建一个新的列number，如果group在列表zeros = ['baz', 'qux']中，它就是0，如果它在ones = ['foo&#

浏览 20提问于2021-05-05得票数 0

回答已采纳

4回答

利用isin排除对火花放电数据的过滤

python、apache-spark、pyspark、pyspark-sql

我试图获取列值不在列表中的dataframe中的所有行(因此通过排除进行过滤)。++---+---+| 2| b|| 4| c|+---+---+df.filter('bar not in ("a","b")').show() 是否有一种不为SQL表达式使用字符串或一次排除一个项

浏览 0提问于2017-01-21得票数 48

回答已采纳

1回答

是否可以使用DataFrames过滤Spark来返回列表中列值所在的所有行？

python、apache-spark、pyspark

如果某列的值在指定的列表内，我如何才能只返回Spark DataFrame的行？下面是我的Python pandas执行此操作的方法：我看到了scala的实现，并尝试了几种排列方式，但都不能正常工作。下面是使用pyspark完成此操作<

浏览 17提问于2017-03-14得票数 5

回答已采纳

2回答

火花放电数据的慢速滤波

python、pandas、pyspark、pyspark-sql

在过滤熊猫和火星雨数据时，我有一个关于时间差的问题：import numpy as npfrom random import shufflefrom pyspark.sql import SparkSessiont0 =

浏览 1提问于2018-12-12得票数 5

回答已采纳

1回答

如何在条件下更改考拉数据中的值

pandas、pyspark、spark-koalas

我使用考拉，我想根据条件改变列的值。df_test2 = pd.DataFrame({ ,'d': ['one','two','three']}) 0 1 four 1 2

浏览 17提问于2020-11-27得票数 1

回答已采纳

1回答

带isin的Pyspark数据帧过滤器

python、pyspark

我正在尝试将我的数据帧的一个子集应用于多个条件，但我无法在pyspark中复制常规的pandas isin行为。假设我的目标dataframe是(在pandas中)：其中，string1是来自同一df的列(其他df的串联)，而look_string是具有一列和不同长度的另一df string1 =

浏览 3提问于2020-10-11得票数 1

1回答

列中的搜索值

python-3.x、pyspark、pyspark-dataframes

import pysparkfrom pyspark.sql.types import * print('Yes') print('No')``` but with pysparkI tried usin

浏览 16提问于2020-09-29得票数 1

回答已采纳

2回答

用于分配新列的列的值

python、pyspark

在python中，您可以使用df.loc[df"A".isin(1,2,3)，"newColumn"] ="numberType"，编写一个过滤器并为一个新列赋值。这在火花放电中是如何工作的？

浏览 2提问于2022-11-21得票数 0

回答已采纳

1回答

如何使用Python / Pyspark合并数据库中的数据

python、pandas、pyspark、databricks

我正在使用Databricks笔记本来提取gz压缩的csv文件并加载到dataframe对象中。我对下面的第2部分有困难。 import pandas as pd df.show(truncate返回以下错误： TypeError:无法连接类型为'<class‘>的对象.sql.dataframe.DataFrame’>；只有Se

浏览 5提问于2021-02-10得票数 1

回答已采纳

2回答

火星雨: isin与join

apache-spark、pyspark、spark-dataframe

通过给定的值列表过滤pyspark中的数据的一般最佳实践是什么？具体地说：其他背景：

浏览 0提问于2017-08-21得票数 28

回答已采纳

2回答

查找最接近火花放电中的值列表的值。

python、dataframe、apache-spark、pyspark

让我们假设拥有这个Pyspark dataframe：y = np.random.randint(1, 100, 1000)spark_df = spark.createDataFrame(df)lst = [10, 20, 30]+---

浏览 5提问于2021-09-28得票数 4

回答已采纳

1回答

如何在PySpark上将所有函数合并成一列？

python、pandas、apache-spark、pyspark、apache-spark-sql

目前，我正试图将所有的功能合并到一个名为“性别”的专栏中。我已经成功地使用了Pandas，但是现在我想用PySpark来实现它，与Pandas相比有点不同。这是我使用Pandas完成的版本： male = ["male", "m", "male-ish", "maile",复制的<

浏览 4提问于2020-05-19得票数 0

回答已采纳

1回答

我有一个包含名为primary_use的列的pyspark DataFrame。下面是第一行： ? 为了创建一个布尔向量来指示某一行中的primary_use是Education还是Office，我使用了以下代码。building.foreach(is_included_in).show() AttributeError: 'NoneType' object has no attribute 'show' 你能解释一下结果并提出对代码的更正吗

浏览 129提问于2019-12-13得票数 1

1回答

在pyspark中保持至少有一个元素满足条件的组

python、pandas、pyspark

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。与此相对应的Pandas是： df[df.b.isin(l).groupby(df.a).transform('any')] 1 2 55 2 7 pyspark中的可重现数据帧： f

浏览 8提问于2020-11-04得票数 2

回答已采纳

3回答

PySpark数据框的SQL IN子句

apache-spark、pyspark

在SQL中，例如，我们可以执行select * from table where col1 not in ('A','B'); 我想知道是否有与此等效的PySpark。我能够找到用于SQL IN子句的isin函数，但没有用于NOT IN。

浏览 52提问于2016-09-22得票数 3

回答已采纳

2回答

在databricks SQL中选择describe表或显示列的结果

pyspark、apache-spark-sql、databricks、azure-databricks

我需要运行一个查询，如果表中有一个特定的列，它将提供一个输出，如果没有，则给出一些其他值。是否有方法在SELECT语句中访问SHOW COLUMNS或DESCRIBE TABLE的结果？在这里可以看到错误：

浏览 8提问于2022-04-08得票数 -1

1回答

如何根据行号列表拆分pyspark数据帧的行？

list、sorting、pyspark、apache-spark-sql

我已经创建了一个pyspark数据帧，形象化地看起来像这样： >>> df ------------------------------30 | 50 | ... |300 | 350 | 50 | ... |500 | 5 然后我还创建了随机的行号列表，如下所示： my_list = [[2, 5],[4, 1, 3]] 根据这个列表的结构，我希望创建pysp

浏览 16提问于2019-04-18得票数 0

回答已采纳

1回答

在函数中等价于pyspark

sql、pyspark、apache-spark-sql

pyspark中col1 in ('a','b','c')的等价物是什么？我试过下面的方法，但似乎不起作用 col1.isin.(['a','b','c']

浏览 15提问于2021-07-21得票数 0

回答已采纳

1回答

Python -使用Pyspark检查.isin()列中是否有单个值是正确的吗？

python、python-3.x、pyspark

在PySpark中，当我想要检查其中一个值是否在列中时，我使用.isin() F.col('metric').isin({"Metric_value1, Metric_value2"}) 像下面这样对单个值执行相同的检查是否正确，或者有更好的方法这样做？F.col('metric').isin({"Metric_value1"})

浏览 21提问于2020-06-18得票数 1

回答已采纳

2回答

Pandas:检查df中是否存在列列表中的列

python、pandas

这里的目标是找到df中不存在的列，并使用空值创建它们。我有一个列名列表，如下所示：当我尝试检查列是否存在时，它只对存在的列给出True，对于缺少的列不给for column in column_list:在PySpark中，我可以使用以

浏览 0提问于2018-10-23得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云