腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6386)
视频
沙龙
1
回答
相当于
pandas
.
isin
()
的
PySpark
python
、
dataframe
、
apache-spark
、
pyspark
、
apache-spark-sql
我有以下
PySpark
DataFrame data = [ ('baz'), ('qux')df = spark.createDataFrame(data, ( "group")) 现在我想创建一个新
的
列number,如果group在列表zeros = ['baz', 'qux']中,它就是0,如果它在ones = ['foo
浏览 20
提问于2021-05-05
得票数 0
回答已采纳
4
回答
利用
isin
排除对火花放电数据
的
过滤
python
、
apache-spark
、
pyspark
、
pyspark-sql
我试图获取列值不在列表中
的
dataframe中
的
所有行(因此通过排除进行过滤)。++---+---+| 2| b|| 4| c|+---+---+df.filter('bar not in ("a","b")').show() 是否有一种不为SQL表达式使用字符串或一次排除一个项
浏览 0
提问于2017-01-21
得票数 48
回答已采纳
1
回答
是否可以使用DataFrames过滤Spark来返回列表中列值所在
的
所有行?
python
、
apache-spark
、
pyspark
如果某列
的
值在指定
的
列表内,我如何才能只返回Spark DataFrame
的
行?下面是我
的
Python
pandas
执行此操作
的
方法:我看到了scala
的
实现,并尝试了几种排列方式,但都不能正常工作。下面是使用
pyspark
完成此操作<
浏览 17
提问于2017-03-14
得票数 5
回答已采纳
2
回答
火花放电数据
的
慢速滤波
python
、
pandas
、
pyspark
、
pyspark-sql
在过滤熊猫和火星雨数据时,我有一个关于时间差
的
问题:import numpy as npfrom random import shufflefrom
pyspark
.sql import SparkSessiont0 =
浏览 1
提问于2018-12-12
得票数 5
回答已采纳
1
回答
如何在条件下更改考拉数据中
的
值
pandas
、
pyspark
、
spark-koalas
我使用考拉,我想根据条件改变列
的
值。df_test2 = pd.DataFrame({ ,'d': ['one','two','three']}) 0 1 four 1 2
浏览 17
提问于2020-11-27
得票数 1
回答已采纳
1
回答
带
isin
的
Pyspark
数据帧过滤器
python
、
pyspark
我正在尝试将我
的
数据帧
的
一个子集应用于多个条件,但我无法在
pyspark
中复制常规
的
pandas
isin
行为。假设我
的
目标dataframe是(在
pandas
中):其中,string1是来自同一df
的
列(其他df
的
串联),而look_string是具有一列和不同长度
的
另一df string1 =
浏览 3
提问于2020-10-11
得票数 1
1
回答
列中
的
搜索值
python-3.x
、
pyspark
、
pyspark-dataframes
import
pyspark
from
pyspark
.sql.types import * print('Yes') print('No')``` but with
pyspark
I tried usin
浏览 16
提问于2020-09-29
得票数 1
回答已采纳
2
回答
用于分配新列
的
列
的
值
python
、
pyspark
在python中,您可以使用df.loc[df"A".
isin
(1,2,3),"newColumn"] ="numberType",编写一个过滤器并为一个新列赋值。这在火花放电中是如何工作
的
?
浏览 2
提问于2022-11-21
得票数 0
回答已采纳
1
回答
如何使用Python /
Pyspark
合并数据库中
的
数据
python
、
pandas
、
pyspark
、
databricks
我正在使用Databricks笔记本来提取gz压缩
的
csv文件并加载到dataframe对象中。我对下面的第2部分有困难。 import
pandas
as pd df.show(truncate返回以下错误: TypeError:无法连接类型为'<class‘>
的
对象.sql.dataframe.DataFrame’>;只有Se
浏览 5
提问于2021-02-10
得票数 1
回答已采纳
2
回答
火星雨:
isin
与join
apache-spark
、
pyspark
、
spark-dataframe
通过给定
的
值列表过滤
pyspark
中
的
数据
的
一般最佳实践是什么?具体地说: 其他背景:
浏览 0
提问于2017-08-21
得票数 28
回答已采纳
2
回答
查找最接近火花放电中
的
值列表
的
值。
python
、
dataframe
、
apache-spark
、
pyspark
让我们假设拥有这个
Pyspark
dataframe:y = np.random.randint(1, 100, 1000)spark_df = spark.createDataFrame(df)lst = [10, 20, 30]+---
浏览 5
提问于2021-09-28
得票数 4
回答已采纳
1
回答
如何在
PySpark
上将所有函数合并成一列?
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
目前,我正试图将所有的功能合并到一个名为“性别”
的
专栏中。我已经成功地使用了
Pandas
,但是现在我想用
PySpark
来实现它,与
Pandas
相比有点不同。这是我使用
Pandas
完成
的
版本: male = ["male", "m", "male-ish", "maile",复制
的<
浏览 4
提问于2020-05-19
得票数 0
回答已采纳
1
回答
在
pyspark
中使用foreach()
python-3.x
、
foreach
、
pyspark-sql
我有一个包含名为primary_use
的
列
的
pyspark
DataFrame。 下面是第一行: ? 为了创建一个布尔向量来指示某一行中
的
primary_use是Education还是Office,我使用了以下代码。building.foreach(is_included_in).show() AttributeError: 'NoneType' object has no attribute 'show' 你能解释一下结果并提出对代码
的
更正吗
浏览 129
提问于2019-12-13
得票数 1
1
回答
在
pyspark
中保持至少有一个元素满足条件
的
组
python
、
pandas
、
pyspark
我一直在尝试用
pyspark
重现一些在
Pandas
中很容易做到
的
东西,但我现在已经挣扎了一段时间。a进行分组,如果b中
的
任何元素都在列表中,则为该组中
的
所有值返回True。与此相对应
的
Pandas
是: df[df.b.
isin
(l).groupby(df.a).transform('any')] 1 2 55 2 7
pyspark
中
的
可重现数据帧: f
浏览 8
提问于2020-11-04
得票数 2
回答已采纳
3
回答
PySpark
数据框
的
SQL IN子句
apache-spark
、
pyspark
在SQL中,例如,我们可以执行select * from table where col1 not in ('A','B'); 我想知道是否有与此等效
的
PySpark
。我能够找到用于SQL IN子句
的
isin
函数,但没有用于NOT IN。
浏览 52
提问于2016-09-22
得票数 3
回答已采纳
2
回答
在databricks SQL中选择describe表或显示列
的
结果
pyspark
、
apache-spark-sql
、
databricks
、
azure-databricks
我需要运行一个查询,如果表中有一个特定
的
列,它将提供一个输出,如果没有,则给出一些其他值。是否有方法在SELECT语句中访问SHOW COLUMNS或DESCRIBE TABLE
的
结果?在这里可以看到错误:
浏览 8
提问于2022-04-08
得票数 -1
1
回答
如何根据行号列表拆分
pyspark
数据帧
的
行?
list
、
sorting
、
pyspark
、
apache-spark-sql
我已经创建了一个
pyspark
数据帧,形象化地看起来像这样: >>> df ------------------------------30 | 50 | ... |300 | 350 | 50 | ... |500 | 5 然后我还创建了随机
的
行号列表,如下所示: my_list = [[2, 5],[4, 1, 3]] 根据这个列表
的
结构,我希望创建
pysp
浏览 16
提问于2019-04-18
得票数 0
回答已采纳
1
回答
在函数中等价于
pyspark
sql
、
pyspark
、
apache-spark-sql
pyspark
中col1 in ('a','b','c')
的
等价物是什么? 我试过下面的方法,但似乎不起作用 col1.
isin
.(['a','b','c']
浏览 15
提问于2021-07-21
得票数 0
回答已采纳
1
回答
Python -使用
Pyspark
检查.
isin
()列中是否有单个值是正确
的
吗?
python
、
python-3.x
、
pyspark
在
PySpark
中,当我想要检查其中一个值是否在列中时,我使用.
isin
() F.col('metric').
isin
({"Metric_value1, Metric_value2"}) 像下面这样对单个值执行相同
的
检查是否正确,或者有更好
的
方法这样做?F.col('metric').
isin
({"Metric_value1"})
浏览 21
提问于2020-06-18
得票数 1
回答已采纳
2
回答
Pandas
:检查df中是否存在列列表中
的
列
python
、
pandas
这里
的
目标是找到df中不存在
的
列,并使用空值创建它们。我有一个列名列表,如下所示:当我尝试检查列是否存在时,它只对存在
的
列给出True,对于缺少
的
列不给for column in column_list:在
PySpark
中,我可以使用以
浏览 0
提问于2018-10-23
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python开源数据分析工具TOP 3!
大数据下Python的三款大数据分析工具
Pandas与SQL的数据操作语句对照
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Pandas中比较好用的几个方法
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券