腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8933)
视频
沙龙
1
回答
Pyspark
'for‘
循环
没有
使用
.
filter
()
正确
过滤
pyspark-sql
数据
帧
。
、
、
、
、
我正在尝试创建一个for
循环
,首先:
过滤
一个
pyspark
sql
数据
帧
,然后将
过滤
后的
数据
帧
转换为pandas,对其应用一个函数,并将结果添加到一个名为results的列表中。我的列表包含一个字符串序列(这将是dataframe中的某种id );我希望for
循环
在每次迭代中从列表中获取一个字符串,并
过滤
dataframe中id为该字符串的所有行。示例代码: results = []
浏览 21
提问于2020-12-16
得票数 1
回答已采纳
2
回答
AttributeError:'DataFrame‘对象
没有
属性’时间戳‘
、
我的
PySpark
DataFrame df有一个列unix_timestamp,它是以秒为单位的时间戳。strftime("%Y-%m-%d %H:%M:%S") df = df.withColumn("unix_timestamp", df.unix_timestamp.cast("timestamp")).
filter
浏览 2
提问于2017-11-23
得票数 0
回答已采纳
1
回答
Pyspark
使用
窗口函数和我自己的函数
、
、
、
我希望用
pyspark
和spark dataframe做同样的事情。我知道我必须
使用
窗口函数,但它比熊猫更难理解,所以我迷路了…… 我有这个,但我不知道如何让它工作。
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
1
回答
在for
循环
中
使用
Grepl获取精确匹配
、
、
在
使用
向量
过滤
数据
帧
时,我遇到了让grepl进行精确匹配的问题。然而,我似乎不能让它在
循环
中工作。[i],My_vehicles)) } 如果我更改了
filter
(grepl(my_vector[i],My_vehicles)) 至
filter
(grepl("\\bmy_vector[i]\\b",My_vehicles)) 我
没有
得到
正确
的结果。我想要的是从<e
浏览 12
提问于2021-01-22
得票数 0
回答已采纳
1
回答
如何模拟对
pyspark
sql函数的内部调用
、
、
、
、
获得了以下
pyspark
代码:).count() 在测试代码中,
数据
帧
是模拟的,所以我尝试为这个调用设置return_value).
filter
(ANY).cou
浏览 11
提问于2019-11-02
得票数 12
回答已采纳
1
回答
如何在
PySpark
的Pandas中
使用
iloc获得相同的结果?
、
、
在Pandas dataframe中,我可以
使用
data.iloc[1:1000,:]获取前1000行。如何在
PySpark
中做到这一点?
浏览 24
提问于2021-01-11
得票数 1
回答已采纳
1
回答
使用
来自另一个
数据
帧
的条目
过滤
一个
pyspark
数据
帧
、
、
我有两个
数据
帧
,其中一个来自必须
过滤
Category的地方,另一个来自它所做的条件
过滤
。Avg这里的输出将是Category因为它满足dataframe_1中的所有条件dataframe_2.select(&
浏览 0
提问于2021-09-06
得票数 0
1
回答
Pyspark
-希望将SQL查询应用于
pyspark
数据
帧
、
免责声明:我对
pyspark
非常陌生,这个问题可能不合适。age where age = 22 in SQLtemp = spark.sql("SELECT core_id from df"这可以在
py
浏览 30
提问于2020-06-17
得票数 1
1
回答
PySpark
:如何检查
数据
格式中是否存在字符串值列表,并将值打印到列表中
、
、
、
display(NAMES)输出我还有一份学生,print(students)的名单问题 基于这个列表(学生),我如何
循环
使用
浏览 0
提问于2018-08-02
得票数 4
回答已采纳
1
回答
pyspark
最有效的日期-时间戳匹配
、
、
我有一个带有时间戳类型列的
PySpark
(2.3.0)
数据
帧
:+-------------------++----------08:14:47|>> df.printSchema()|-- column: timestamp (nullable = true)import datetime
浏览 70
提问于2018-06-08
得票数 4
回答已采纳
6
回答
在For
循环
内的R中创建子集
数据
帧
我尝试做的是根据较大
数据
帧
中第一列的值将较大的
数据
帧
过滤
成78个唯一的
数据
帧
。我能想到的唯一
正确
的方法是在for()
循环
中应用
filter
()函数: {x1 =
filter
(rawdta.df, Plant_Line == plantline$Plant_Line[i])} 问题是我不知道如何创建一个新的
浏览 0
提问于2018-07-25
得票数 0
4
回答
过滤
两个向量中的值之间的
数据
帧
,并将结果添加到R中的列表中
、
我有一个值的
数据
帧
,并希望
使用
两个向量来指定在
数据
帧
中的值之间进行
过滤
的位置,然后将每个
过滤
器的输出添加到列表中。data.frame(x = 1:20) v1 <- c(3,8,18) mydata <- mydata %>%
fil
浏览 31
提问于2021-08-06
得票数 1
回答已采纳
1
回答
pyspark
:用另一个df列替换isIN和isNOT
、
、
我正在尝试
使用
"isin“
过滤
pyspark
中的
数据
帧
,还尝试了另一种
过滤
方法。Second way : df2.
filter
我还必须执行一个“不在” data_array = np.a
浏览 12
提问于2021-03-23
得票数 0
1
回答
Python/
PySpark
并行处理示例
、
、
、
、
我有一个十亿行的食品
数据
库,例如:2017-01-01,bagel,bread,103.Generate 1 row of stats and appends to summary file 我需要在迭代
循环
中添加什么才能触发多处理?
pyspark
浏览 10
提问于2018-03-04
得票数 0
2
回答
在Notebook上
使用
pyspark
从表中删除行
、
、
、
我正在Databricks notebook上编写
pyspark
脚本来插入/更新/查询cassandra表,但是我找不到从表中删除行的方法,我尝试了spark sql: spark.sql("DELETEfrom users_by_email where email_address IN ('abc@test.com')") 我也不认为
使用
dataframe删除
数据
是可能的。
浏览 25
提问于2019-12-17
得票数 0
回答已采纳
1
回答
Spark在
数据
库上运行
过滤
器,而不是在spark
数据
帧
上运行
、
、
我正在
使用
PySpark
从mongo获取
数据
帧
并进行一些
过滤
。当我在大约5000条记录上运行时,一切都很好,但当我在大约17万条记录上运行同样的东西时,它不是在
数据
帧
上
过滤
记录,而是在mongodb上运行
过滤
,这使得它太慢了。= '')
浏览 11
提问于2020-03-01
得票数 0
1
回答
如何转换
pyspark
dataframe列的值?
、
、
、
、
我在
pyspark
数据
框中有一列表示电子设备的年龄,这些值是以毫秒为单位给出的。有
没有
一种简单的方法将该列的值转换为年份?我不是很精通Spark。编辑:我知道你可以很容易地用基本的数学将毫秒转换为年,我正在尝试获取
pyspark
数据
帧
的一列,并迭代它,并将所有列值转换为不同的值。有
没有
一个特定的
pyspark
函数可以让这一切变得更容易?我有一个列,其中所有的值都是以毫秒为单位的非常大的整数,我试图根据设备的寿命
过滤
掉太小或太大而<em
浏览 17
提问于2021-05-20
得票数 1
1
回答
火花放电
数据
中的平均函数
我有如下所示的
数据
用户提供一个值,我想从该值上方的所有行中计算元组中第二个数字的平均值。 例如:假设值为10,我想取" value“列中值大于或等于10的所有行,并计算这些行的平均值。
浏览 4
提问于2020-03-28
得票数 1
回答已采纳
2
回答
迭代和计算列的更有效的方法
、
我有一个非常宽的
数据
帧
> 10,000列,我需要计算每个列中空值的百分比。有
没有
我错过的更有效的方法? 谢谢!
浏览 0
提问于2017-09-24
得票数 1
1
回答
pyspark
,解析时间戳值时udf崩溃
、
我有一个从parquet读取的
数据
帧
,值如下 +-----------------------++-----------------------+-01-03 00:00:000.0| |-- date_col: timestamp (nullable = true) 我试图将不
正确
格式化的日期
过滤
到单独的
数据
帧
中,err_df只是一个具有相同模式的空
数据</e
浏览 28
提问于2020-01-24
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券