腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
多
列上
的
PySpark
数据
帧
过滤器
、
、
、
使用Spark 2.1.1id Name1 Name2 现在需要根据两个条件来筛选行,即需要过滤掉2和3,因为name具有number
的
123,而3具有空值df.select("*").filter(df["
浏览 6
提问于2017-08-23
得票数 0
回答已采纳
1
回答
如何将Sklearn SVM实现应用于使用SPARK ML计算
的
特征( Spark ML中缺少
多
类SVM )
、
、
、
、
我有220 GB
的
数据
。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在,我
的
数据
帧
中缺少27行。然后,我使用一元和二元语法
列上
的
pyspark
的
TF和IDF类计算TFIDF,并将其作为另一列添加到dataframe中。现在我为dataframe中
的
每一行都有了journalID和TFIDF vector。我想将支持向量机应用于所有类型
的
核,以TFIDF
浏览 1
提问于2018-12-17
得票数 0
1
回答
多
列上
的
pySpark
连接
数据
帧
、
、
、
、
我使用下面的代码来连接和删除两个
数据
帧
之间
的
复制。有15列,我
的
df2有50+列。如何在不对要连接
的
列进行硬编码
的
情况下连接多个列?col in repeated_columns: return final_df 具体来说,当比较
数据
帧
的
列时我可以加入cols
的
列表吗?我需要避免硬编码名称,因为cols会因大小写而不
浏览 36
提问于2020-06-08
得票数 0
回答已采纳
2
回答
使用python将两个spark
数据
帧
合并到一个模式中
、
、
、
我有两个不同
的
pyspark
数据
帧
,需要合并成一个。有一些逻辑需要为合并编码。其中一个
数据
帧
具有以下模式:(id,类型,计数),另一个具有模式:(id,timestamp,test1,test2,test3) 第一个
数据
帧
是通过sql "group by“查询创建
的
。可以有重复
的
ids,但ids
的
类型将有所不同。并且,对于给定
的
类型,有一个相关
的
计数。
浏览 46
提问于2020-01-29
得票数 0
回答已采纳
0
回答
减去Pandas或
Pyspark
Dataframe中
的
连续列
、
、
、
、
我想在pandas或
pyspark
数据
帧
中执行以下操作,但我仍然没有找到解决方案。我描述
的
操作可以在下图中看到。 请记住,输出
数据
帧
在第一
列上
不会有任何值,因为输入表中
的
第一列不能被前一列减去,因为它不存在。
浏览 1
提问于2016-07-12
得票数 4
回答已采纳
1
回答
如何对
pyspark
dataframe列应用函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe,并尝试在dataframe
的
一
列上
应用函数。我在pandas dataframe中做了一些如下
的
事情。在操作了几个列值之后,将新列添加到pandas
数据
帧
中,如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply(convert_USD_INR, axis=1) 有没有人能给我举个例子,把它转换成<e
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
在多个
列上
应用窗口函数
、
我想执行窗口函数(具体而言是移动平均),但要在
数据
帧
的
所有
列上
执行。我可以这样做 df = ...有没有更好
的
方法呢?
浏览 0
提问于2017-04-21
得票数 6
1
回答
从两个值不同
的
数据
帧
中获取列
、
、
、
我有两个几乎相同
的
Pyspark
数据
帧
:相同
的
行数和row_id,相同
的
模式,但每行
的
某些
列上
的
值不同。 我想确定每一行
的
列是什么。示例:
数据
帧
A id fname lname email2 Roger Moore rm@rocketmail.com3 Angela Merkel a
浏览 22
提问于2020-03-23
得票数 1
回答已采纳
1
回答
如何从
数据
筛选器
的
输出中创建
PySpark
数据
文件?
、
、
我必须基于一个
过滤器
函数从一个
数据
文件创建2个
数据
文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class '
pyspar
浏览 0
提问于2022-03-24
得票数 0
回答已采纳
1
回答
pyspark
中
的
滞后函数运行不正常
、
、
、
df是没有任何唯一标识符
的
数据
帧
。我必须在
列上
使用滞后函数来计算它以前
的
值,代码如下所示 import
pyspark
.sql.functions as func df =
浏览 1
提问于2020-05-21
得票数 0
1
回答
如何在
pyspark
中实现多个array_union和array_intersection
、
、
、
假设我有一个
pyspark
数据
帧
,其中包含以下列:数组类型
的
c1、c2、c3、c4和c5。现在我要做
的
是:(c1)交集(c2 union c3)交集(c2 union c4 union c5) 我可以在一个循环中
的
两个
列上
使用array_union,并在withColumn
的
帮助下不断添加一列如何在
PySpark
中高效地完成此操作?有没有更聪明
的
方法来做这件事?
浏览 21
提问于2019-10-31
得票数 0
1
回答
合并
多
列上
的
数据
帧
、
、
如果我尝试通过循环"isin"-Method来查找,我可以查找一个列
的
匹配项,但我希望同时匹配两个列。
浏览 23
提问于2021-01-02
得票数 2
回答已采纳
2
回答
迭代和计算列
的
更有效
的
方法
、
我有一个非常宽
的
数据
帧
> 10,000列,我需要计算每个列中空值
的
百分比。现在我正在做
的
是:for c in df_a.columns[:]: # print(c)当然,这是一个缓慢
的
过程,有时会崩溃。有没有我错过
的
更有效<em
浏览 0
提问于2017-09-24
得票数 1
4
回答
加入轻量级IP (lwip)中不工作
的
igmp_group
、
、
我是lwip
的
新手,我想用lwip创建一个
多
播接收器。我
的
步骤如下: 1.启用LWIP_IGMP;2.在low_level_init()中设置NETIF_FLAG_IGMP;3.加入组播组,创建并绑定pcb;4. udp_connect到remote_ip但是组播接收器不工作,没有组播
数据
进入网络接口。看起来我并没有将我
的
接收器加入到igmp组中,尽管加入过程看起来很好。有人知道我错过了什么吗?非常感谢你
的
帮助! 瑞安
浏览 5
提问于2014-04-24
得票数 5
1
回答
如何在
pyspark
中迭代dataframe
多
列?
、
、
假设我有一个只有一列
的
数据
帧
df,其中df.show()是|a,b,c,d,....| |a,b,c,d,....|,所以我想得到一个df1,其中df1.show()是|a|b|c.....,所以简而言之,我想把一个只有一列
的
数据
帧
分解成一个有
多
列
的
数据
帧
。所以,我有了这样
的
想法 split_col =
pyspark
.sql.functions.split(df['x&
浏览 1
提问于2020-06-04
得票数 1
1
回答
不执行多个联接
的
单元查询
、
、
我编写了一个Hive查询,在包含整数值(包括0)
的
表
的
多
列上
计算33和66百分位数。然后,我加入这些结果,得到一个表,其中有33 %和66 %
的
列。 我
的
问题是查询不执行。我试着用2列执行,它工作得很好,但在这么
多
的</
浏览 1
提问于2016-06-23
得票数 0
回答已采纳
1
回答
在python中使用两列进行过滤,并在每列中选择适用
的
字段
、
、
、
我想过滤A列和D
列上
的
数据
帧
,其中A列和D列是关键
过滤器
。
数据
帧
名称为df。
浏览 5
提问于2020-11-30
得票数 1
3
回答
Pandas:有没有一种方法可以在不遇到AttributeError
的
情况下使用.str访问器来检查对象是否真的是一个字符串?
、
、
我使用toPandas()将
pyspark
数据
帧
转换为pandas
数据
帧
。但是,因为某些
数据
类型不对齐,所以pandas会将
数据
帧
中
的
某些列强制转换为object。我想用实际
的
字符串在我
的
列上
运行.str,但似乎不能让它工作(如果没有显式地找到首先要转换
的
列)。(作为参考,我尝试做
的
是,如果
数据
帧
中
的<
浏览 1
提问于2020-06-23
得票数 1
0
回答
如何有效地将Spark dataframe列转换为Numpy数组?
、
、
我有一个大约有一百万行
的
Spark
数据
帧
。我正在使用
pyspark
,并且必须在
数据
帧
的
每一
列上
应用来自scipy库
的
box-cox变换。但是box-cox函数只允许一维numpy数组作为输入。numpy数组是分布在spark上还是将所有元素收集到运行驱动程序
的
单个节点上?
浏览 6
提问于2016-07-10
得票数 1
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外
的
关键字参数'keep‘
、
、
、
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我
的
数据
帧
中删除重复项。显然,它在我
的
Jupyter Notebook中工作正常,但当我试图通过终端以.py文件
的
形式执行时,我得到了以下错误: Traceback (most recent call last): File"/home/source/fork/
PySpark
_Analytics/Notebooks/Krish
浏览 110
提问于2019-06-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
PySpark,一个大数据处理利器的Python库!
pyspark 一个大数据处理神器的Python库!
tcp/ip模型中,帧是第几层的数据单元?
PySpark,大数据处理的超级英雄,一个让数据分析提速100倍的Python库!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券