腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
PySpark
数据
帧
的
最佳
实践
-
删除
多个
列
?
、
、
、
假设有人想要从
数据
帧
中
删除
一
列
。可以在不创建新
数据
帧
的
情况下做到这一点吗?看起来创建一个新
的
数据
帧
更安全,更正确,对吗?通过重用如上所述
的
数据
帧
可能会遇到什么问题?如果重用
数据
帧
是一种糟糕
的
做法,假设有人想要
删除
几个与模式匹配
浏览 21
提问于2019-11-22
得票数 0
5
回答
火花复制
数据
栏- Python/
PySpark
中
的
最佳
实践
?
、
、
这是用于使用Spark2.3.2
的
Python/
PySpark
。我正在寻找
最佳
实践
方法,将一个
数据
框架
的
列
复制到另一个
数据
框架,使用
PySpark
对一个非常大
的
10+十亿行
数据
集(按年/月/日平均划分)。每一行都有120
列
要转换/复制。输出
数据
帧
将被写入另一组文件中,日期分区。在Python 2.3+中这样
浏览 1
提问于2018-12-19
得票数 5
1
回答
spark是否提供了一种生成64位随机盐
的
方法?
、
我正在使用
Pyspark
,并希望生成随机加密盐作为我
的
数据
帧
中
的
一个附加
列
。我想用它来为我
的
数据
生成Hash或一种保留加密密码值
的
格式。Spark dataframe API中是否有生成加密盐
的
最佳
实践
?
浏览 2
提问于2018-05-30
得票数 0
1
回答
将
多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将
多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中。它们都来自相同
的
模式,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,模式通常包含200个具有已定义
数据
类型
的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在不写入和读取所有
数据
帧
的
情况
浏览 2
提问于2020-06-22
得票数 0
2
回答
写到csv
的
火花性能差
、
、
、
上下文我试过什么发生了什么最后,这里是我
的
设置:
浏览 1
提问于2020-07-01
得票数 1
1
回答
包含以文本和整数形式存储
的
列
的
Excel工作表- pandas问题
、
、
、
我
的
输入
数据
来自三个excel工作表,一些
列
(整型
数据
)
数据
被存储为文本。将excel工作表作为
数据
帧
读取时,
最佳
做法是什么。当我尝试对所有三个
数据
帧
执行pd.concat操作时遇到问题。在pd.concat过程中,我得到了比预期更多
的
行数。我尝试了使用astype()将其转换为int,并使用df.columns = df.columns.str.strip()
删除
了空格 让我知道
浏览 17
提问于2019-10-31
得票数 0
3
回答
取消持久化(py)spark中
的
所有
数据
帧
、
、
、
、
这通常是在一个大
的
步骤之后,或者缓存一个我想要多次使用
的
状态之后。似乎当我第二次对我
的
数据
帧
调用cache时,一个新
的
副本被缓存到内存中。在我
的
应用程序中,这会导致在扩展时出现内存问题。尽管在我当前
的
测试中,给定
的
数据
帧
最大大约为100MB,但中间结果
的
累积大小超出了executor上分配
的
内存。请参见下面的小示例,该示例演示了此行为。['C2'
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
2
回答
如何从以2K开头
的
pyspark
数据
帧
中
删除
记录
、
、
我使用
的
是
pyspark
3.0.1。我想从我
的
pyspark
数据
帧
df
的
列
group中
删除
记录以2K开头
的
行。我
的
样本
数据
如下所示John 23 1L12Pat 35 1P28Name A
浏览 1
提问于2021-03-04
得票数 0
1
回答
删除
PySpark
数据
帧
中具有无效多边形值
的
行?
、
、
、
、
我们在
数据
帧
上使用
PySpark
函数,这会引发错误。错误很可能是由于
数据
帧
中
的
错误行造成
的
。
数据
帧
的
架构如下:|-- geo_name: string (nullable = true)|--错误发生时只需调用:错误: java.lang.IllegalArgumentException: Li
浏览 14
提问于2022-10-18
得票数 1
回答已采纳
1
回答
如何使用
Pyspark
/SQL/DataFrames SPARK RDD来插入/
删除
DB2源表
数据
?
、
、
、
我尝试运行upsert/delete命令来插入/
删除
DB2
数据
库源表中
的
一些值,这是DB2上
的
一个现有表。是否可以使用
Pyspark
/Spark SQL/Dataframes。
浏览 2
提问于2019-05-10
得票数 0
1
回答
检查
列
是否全部为空
、
、
我有一个列名和一个
数据
帧
。我想检查该
列
中
的
所有值是否都为空,如果为空,则从
数据
帧
中
删除
该
列
。我所做
的
是检查具有非空值
的
列
的
计数,如果count等于0,则
删除
该
列
,但在
pyspark
中这似乎是一个开销很大
的
操作
浏览 0
提问于2019-08-09
得票数 0
1
回答
spark.executor.cores Vs spark.executor.instance我应该增加哪一个?
这里
的
权衡是什么?应该如何选择这两个配置
的
实际值?
浏览 1
提问于2020-06-01
得票数 0
2
回答
pyspark
:
删除
所有行中具有相同值
的
列
相关问题:然而,上述问题
的
答案仅适用于熊猫。有没有针对
pyspark
数据
帧
的
解决方案?
浏览 1
提问于2018-12-17
得票数 4
1
回答
如何将Sklearn SVM实现应用于使用SPARK ML计算
的
特征( Spark ML中缺少多类SVM )
、
、
、
、
我有220 GB
的
数据
。我已经将其作为两
列
读取到spark dataframe中: JournalID和Text。现在,我
的
数据
帧
中缺少27行。使用NGram类,我在dataframe中添加了另外两个
列
Unigram和Bigram,其中包含文本
列
中
的
单字和双字。然后,我使用一元和二元语法列上
的
pyspark
的
TF和IDF类计算TFIDF,并将其作为另一
列
添加到da
浏览 1
提问于2018-12-17
得票数 0
1
回答
如何在
pyspark
中构建直方图
、
我有一个大
的
pyspark
数据
帧
,并希望其中一
列
的
直方图。df.select.("col").rdd.flatMap(lambda x: x).histogram(100) 但这非常慢,似乎将
数据
帧
转换为rdd,我甚至不确定我为什么需要flatMap。实现这一目标的
最佳
/最快方法是什么?
浏览 0
提问于2017-09-13
得票数 1
1
回答
将列有条件地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架中添加一
列
。 如果
数据
帧
没有
列
,那么添加一个带有null值
的
列
。如果
列
存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
2
回答
PySpark
列
向绑定
在
PySpark
中有什么特定
的
方法可以像我们在r中那样绑定两个
数据
帧
吗? 我需要在
PySpark
中同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
2
回答
使用
pyspark
或cql查询从cassandra表中
删除
行
、
、
、
我有一张有很多
列
的
桌子,是给我
的
。test_event还有另一个表测试,在包含id
的
行
的
同一个键空间中,我必须从test_event中
删除
。我找到了一些使用DELETE
的
解决方案,但它是用scala编写
的
。 经过近百次
的
尝试,我终于感到困惑,请求你
的
帮助。有人能一步一步地和我一起做吗?
浏览 3
提问于2020-06-15
得票数 1
1
回答
Table to pandas正在杀死我在azure Synapse中
的
会话
、
我正在以表
的
形式将
数据
库中
的
表调用到synapse中。然后我
的
下一步是转换为pandas,这样我就可以运行所有与pandas.However相关
的
代码。当我将表转换为pandas时,会话将被终止。我已经通过转换为拼花文件,但我不能转换为拼花从一个表,然后读取熊猫
数据
帧
。这方面有没有什么
最佳
实践
: %
pyspark
rawdata = spark.sql("""select Invoice
浏览 13
提问于2021-04-20
得票数 0
回答已采纳
1
回答
Parquet文件中groupby
的
最佳
实践
、
、
、
为了生成一个count聚合,我们需要对几个
列
进行分组。我们目前
的
战略是: 读取Parquet文件(Dask或
pyspark
),并在dataframe
的
索引上运行groupby。对于Parquet文件上高效
的
groupby来说,
最佳
实践
是什
浏览 2
提问于2017-07-09
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券