腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在火花中放置
行
如何根据行号/
行
索引值的值
删除
Pyspark
中的
行
值? 我对
Pyspark
(和编码)很陌生--我尝试过编码一些东西,但是它不起作用。
浏览 1
提问于2019-04-08
得票数 3
回答已采纳
2
回答
Python
Pyspark
-如果word (row的值)在停用词字典中,则文本分析/
删除
行
、
、
、
希望有人能帮助我在
Pyspark
中做一个简单的情感分析。我有一个
Pyspark
dataframe,其中每一
行
都包含一个word。我还有一本常见stopwords的字典。我想
删除
stopwords字典中word (
行
的值)所在的
行
。
浏览 40
提问于2021-11-12
得票数 0
回答已采纳
1
回答
如何像scala .drop中那样
删除
rdd列
、
、
、
、
videos.csv如下所示099acca-8888-48ca,Action,Comedy火花Scala val records = sc.textFile(&quo
浏览 2
提问于2016-12-29
得票数 3
3
回答
运行火花时出错
、
处理PYTHONSTARTUP文件/Users/simon/spark-1.6.0-bin-hadoop2.6/python/
pyspark
/shell.py中的IPKernelApp警告 exp
浏览 10
提问于2017-10-04
得票数 2
6
回答
PySpark
下降
行
、
、
如何在
PySpark
中从RDD中
删除
行
?特别是第一
行
,因为这往往在我的数据集中包含列名。通过仔细阅读API,我似乎找不到一种简单的方法来做到这一点。当然,我可以通过Bash / HDFS来完成这个任务,但我只想知道这是否可以在
PySpark
内部完成。
浏览 5
提问于2014-07-13
得票数 28
回答已采纳
1
回答
在Dataframe中,如何根据条件从
行
中
删除
列?
、
当该行上的列值为零时,我想从
行
中
删除
该列。我不想从Dataframe中
删除
该列。仅当列值为零时,我才从该特定
行
中
删除
该列。我用的是
Pyspark
。
浏览 19
提问于2020-04-09
得票数 0
2
回答
pyspark
:
删除
所有
行
中具有相同值的列
相关问题:然而,上述问题的答案仅适用于熊猫。有没有针对
pyspark
数据帧的解决方案?
浏览 1
提问于2018-12-17
得票数 4
2
回答
如何从以2K开头的
pyspark
数据帧中
删除
记录
、
、
我使用的是
pyspark
3.0.1。我想从我的
pyspark
数据帧df的列group中
删除
记录以2K开头的
行
。我的样本数据如下所示John 23 1L12Pat 35 1P28Name Age
浏览 1
提问于2021-03-04
得票数 0
1
回答
如何
删除
任何列的值小于1%le或大于99%le的
pyspark
dataframe
行
?
、
、
我希望找到每列的1%le和99%le,并
删除
各自的
pyspark
dataframe
行
。谢谢
浏览 2
提问于2017-05-18
得票数 0
1
回答
python3:无法打开文件“记事本”:errno 2没有这样的文件或目录
、
/bin:$PATHexport PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH export
PYSPARK
_DRIVER_PYTHON_OPTS='notebook'
pyspark
当我输入火花放电时
浏览 0
提问于2020-02-03
得票数 2
2
回答
在加载包时禁止火花-提交消息
、
、
如果你尝试这个: --packages "org.apache.hadoop:hadoop-aws:2.7.4" \当spark-submit如果已经下载了包,那么输出会稍微少一些,但是仍然有很多Ivy Default Cache set
浏览 0
提问于2018-02-27
得票数 3
2
回答
如果组中存在非空项,如何
删除
重复项和空项?
、
、
、
如果基于列id和cod的组没有任何与None值不同的
行
,则只需要维护一个唯一的
行
,否则,必须
删除
列标志<code>E 211</code>中的None值
行
。import
pyspark
from
pyspark
.sql.window import Window from
pyspark
.sql.functionsspark.createDataF
浏览 3
提问于2022-06-30
得票数 0
1
回答
如何
删除
少于3个字母的
行
?
、
、
我有一个有很多行的
pyspark
数据框。每行都是一个文本。只有一列。我想
删除
或移除少于3个字母的
行
。例如,在下面的4
行
中,我想
删除
第二列和第四列。
浏览 14
提问于2021-01-20
得票数 0
1
回答
如何将<class‘class’_. How .
、
、
、
、
-1245/spark/python/lib/
pyspark
.zip/
pyspark
/worker.py",第106
行
中,在process serializer.dump_stream(split_index迭代器)中,在文件"/usr/hdp/2.5.0.0-1245/spark/python/lib/
pyspark
.zip/
pyspark
浏览 2
提问于2017-03-02
得票数 5
回答已采纳
2
回答
为什么groupBy()比
pyspark
中的distinct()快得多?
当我用groupBy()替换spark数据帧上的distinct()时,我在我的
pyspark
代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中
删除
行
级重复项。我尝试在谷歌上搜索groupBy()和distinct()在
pyspark
中的实现,但没有找到。 有没有人能给我解释一下或者给我指出正确的方向?
浏览 0
提问于2018-09-11
得票数 6
1
回答
PySpark
-
删除
Groupby之后的
行
?
、
我想创建一个函数和一个阈值,如果数据量小于200(这将是阈值),那么我想从主表中
删除
类别'C‘。 我如何在
PySpark
上做到这一点呢?
浏览 0
提问于2020-08-18
得票数 0
2
回答
如何使用基于HDFS的Spark进行数据清理
、
、
、
、
具体来说,我想使用基于HDFS的
PySpark
进行数据清理。我对这些东西很陌生,所以我想问问怎么做?04 b abc 1清除所有条目后,第2
行
<2, , abc, 0>应该具有attrB的默认值或估算值,第3
行
或第3
行
应该被
删除
。那么,我如何用
PySpark
实现这一点呢?
浏览 4
提问于2017-02-19
得票数 2
回答已采纳
2
回答
Pyspark
从PostgreSQL中
删除
行
、
、
、
PySpark
如何通过执行诸如DELETE FROM my_table WHERE day = 3之类的查询来
删除
PostgreSQL中的
行
? SparkSQL只提供插入/覆盖记录的接口。
浏览 10
提问于2020-01-27
得票数 3
回答已采纳
1
回答
PySpark
:
删除
从其他
行
派生的
行
、
、
对于节点之间的每次跳转,将创建一
行
,其中"dist“是到目前为止的节点数," node”是当前节点," path“是到目前为止的路径。[1,5] 2 | 4 | [1,2,4] 我还尝试将路径列作为字符串("1;2;3"),并比较哪一
行
是彼此的子字符串
浏览 21
提问于2020-10-23
得票数 0
1
回答
PySpark
安全列类型转换
、
如果我将一个列强制转换为不同的类型,那么任何无法强制转换的数据都会被静默转换为NULL:+------++------+| null| | null
浏览 4
提问于2017-09-29
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark数据分析基础:PySpark原理详解
pyspark 安装
PySpark调优
SQL查找删除重复行
PySpark安装+Jupyter Notebook配置
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券