腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
删除
pyspark
中
的
常量
列
,
而
不是
具
有空
值
和
一个
其他
值
的
列
?
、
、
例如:How to automatically drop constant columns in
pyspark
?但我发现,没有
一个
答案解决了这个问题,即countDistinct()不将空
值
视为不同
的
值
。因此,只有两个结果null
和
none NULL
值
的
列
也将被
删除
。
一个
丑陋
的
解决方案是将spark dataframe
中
的
所有null
值
浏览 23
提问于2021-04-01
得票数 1
回答已采纳
1
回答
同时处理几个特性
中
丢失
的
数据
、
日安, 一次处理几个功能(分类
和
连续)
中
丢失
的
数据
的
方法是什么?我浏览了每
一个
特征,并绘制了它们分布
的
几个直方图,我认为简单地用一些
常量
值(均值、模式或
其他
东西)替代
值
并
不是
最好
的
选择。我想构建几个模型(连续
值
的
分类
和
回归模型),以便对数据进行归并,但我不知道正确
的
方法。如果我只使用非空行来训练我
的
模型,那么我
浏览 0
提问于2020-11-08
得票数 1
回答已采纳
1
回答
用于更新cassandra数据库
的
Set命令
我有
一个
cassandra数据库,它
的
键空间名为CS_DATA,
列
族名为ScheduledData,其超
列
的
cdata
和
行键为‘Div/12345/PLAN3’。这个超列有2个
列
,分别是c1
和
c2,还有一些
值
。每一
列
,即c1
和
c2都有value字段。c1
具
有空
值
,
而
c2
具
有包含多个字段<em
浏览 3
提问于2014-02-10
得票数 0
3
回答
PySpark
-查找具有多个不同
值
的
DataFrame
列
的
有效方法
、
、
、
我需要一种有效
的
方法来列出
和
删除
Spark
中
的
一元
列
(我使用
PySpark
DataFrame )。我将一元
列
定义为最多具有
一个
不同
值
的
列
,并且出于定义
的
目的,我也将null算作
一个
值
。这意味着在某些行中有
一个
不同
的
non-null
值
而在
其他
行中有null<
浏览 40
提问于2019-04-12
得票数 0
1
回答
spark
中
的
lit()有什么用处?下面两段代码返回相同
的
输出,使用lit()
的
好处是什么?
、
、
我这里有两段代码 gooddata=gooddata.withColumn("Priority",when((gooddata.Years_left < 5) & (gooddata.Years_left >= 0
浏览 2
提问于2020-06-10
得票数 0
1
回答
渐进式Group By命令
、
这个问题出现在许多实际情况
中
,其中缺少
的
值
要替换为从剩余可用
值
确定
的
期望
值
。我正在尝试计算
列
A除以n
列
的
平均值,例如C1,...,Cn,它们可以具
有空
值
。每当其中一
列
为null时,我希望替换计算
的
平均值,使其超过
其他
列
中
存在
的
值
,并排除null
列
。例如,如果
浏览 1
提问于2017-11-25
得票数 0
1
回答
根据组
列
删除
列
中
的
空
值
、
我有
一个
具有组、ID
和
目标
列
的
数据集。我试图通过Group
列
消除空目标值,
而
忽略ID
列
。我想在
PySpark
做这件事。| null || B | D | null |这是我要寻找
的
结果数据集| | B | D | null
浏览 1
提问于2021-12-01
得票数 0
回答已采纳
1
回答
在spss建模器
中
如何
删除
空行
、
我有四个
列
,三个是整数,
一个
是标称。标称列
有空
值
(Null),
其他
三
列
没
有空
白。我在标称列上尝试了“NULL”,“空白”,但是输出
中
包含空白。我收到一条消息,即字符串+整数不能因条件
而
合并。 请告诉我该怎么做。我使用18.1。
浏览 1
提问于2017-10-20
得票数 0
回答已采纳
2
回答
PySpark
在
pyspark
.sql.functions.col
和
pyspark
.sql.functions.lit
中
的
差异
、
我发现很难理解这两种方法与
pyspark
.sql.functions之间
的
区别,因为
PySpark
官方网站上
的
文档并不能提供很好
的
信息。例如,以下代码:print(F.col('col_name'))研究结果如下:Column<b'col_name'> Column<b'col_n
浏览 10
提问于2017-09-24
得票数 15
1
回答
空
列
的
垃圾数据不正确
、
、
在使用AWS DMS servcie从MySQL迁移到ORAcle时,在源端(MySQL DB实例),一些巨大
的
列
(mediumtext)
值
对于表
中
75%
的
行是空
的
。而在目标(Oracle )
中
,它使用
其他
值
(
而
不是
垃圾
值
)进行迁移。在我看来,
列
值
在行之间被错误地复制了。 只要源端
的
列
中
有空
<
浏览 22
提问于2018-02-02
得票数 0
1
回答
在Google Sheets上,
如何
将单元格
的
值
‘附加’到左边
的
单元格
的
值
上?
、
、
我有
一个
表,其中有3
列
,即A、B
和
C,但用户只能编辑C
列
。
列
A包含
其他
工作表
中
的
所有
值
-此列
中
的
值
的
数量可以随着
值
被
删除
或添加到
其他
工作表
中
而
更改(编辑:可以将新
值
添加到
其他
工作表
的
任何部分,
而
不仅仅是底
浏览 19
提问于2020-10-21
得票数 0
1
回答
了解
列
在
PySpark
数据帧
中
是否具有
常量
值
的
最快方法
、
我想断言
PySpark
DataFrame
列
的
值
是否在所有行中都是相同
的
。例如,拥有下
一个
DataFrame| A | B || 2.0A“
不是
常量
,"B”是
常量
。我尝试了两种方法:df.select(stddev(col('B'))
浏览 10
提问于2018-08-31
得票数 2
回答已采纳
2
回答
PySpark
:
如何
在
PySpark
转换中指定
PySpark
轴?
、
、
我希望使用dropna()
删除
包含所
有空
值
的
列
。使用Pandas,您可以通过在axis = 'columns'
中
设置关键字参数dropna()来实现这一点。这里是GitHub文章
中
的
一个
例子。我
如何
在
PySpark
中
做到这一点?dropna()可以作为
PySpark
中
的
转换使用,但是axis
不是</e
浏览 0
提问于2020-02-11
得票数 1
4
回答
Server更新不同
的
值
、
、
我有3
列
数据: 我想用
一个
值
eh更新Column2,但只对column1
的
每个
值
的
一个
实例进行更新。例如,a= Hello,但Hello
的
第二个实例为NULL,与b等相同。我可以使用以下方法找到不
浏览 0
提问于2019-12-31
得票数 1
1
回答
Scala - MaxBins错误-决策树-范畴变量
、
、
、
categoricalFeaturesInfo += (1 -> 7) java.lang.IllegalArgumentException:需求失败: DecisionTree要求maxBins (= 3)至少与每个分类特性
中
的
值
数目一样大,但是分类功能0有31个
值
。考虑
删除
具有大量值
的
此功能
和
其他
分类功能,或添加更多
的
培训示例。31,我尝试过maxBins = 32 (根据这些帖子
中
的
答
浏览 1
提问于2017-11-20
得票数 0
1
回答
当输入参数是从dataframe
的
两
列
连接起来
的
值
时,引发UDF错误
、
、
、
、
下面的python代码将
一个
csv文件加载到dataframe df
中
,并将
一个
字符串
值
从df
的
单个或多
列
发送到UDF函数testFunction(...)。如果我发送
一个
列
值
,代码就能正常工作。但是,如果我从df
的
两
列
发送
值
df.address + " " + df.city,则会得到以下错误: 问题:我可能做错了什么,我们
如何
解决这个问题?
浏览 6
提问于2022-05-21
得票数 0
回答已采纳
3
回答
如何
在
Pyspark
中
替换dataframe
的
所
有空
值
、
、
我在
pyspark
中有
一个
超过300
列
的
数据框架。在这些
列
中
,有一些
列
的
值
为null。_2null null125 124and so on 当我想对column_1求和时,我得到
的
结果是
一个
空
值
,
而
不是
724。现在,我想用空格替换数据框所有
浏览 1
提问于2017-02-18
得票数 56
回答已采纳
1
回答
如何
根据一
列
中
的
重复项修改另一
列
并在Excel中保留唯一
值
、
我有
一个
电子表格,其中有许多重复项我需要清理,但需要确保另一
列
中
的
正确数据被保留。 数据
和
预期结果 ? 基本上,在E
列
中有重复
的
值
,但这些
值
可以重复任意次,每次都
不是
相同
的
数量。在D
列
中
,每条记录都应该有
一个
A或B或空白。 现在
的
问题是,一些重复
的
集合在
列
D
中
具有不同
浏览 64
提问于2021-10-19
得票数 0
2
回答
列
的
值
为null,并在中进行交换。
、
、
、
、
我正在使用
pyspark
==2.3.1。我用熊猫对数据进行了数据预处理,现在我想把我
的
预处理功能转换成熊猫
的
火花放电。但是,当使用
pyspark
读取数据CSV文件时,许多值将变为空
列
,
而
该
列
实际上有一些
值
。如果我试图对这个dataframe执行任何操作,那么它将与
其他
列
交换
列
的
值
。我也尝试过不同版本
的
火花放电。谢谢 <
浏览 5
提问于2022-02-16
得票数 0
回答已采纳
1
回答
两个相同
的
值
、
、
我有个很奇怪
的
问题。我读过
一个
csv文件,其中一些
列
同时具
有空
值
和
空
值
。我试图查找每行
值
相同
的
列
,但最后得到如下结果:df.select(trim(lower(col("
浏览 2
提问于2022-03-17
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券