腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
的
用户
ids
填充
空
值
apache-spark
、
join
、
pyspark
、
apache-spark-sql
一个有一个日期范围,一天中
的
每个小时都分配给每个日期。|2020-12-20| 5||2020-12-20| 7||2020-12-20| 9| 第二个有日期和小时
的
用户
,但是
用户
只有几天和几个小时,而不是所有的: +----------------+----------+----+------+|
浏览 18
提问于2021-01-20
得票数 0
1
回答
使用
pyspark
将数据插入到另一个cassandra表
apache-spark
、
pyspark
、
cassandra
、
spark-cassandra-connector
在列main_id中,我
的
ids
与测试表中
的
ids
相同,也有一些唯一
的
ids
。country_main具有空
值
,与测试中
的
值
相同。.|如何根据
ids
将测试表中
的
数据插入到主表中,
使用
pyspark
来
填充
country_main中
的
空
<e
浏览 2
提问于2020-04-21
得票数 2
回答已采纳
1
回答
pyspark
.sql.functions -计数以考虑
空
值
:
python
、
pyspark
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_distinct()函数在计算列中不同元素
的
数量时考虑null
值
。从我
的
研究来看,这似乎与count_distinct()以与相同
的
方式工作有关。 计数(DISTINCT,expr )-返回提供
的
表达式唯一且非
空
的
行数。我希望在不同
值
的
计数中考虑null
值
浏览 12
提问于2022-06-07
得票数 0
3
回答
PySpark
中
的
空
列表表示
python
、
apache-spark
、
pyspark
我有一个星火DataFrame和一个名为“成分”
的
专栏。它有一些价值,如:['meat'] [] 我只想看看。
浏览 2
提问于2021-02-12
得票数 2
回答已采纳
2
回答
使用
pyspark
从平面记录创建段数组
arraylist
、
pyspark
、
apache-spark-sql
、
record
我有一个稀疏
填充
的
表,其中包含唯一
用户
ids
的
各个段
的
值
。我只需要创建一个包含unique_id和相关段标头
的
数组 请注意,这只是一个指示性
的
数据集。我有几百个这样
的
片段。|| 300 | [seg1, seg2, seg4] | ------------------------------- 在
pyspark
-sql
的
浏览 10
提问于2020-09-02
得票数 1
回答已采纳
3
回答
使用
pyspark
使用
先前已知
的
完好
值
填充
空
值
apache-spark
、
pyspark
、
apache-spark-sql
有没有办法用最后一个有效
值
替换null数据帧中
的
pyspark
值
?如果您认为需要timestamp和session列来进行窗口分区和排序,还可以
使用
它们。
浏览 0
提问于2016-04-01
得票数 28
回答已采纳
1
回答
如何将所有的日期格式转换为日期列
的
时间戳?
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我
使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期列
的
PySpark
数据帧。但是,当我尝试打印模式时,两列都被
填充
为字符串类型。 ? ? 上面附加
的
屏幕截图是Dataframe和Dataframe模式。 如何
使用
pyspark
将date列中
的
行
值
转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前
的
格式,但如何转换为正确
的<
浏览 16
提问于2020-12-30
得票数 2
1
回答
如何
使用
PySpark
使用
组
的
聚合
填充
空
值
python
、
apache-spark
、
pyspark
我有一个简单
的
数据集,其中包含一些
空
值
:10,Mrnull,Mr2, Miss我想用一个不同
的
列来
填充
这个分组
的
聚合
值
(在本例中是例如,标题栏
的
平均值是:1.5, MissAge,Title20,Mr1, Miss1.5, Miss 我见过许多
使用
Pandas<em
浏览 4
提问于2019-04-24
得票数 1
回答已采纳
1
回答
如何拒绝对查询生成
的
非
空
单元格
的
更改
google-apps-script
、
google-sheets
从单独
的
工作簿中
填充
查询结果
的
工作表。
用户
可以从下拉列表中为任何单元格选择
值
。当onEdit调用时,
值
被传输到主工作簿,然后主工作簿通过查询将
值
复制回活动工作表中的当前单元格。试图阻止
使用
现有
值
的
单元格进行编辑--即
用户
只能将
值
放在当前空白单元格中,而不能更改现有单元格。由于查询与主单元中
的
每个更改一起重新
填充
,
空
单元格
浏览 16
提问于2022-11-24
得票数 0
1
回答
在
Pyspark
中计算数据帧中
的
空
值
和非
空
值
python
、
pyspark
、
apache-spark-sql
我在
Pyspark
中有一个dataframe,我想在其上计算列中
的
空
值
和这些列
的
不同
值
,即非
空
值
这是我拥有的数据帧 trans_date transaction_id transaction_id13 我想对月份和年份进行聚合,并生成如下内容 | month | year | id_count_in_x_not_in_y | id_count_in_y_not_in_x |
ids
_in_x|
ids
_i
浏览 74
提问于2019-05-22
得票数 0
回答已采纳
3
回答
当一些
值
为null时,如何将DataFrame中
的
多个列连接到另一个列中?
pyspark
、
spark-dataframe
searches_df.withColumn('unique_id',reduce(column_concat,(searches_df[col] for col in search_parameters))) 除非列包含
空
值
,否则整个级联字符串为
空
。
浏览 3
提问于2016-09-08
得票数 6
回答已采纳
2
回答
用概率分布
填充
缺
值
pyspark
、
missing-data
、
data-imputation
我想在我
的
数据中
填充
丢失
的
值
。2| | 3| | 3| | 3| |null| | 4|我知道我可以
使用
pyspark
.ml 进位机来
填充
平均值/中位数,也可以
使用
这方法
填充
最后一个有效
值
。这些都是很好
的
选择,但我想从数据分布中随机抽取一个样本。例如,在所提供
浏览 0
提问于2017-10-08
得票数 1
回答已采纳
2
回答
Redis节点-从哈希获取-不插入到数组中
node.js
、
redis
、
node-redis
我
的
目标是插入从redis散列获得
的
值
。我
使用
的
是node js
的
redis包。我
的
代码如下: const resultArray = []; common.redisMaster.hgetres) => { });
浏览 20
提问于2018-02-23
得票数 0
回答已采纳
1
回答
如何在
Pyspark
中
填充
空
值
python
、
apache-spark
、
pyspark
、
apache-spark-sql
1|+---+----------+----------+----------+----+ df = df.withColumn('first_date', F.col('first_date').cast('datenull| null| null|nul
浏览 2
提问于2021-04-22
得票数 0
回答已采纳
1
回答
Pyspark
:如果其他列为
空
,则在
pyspark
列中
填充
固定
值
python
、
pyspark
我有一个有两列
的
pyspark
dataframe。如果另一列中
的
行
值
为
空
,我想用固定
值
填充
一列。因此,在customer_df中,如果customer_address为null,则将城市列
填充
为“unknown” 我在试这个 customer_df = customer_df.withColumn
浏览 172
提问于2020-09-26
得票数 0
回答已采纳
1
回答
PySpark
-
填充
结构列中
的
空
值
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有以下数据:| ID| Title|| 1|[2, test]|+---+---------+from
pyspark
.sql.functionsimport col, expr from
pyspark
.sql import SparkS
浏览 1
提问于2021-05-19
得票数 2
回答已采纳
1
回答
用均值
填充
pyspark
中所有列
的
缺失
值
python
、
apache-spark
、
pyspark
我正在尝试
使用
mean来
填充
我
的
pyspark
3.0.1数据帧中
的
缺失
值
。我正在寻找像fillna函数这样
的
熊猫。例如 df=df.fillna(df.mean()) 但到目前为止,我发现在
pyspark
中,正在
使用
单个列
的
均值来
填充
缺失
值
,而不是整个数据集。你能建议我如何在
pyspark
中实现像fillna这样
的
熊猫吗?
浏览 31
提问于2021-03-08
得票数 1
回答已采纳
3
回答
如何用current_timestamp()
填充
PySpark
DataFrame中
的
空
值
?
python
、
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我有一个名为createdtime
的
专栏,它有几个
空
值
。我只想要它用一个当前
的
时间戳来
填充
这些
空
。我在下面的代码中尝试了手动分配时间
的
方法,我希望这样做:每当我运行这段代码时,它都应该选择current_timestamp()default_time = current_timestamp()
浏览 4
提问于2022-06-28
得票数 0
1
回答
基于先前
值
的
前向
填充
电火花数据
python
、
dataframe
、
pyspark
、
apache-spark-sql
我有两个火花数据,这将是充分
的
外部连接。"id","day","action"]))产生
的
输出如下所示|| 2| 10| null| [8, 9]| +---+---+------+-----
浏览 2
提问于2022-09-29
得票数 1
回答已采纳
1
回答
Spark DataFrame ArrayType或MapType用于检查列中
的
值
python-2.7
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
例如,我想获取其中包含特定ID
的
行数。from
pyspark
.sql.types import BooleanType或者
使用
ArrayType,我可以做到: from <em
浏览 1
提问于2018-10-30
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用MICE进行缺失值的填充处理
Excel中定位空值填充的具体操作步骤
在df的一列中 有None和Nan 我想把这些空值都填充为-1 应该怎么操作呢
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券