腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何
使用
pyspark
从
spark
df
中
删除
空
列
我在每一行都有一个
空
值的
df
,如下所示|--------|---------|---------|----------------||--------|---------|---------|-------------| col1 col2 col3
浏览 11
提问于2020-08-02
得票数 1
5
回答
pyspark
: ValueError:某些类型在推断后无法确定
、
、
、
、
转换为
spark
数据帧:但是,我得到了以下错误:<ipython-input-29-d4c9bb41bb1e> in <module>() ----> 1
spark
_my_
df
= sc.createDataFrame(my_
df
)2
spark
_my_
浏览 1
提问于2016-11-10
得票数 34
1
回答
Pyspark
删除
包含10个
空
值的
列
、
我是
PySpark
的新手。我只想保留至少有10个值的
列
现在
如何
提取值小于10的列名,然后在写入新文件之前
删除
这些
列
col_count =
df
.describe().filter($"summary" == "count")
浏览 1
提问于2019-09-28
得票数 1
2
回答
将文件读取并附加到
spark
数据文件
中
我已经创建了一个
空
的dataframe,并开始添加它,通过读取每个文件。但其中一个文件的
列
数比前一个文件多。
如何
仅为所有其他文件选择第一个文件
中
的
列
?from
pyspark
.sql import SparkSession schema = StructType([]) sc =
spark
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
4
回答
PySpark
删除
所有特殊字符的所有列名
中
的特殊字符
、
、
、
、
我试图
从
所有
列
中
删除
所有特殊字符。我
使用
以下命令:
df
_
spark
=
df
_
浏览 2
提问于2020-06-18
得票数 6
回答已采纳
1
回答
使用
无类型转换的
空
列
写入时出错后,覆盖/
删除
Azure Databricks
中
的增量表
、
、
、
我在Azure Databricks中
使用
pyspark
。我曾尝试
使用
创建的
空
列
写入增量表,如下所示:
df
=
df
.withColumn('val2', funcs.lit(None))
使用
以下函数 def write_to_delta_table(
df
它显示了一个错误,例如 org.apache.
spark
.SparkException: Cannot recognize hive typ
浏览 24
提问于2021-10-23
得票数 1
回答已采纳
2
回答
使用
scipy记分规范大型电火花数据
、
、
、
、
我在
中
运行了一个py火花代码。我有一个包含20个数值
列
的星星之火数据,名为column1、column2、...column20。我必须计算这20
列
的Zscore(from scipy.stats import zscore),因为我将这20
列
读入numpy数组。我可以增加驱动程序节点内存,或者我可以考虑为驱动程序
使用
内存优化的VM,但是我们是否有一种没有更高下位的替代方案呢? 下面是创建示例dataframe的代码片段。'Column20': [random.randint(0, 1
浏览 15
提问于2022-11-13
得票数 1
回答已采纳
1
回答
在
Spark
dataframe
中
添加可
空
列
、
、
、
、
在星火中,文字
列
在添加时是不可
空
的:
spark
= SparkSession.builder.getOrCreate()
浏览 3
提问于2021-07-29
得票数 4
回答已采纳
3
回答
Pyspark
:序列化任务超过了允许的最大值。考虑增加
spark
.rpc.message.maxSize或对较大的值
使用
广播变量
、
、
、
、
我正在集群上进行计算,最后,当我
使用
df
.describe().show()请求
Spark
数据帧的汇总统计数据时,我得到了一个错误:在我的
Spark
配置
中
,我已经尝试增加了前面提到的参数:
spark
= (SparkSession&qu
浏览 7
提问于2019-01-31
得票数 14
12
回答
如何
创建一个
空
的DataFrame?为什么"ValueError: RDD是
空
的“?
、
我正在努力创建一个
空
的数据在火花(火花)。
df
= sqlContext.createDataFrame(sc.emptyRDD(), schema)Traceback (most recent call last):File "<stdin>", line 1, in <module> File "/Users/Me/Desktop/
spark
-1.5
浏览 4
提问于2016-01-06
得票数 34
回答已采纳
1
回答
使用
检查点
从
胞表读取和更新同一个表
、
、
我正在
使用
spark
版本2.3,并试图将
spark
中
的蜂巢表读取为:from
pyspark
.sql.functions import*在这里,我添加了一个新
列
,其中包含了
从
system到现有的dataframe的当前日期 import
pyspa
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
2
回答
pyspark
上的这个函数有什么问题?
、
我有一个像下面这样的数据框,只有一
列
和一行,我想创建一个函数来用一些文本替换匹配的字符串。
df
2 = pd.DataFrame([['_text1']],columns = ['my_texts']) return
df
.withColumn("origin_code&q
浏览 19
提问于2019-07-18
得票数 1
回答已采纳
1
回答
Dataframe上的
Pyspark
列
、
、
我正在尝试根据某些
列
的值在dataframe上创建一个新
列
。它在所有情况下都返回null。有人知道这个简单的例子出了什么问题吗?
df
= pd.DataFrame([[0,1,0],[1,0,0],[1,1,1]],columns = ['Foo','Bar','Baz']) elif 'Baz' ==1 :
浏览 2
提问于2018-09-26
得票数 2
回答已采纳
1
回答
如何
使最近生成的
列
可为
空
?
我创建了一个新
列
并将其转换为整数。但是该
列
不能为
空
。
如何
使新
列
可为
空
?from
pyspark
.sql import functions as Fzschema = T.StructType([T.StructField=
spark
.createDataFrame([("a","b", 1.0,2.0), ("a
浏览 4
提问于2019-05-17
得票数 0
回答已采纳
2
回答
用电火花替换结构型柱的空白点
、
、
、
、
我有一个用例,希望用
空
值替换StructType
列
中
的
空
值。下面是示例,您可以
使用
它重新创建场景: ] True, ] <em
浏览 3
提问于2022-01-31
得票数 1
回答已采纳
1
回答
PySpark
如何
将CSV读入数据帧,并对其进行操作
、
、
、
、
我对
pyspark
非常陌生,正在尝试
使用
它来处理一个保存为csv文件的大型数据集。我想将CSV文件读入
spark
dataframe,
删除
一些
列
,然后添加新
列
。我该怎么做呢?.reduce(lambda a, b: a.union(b)) .format("com.databricks.
spark
.redshiftreducing to a dataframe的想法是能够将结果数据写入数据库(Red
浏览 2
提问于2016-10-30
得票数 7
回答已采纳
2
回答
如何
使用
pyspark
python
从
文本文件
中
删除
重复的数字
、
、
我正在尝试
使用
python
从
文本文件
中
删除
重复的数字,但该操作仅适用于行。例如,我的文本文件是:66 9 23 import
pyspark
from
pyspark
import SparkContext, SparkConf
浏览 2
提问于2022-02-14
得票数 0
回答已采纳
2
回答
在
pyspark
中
旋转行的值
我目前正在清理一个数据集,我一直在尝试
使用
pyspark
来做这件事。数据
从
csv读取到dataframe
中
,我需要的值在它们各自的行
中
,但对于某些行,值是混合的。我需要轮换这些行的值,以便这些值位于正确的
列
中
。并为每个
列
重新赋值,并在
删除
旧
列
的同时重命名临时
列
:+-------+-------+-------+-------+
浏览 18
提问于2020-02-07
得票数 0
回答已采纳
1
回答
NoneType对象没有属性'_jvm‘错误
、
、
、
我试图
使用
Spark
2.2在DataFrame
中
打印每个分区
中
的总元素from
pyspark
.sql import SparkSession= SparkSession.builder.appName("tmp").getOrCreate()
df
=
spark
.read.json("/tmp/tm
浏览 0
提问于2018-03-25
得票数 6
1
回答
windowPartitionBy和
pyspark
中
的重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么的吗?ws <- orderBy(windowPartitionBy('A'),'B')
df
2
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券