如何使用pyspark从spark df中删除空列

文章/答案/技术大牛

发布

2回答

我在每一行都有一个空值的df，如下所示|--------|---------|---------|----------------||--------|---------|---------|-------------| col1 col2 col3

浏览 11提问于2020-08-02得票数 1

5回答

pyspark: ValueError:某些类型在推断后无法确定

、、、、

转换为spark数据帧：但是，我得到了以下错误：<ipython-input-29-d4c9bb41bb1e> in <module>() ----> 1 spark_my_df = sc.createDataFrame(my_df)2 spark_my_

浏览 1提问于2016-11-10得票数 34

1回答

Pyspark删除包含10个空值的列

、

我是PySpark的新手。我只想保留至少有10个值的列现在如何提取值小于10的列名，然后在写入新文件之前删除这些列col_count = df.describe().filter($"summary" == "count")

浏览 1提问于2019-09-28得票数 1

2回答

将文件读取并附加到spark数据文件中

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？from pyspark.sql import SparkSession schema = StructType([]) sc = spark

浏览 1提问于2019-09-06得票数 3

回答已采纳

4回答

PySpark删除所有特殊字符的所有列名中的特殊字符

、、、、

我试图从所有列中删除所有特殊字符。我使用以下命令：df_spark = df_

浏览 2提问于2020-06-18得票数 6

回答已采纳

1回答

使用无类型转换的空列写入时出错后，覆盖/删除Azure Databricks中的增量表

、、、

我在Azure Databricks中使用pyspark。我曾尝试使用创建的空列写入增量表，如下所示： df = df.withColumn('val2', funcs.lit(None)) 使用以下函数 def write_to_delta_table(df它显示了一个错误，例如 org.apache.spark.SparkException: Cannot recognize hive typ

浏览 24提问于2021-10-23得票数 1

回答已采纳

2回答

使用scipy记分规范大型电火花数据

、、、、

我在中运行了一个py火花代码。我有一个包含20个数值列的星星之火数据，名为column1、column2、...column20。我必须计算这20列的Zscore(from scipy.stats import zscore)，因为我将这20列读入numpy数组。我可以增加驱动程序节点内存，或者我可以考虑为驱动程序使用内存优化的VM，但是我们是否有一种没有更高下位的替代方案呢？下面是创建示例dataframe的代码片段。'Column20': [random.randint(0, 1

浏览 15提问于2022-11-13得票数 1

回答已采纳

1回答

在Spark dataframe中添加可空列

、、、、

在星火中，文字列在添加时是不可空的：spark = SparkSession.builder.getOrCreate()

浏览 3提问于2021-07-29得票数 4

回答已采纳

3回答

Pyspark:序列化任务超过了允许的最大值。考虑增加spark.rpc.message.maxSize或对较大的值使用广播变量

、、、、

我正在集群上进行计算，最后，当我使用df.describe().show()请求Spark数据帧的汇总统计数据时，我得到了一个错误：在我的Spark配置中，我已经尝试增加了前面提到的参数： spark = (SparkSession&qu

浏览 7提问于2019-01-31得票数 14

12回答

如何创建一个空的DataFrame？为什么"ValueError: RDD是空的“？

、

我正在努力创建一个空的数据在火花(火花)。df = sqlContext.createDataFrame(sc.emptyRDD(), schema)Traceback (most recent call last):File "<stdin>", line 1, in <module> File "/Users/Me/Desktop/spark-1.5

浏览 4提问于2016-01-06得票数 34

回答已采纳

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspa

浏览 0提问于2018-12-06得票数 2

回答已采纳

2回答

pyspark上的这个函数有什么问题？

、

我有一个像下面这样的数据框，只有一列和一行，我想创建一个函数来用一些文本替换匹配的字符串。df2 = pd.DataFrame([['_text1']],columns = ['my_texts']) return df.withColumn("origin_code&q

浏览 19提问于2019-07-18得票数 1

回答已采纳

1回答

Dataframe上的Pyspark列

、、

我正在尝试根据某些列的值在dataframe上创建一个新列。它在所有情况下都返回null。有人知道这个简单的例子出了什么问题吗？df = pd.DataFrame([[0,1,0],[1,0,0],[1,1,1]],columns = ['Foo','Bar','Baz']) elif 'Baz' ==1 :

浏览 2提问于2018-09-26得票数 2

回答已采纳

1回答

如何使最近生成的列可为空？

我创建了一个新列并将其转换为整数。但是该列不能为空。如何使新列可为空？from pyspark.sql import functions as Fzschema = T.StructType([T.StructField= spark.createDataFrame([("a","b", 1.0,2.0), ("a

浏览 4提问于2019-05-17得票数 0

回答已采纳

2回答

用电火花替换结构型柱的空白点

、、、、

我有一个用例，希望用空值替换StructType列中的空值。下面是示例，您可以使用它重新创建场景： ] True, ] <em

浏览 3提问于2022-01-31得票数 1

回答已采纳

1回答

PySpark如何将CSV读入数据帧，并对其进行操作

、、、、

我对pyspark非常陌生，正在尝试使用它来处理一个保存为csv文件的大型数据集。我想将CSV文件读入spark dataframe，删除一些列，然后添加新列。我该怎么做呢？.reduce(lambda a, b: a.union(b)) .format("com.databricks.spark.redshiftreducing to a dataframe的想法是能够将结果数据写入数据库(Red

浏览 2提问于2016-10-30得票数 7

回答已采纳

2回答

如何使用pyspark* python从文本文件中删除重复的数字*

、、

我正在尝试使用python从文本文件中删除重复的数字，但该操作仅适用于行。例如，我的文本文件是：66 9 23 import pyspark from pyspark import SparkContext, SparkConf

浏览 2提问于2022-02-14得票数 0

回答已采纳

2回答

在pyspark中旋转行的值

我目前正在清理一个数据集，我一直在尝试使用pyspark来做这件事。数据从csv读取到dataframe中，我需要的值在它们各自的行中，但对于某些行，值是混合的。我需要轮换这些行的值，以便这些值位于正确的列中。并为每个列重新赋值，并在删除旧列的同时重命名临时列：+-------+-------+-------+-------+

浏览 18提问于2020-02-07得票数 0

回答已采纳

1回答

NoneType对象没有属性'_jvm‘错误

、、、

我试图使用Spark2.2在DataFrame中打印每个分区中的总元素from pyspark.sql import SparkSession= SparkSession.builder.appName("tmp").getOrCreate()df = spark.read.json("/tmp/tm

浏览 0提问于2018-03-25得票数 6

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？ws <- orderBy(windowPartitionBy('A'),'B')df2

浏览 34提问于2020-12-18得票数 0

回答已采纳

点击加载更多