pyspark 删除列_无法删除列(pyspark / databricks)_删除pyspark中的嵌套列 - 腾讯云开发者社区

apache-spark、spark-dataframe、apache-spark-2.0

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用： data = spark.read.csv('data.csv', header=True) 我使用以下命令找到数据的类型 type(data) 结果是 pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。 from pyspark.sql.types import * from pyspark.sql.functions import loc from pyspark.mllib.regression

浏览 4提问于2016-09-08得票数 6

2回答

pyspark:删除所有行中具有相同值的列

pyspark

相关问题：因此，我有一个pyspark dataframe，我想删除所有行中所有值都相同的列，同时保持其他列的完整性。然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？谢谢

浏览 1提问于2018-12-17得票数 4

1回答

如何将自定义停止词列表添加到StopWordsRemover

python、pyspark、spark-dataframe、text-mining、stop-words

我在我的pyspark上使用pyspark.ml.feature.StopWordsRemover类。它有ID和文本列。除了提供默认的停止词列表外，我还想添加自己的自定义列表，以从字符串中删除所有数值。我可以看到为这个类提供了一个添加setStopWords的方法。我想我很难找到合适的语法来使用这个方法。 from pyspark.sql.functions import * from pyspark.ml.feature import * a = StopWordsRemover(inputCol="words", outputCol="filtered"

浏览 0提问于2017-04-26得票数 9

回答已采纳

2回答

在多个列上使用AWS胶连接创建重复

amazon-web-services、join、amazon-s3、pyspark

我在AWS、table_1和table_2中有两个表，它们的模式几乎相同，但是table_2有两个额外的列。我试图将这两个表连接到相同的列上，并为模式不包括这些值的“旧”数据添加对table_2唯一的列，并将其为空值。目前，我可以使用类似于以下内容的方法加入两个表： joined_table = Join.apply(table_1, table_2, 'id', 'id') 其中第一个' id‘是table_1中的id列，第二个'id’是table_2中的id列。这个调用成功地将表连接成一个表，但是，生成的joined_table具有匹配列的

浏览 0提问于2018-02-13得票数 4

1回答

删除pyspark中的嵌套列

python、apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

浏览 20提问于2020-06-15得票数 0

回答已采纳

2回答

Pyspark:选择除特定列之外的所有列

python、sql、dataframe、pyspark

我在一个PySpark数据帧中有大量的列，比如说200列。我想选择除3-4列之外的所有列。如何选择此列，而不必手动键入要选择的所有列的名称？

浏览 0提问于2018-06-13得票数 20

回答已采纳

2回答

使用PySpark移除至少具有1NA的任何行

python、pyspark、apache-spark-sql

我有一个电火花数据，我想删除任何一行至少有一个NA。我知道如何只对一列(下面的代码)这样做。如何对dataframe的所有列执行相同的操作？可复制示例 # Import modules from pyspark.sql import SparkSession from pyspark import SparkContext from pyspark.sql.functions import col from pyspark.sql import Row # Defining SparkContext SparkContext.getOrCreate() # Defining Spa

浏览 14提问于2022-10-05得票数 1

回答已采纳

2回答

PySpark:如何在列中或列中分组

group-by、pyspark

我想在PySpark中进行分组，但是这个值可以出现在多个列中，所以如果它出现在所选列中的任何一列中，那么它将被分组。例如，如果我将这个表放在Pyspark中：我想总结一下每个身份证的访问和投资，结果是：请注意，ID1是前三列中有ID1的行0、1、3的总和，ID1访问= 500 + 100 + 200 = 800。ID2是行1、2等的总和。为了简单起见，我的例子是一个简单的dataframe，但在实际中是一个大得多的df，有很多行和变量，还有其他操作，而不仅仅是"sum“。这对熊猫来说是不可能的，因为它太大了。应该在PySpark OBS2:我用熊猫打印了表格

浏览 4提问于2019-09-20得票数 1

回答已采纳

2回答

如何反转pyspark dataframe

python-2.7、pyspark

我需要反转我的pyspark数据帧。有没有一种高效的方式在pyspark中做到这一点？？我的datetime列是反转的，所以我需要反转我的dataframe +-------------------+-------+ | date|value_1| +-------------------+-------+ |2018-11-30 23:59:24| 28.02| |2018-11-30 23:58:54| 28.02| |2018-11-30 23:58:24| 28.03| +-------------------+-------+ 有没有办法在pysp

浏览 33提问于2019-10-18得票数 0

回答已采纳

1回答

pyspark dataframe同时按多列排序

dataframe、pyspark、sql-order-by

我有包含一些数据的json文件，我将这个json转换为pyspark dataframe(我选择了一些列，而不是所有列)，这是我的代码： import os from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.sql import SparkSession import json from pyspark.sql.functions import col sc = SparkContext.getOrCreate() spark = SparkSession

浏览 125提问于2019-03-12得票数 2

回答已采纳

3回答

删除pyspark中所有列名中的空格

pyspark

我是pySpark的新手。我收到了一个csv文件，大约有1000列。我正在使用databricks。大多数这些列之间有空格，例如“总收入”，“总年龄”等。我需要更新所有的列名与空格下划线‘_’。我已经试过了 foreach(cloned.Columns中的DataColumn c) c.ColumnName = String.Join("_"，c.ColumnName.Split())；但它在databricks上的Pyspark中不起作用。

浏览 1提问于2019-08-02得票数 1

1回答

如何删除少于3个字母的行？

apache-spark、pyspark、apache-spark-sql

我有一个有很多行的pyspark数据框。每行都是一个文本。只有一列。我想删除或移除少于3个字母的行。例如，在下面的4行中，我想删除第二列和第四列。(pdf和a)： this is a text pdf a No ways

浏览 14提问于2021-01-20得票数 0

1回答

Pyspark :读取带有双引号和逗号字段的csv文件

pyspark

我有一个csv文件，我正在通过pyspark读取并加载到postgresql中。它的一个字段包含字符串，字符串中包含coma和双引号。就像下面的例子- 1. "RACER ""K"", P.L. 9" 2. "JENIS, B. S. ""N"" JENIS, F. T. ""B"" 5" Pyspark正在解析它，如下所示。这会引起问题，因为当我将数据加载到postgresql中时，它会将值/列混为一谈，并且脚本失败。 1. '\"RACER \&

浏览 105提问于2020-08-27得票数 0

2回答

如何选择3列，然后从所选列中的两列中删除重复项？

sql

我正在处理一个包含3列的表，所有列都有整数数据类型。我正在尝试将以下PySpark代码复制到SQl中 df = my_table.select('column_1', 'column_2', 'column_3') df = df.drop_duplicates(['column_1', 'column_2']) 在上面的代码中，我尝试选择三列，然后从前两列中删除重复的列。我试着用 SELECT MIN(column_1), MIN(column_2), column_3 FROM my_table GR

浏览 1提问于2022-08-10得票数 0

回答已采纳

1回答

如何在pyspark中找到列表中最常用的元素？

list、pyspark、frequency

我有一个包含两列的pyspark dataframe，ID和Elements。"Elements“列中有list元素。它看起来像这样， ID | Elements _______________________________________ X |[Element5, Element1, Element5] Y |[Element Unknown, Element Unknown, Element_Z] 我想用‘element’列中最频繁的元素组成一个列。输出应如下所示： ID | Elements

浏览 6提问于2021-10-07得票数 1

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

apache-spark、pyspark、apache-spark-sql

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame 注意:我之所以使用pyspark列，是因为我从我使用的库(远大期望)中获得了它的输入。 @column_condition_partial(engine=SparkDFExecutionEngine) def _spark(cls, column, ts_formats, **kwargs): return column.isin([3]) # need to replace the abov

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

如何读取大于3 3GB且嵌套元素中有重复列的json文件

azure、azure-functions、azure-data-factory、azure-synapse

我在Azure技术上工作，想要读取json文件，它超过3 3GB，并且在嵌套元素中有重复的列。我试过pyspark，数据流，pipeines。但不走运。你能建议我使用哪种技术吗？

浏览 34提问于2021-11-18得票数 0

2回答

将文件读取并附加到spark数据文件中

pyspark

我已经创建了一个空的dataframe，并开始添加它，通过读取每个文件。但其中一个文件的列数比前一个文件多。如何仅为所有其他文件选择第一个文件中的列？ from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import StructType import os, glob spark = SparkSession.builder.\ config("spark.jars.packages","saurf

浏览 1提问于2019-09-06得票数 3

回答已采纳

5回答

删除星火中数据帧列值中的空白

dataframe、apache-spark、pyspark、apache-spark-sql

浏览 10提问于2016-02-21得票数 9

回答已采纳

1回答

如何删除任何列的值小于1%le或大于99%le的pyspark dataframe行？

python、dataframe、pyspark

我希望找到每列的1%le和99%le，并删除各自的pyspark dataframe行。谢谢

浏览 2提问于2017-05-18得票数 0

1回答

如何使用Pyspark将分数设置为最多3位

python、sql、apache-spark、pyspark

我在我的表中有一列，我必须使用pyspark将分数保持到3位。如果小数点后的位数大于3，则将小数点后的数字向上舍入为3位。如果小数后面的数字长度小于3，则附加零。下面是一个例子。示例数据：请注意，"col_a“和"col_b”都是字符串类型。所需结果：我如何使用pyspark实现它？

浏览 3提问于2021-02-17得票数 0

1回答

删除阈值编号为null的列

python、pandas、pyspark

有一个数据集，并希望使用pyspark进行一些清理。删除空值大于75%的所有列。使用python： df = df.dropna(axis='columns', thresh = int(0.75 * len(df))) 如何使用pyspark实现这一点？

浏览 0提问于2019-05-14得票数 0

2回答

删除前导零pyspark？

pyspark

我想删除pyspark中一列的前导零？

浏览 2提问于2019-08-07得票数 0

1回答

_jdf丢弃数据帧中的报头，AttributeError: Pyspark

csv、dataframe、header、pyspark-sql

from pyspark.sql import SQLContext sqlContext = SQLContext(sc) spark = sqlContext.sparkSession avg_calc = spark.read.csv("quiz2_algo.csv", header= True,inferSchema=True) header = avg_calc.first() no_header = avg_calc.subtract(header) no_header avg_calc包含2列，我正在尝试从这两列中删除第1行，但是我收到以下错误： -------

浏览 1提问于2018-05-12得票数 0

1回答

Pyspark从dataframe中的整数中删除逗号

pyspark、comma

我有以下名为A的数据帧，它由两列组成： value的列类型为整型。我想要将输出值更改为类似整数的值。因此，例如，第一行的预期结果是-782543，第五行是-614278。我想我只需要使用Pyspark从这一列中删除逗号。有什么建议吗？非常感谢！ ?

浏览 134提问于2021-11-01得票数 0

回答已采纳

1回答

删除空列的快速方法[PySpark]

pyspark、is-empty、col

有没有一种简单的方法可以在pyspark中删除一个巨大的数据集(300+列>100k行)的空列？例如Python语言中df.dropna(axis=1,how='all')

浏览 10提问于2019-10-29得票数 0

回答已采纳

1回答

PySpark:基于其他列中的空值创建新列

pyspark、apache-spark-sql、etl

我正在进行一个PySpark转换，以便根据另一个列中的空值创建一个新列。下面是示例输入数据：这是预期的输出数据：

浏览 2提问于2022-09-07得票数 -2

1回答

将向量列添加到吡咯DataFrame中

apache-spark、dataframe、pyspark、apache-spark-ml

如何将Vectors.dense列添加到pyspark中？ import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.ml.linalg import DenseVector py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], "event": [1, 1, 1, 0]}) sc = SparkContext(master="loc

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

显示组和agg之后的所有火花放电列

pyspark

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。 # Normal way of creating dataframe in pyspark sdataframe_temp = spark.createDataFrame([ (2,2,'0-2'), (2,23,'22-24')], ['a', 'b', 'c'] ) sdataframe_temp2 = spark.createDataFrame([

浏览 0提问于2020-01-19得票数 0

回答已采纳

2回答

火花空映射键

python、apache-spark、pyspark

原谅我的无知，我对火种并不熟悉。我正在尝试改进udf，以便使用字典根据来自另一列count_adj的值创建一个新的列a_type。如何说明在此过程中创建新列的无/空类型。这在熊猫身上是非常容易的(df['adj_count'] = df.a_type.map(count_map))，但在火星雨中却很难做到。抽样数据/进口： # all imports used -- not just for this portion of the script from pyspark.sql import SparkSession, HiveContext, SQLContext from

浏览 1提问于2022-02-02得票数 1

回答已采纳

4回答

如何在Python中排除Spark dataframe中的多列

apache-spark、dataframe、pyspark、apache-spark-sql

我发现PySpark有一个名为drop的方法，但它似乎一次只能删除一列。关于如何同时删除多个列有什么想法吗？ df.drop(['col1','col2']) TypeError Traceback (most recent call last) <ipython-input-96-653b0465e457> in <module>() ----> 1 selectedMachineView = machineView.drop([['GpuName',

浏览 1提问于2016-02-28得票数 42

回答已采纳

1回答

PySpark动态连接条件

join、dynamic、pyspark、conditional-statements

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

PySpark :将字符串类型的DataFrame列转换为Double时的KeyError

python、machine-learning、pyspark、user-defined-functions、apache-spark-2.0

我正试着用PySpark学习机器。我有一个数据集，其中有几个String列，它们的值要么是True or False or Yes or No，要么是True or False or Yes or No。我正在使用DecisionTree，我希望将这些String值转换为相应的Double值，即True, Yes应该更改为1.0，False, No应该更改为0.0。我看了一个教程，他们做了同样的事情，我想出了下面的代码 df = sqlContext.read.csv("C:/../churn-bigml-20.csv",inferSchema=True,header=True

浏览 1提问于2017-04-20得票数 0

回答已采纳

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

2回答

如何从PySpark中的2列中获得一行序列字符串？

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用： from pyspark.sql.functions import udf from pyspark.sql.functions import array_distinct from pyspark.sql.types import ArrayType, StringType create_transition = u

浏览 13提问于2022-10-19得票数 1

回答已采纳

1回答

在PySpark中将字符串转换为双倍时获得空值

python、apache-spark、pyspark、apache-spark-sql

我试图将列LOW的字符串值转换为双倍，但在dataframe中获取空值。 from pyspark.sql.types import * df3 = df2.withColumn("LOW",df2["LOW"].cast(DoubleType())) df3.printSchema() df3.show()

浏览 2提问于2022-06-23得票数 0

回答已采纳

1回答

如何使用Pyspark的模式从Pyspark数据帧创建hive表？

python、pyspark

我已经使用以下代码创建了数据框： import pyspark from pyspark.sql import functions as F sc = pyspark.SparkContext() spark = pyspark.sql.SparkSession(sc) data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)] columns = ['Column1', 'Col

浏览 12提问于2020-06-15得票数 0

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

浏览 29提问于2020-01-24得票数 0

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

apache-spark、dataframe、pyspark、apache-spark-mllib、apache-spark-ml

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。 import pyspark import pyspark.sql.types as T import pyspark.sql.functions as F data = [0, 3, 0, 4] d = {} d['DenseVector'] = pyspark.ml.linalg.DenseVector(data) d['old_DenseVector'] =

浏览 1提问于2016-07-31得票数 7

回答已采纳

3回答

上个星期一去火场

python、apache-spark、pyspark、apache-spark-sql

我在Python中使用Spark2.0。我有一个带有DateType()类型列的dataframe。我想在dataframe中添加一个列，其中包含最近的星期一。我可以这样做： reg_schema = pyspark.sql.types.StructType([ pyspark.sql.types.StructField('AccountCreationDate', pyspark.sql.types.DateType(), True), pyspark.sql.types.StructField('UserId', pyspark.sql.

浏览 7提问于2016-10-26得票数 10

回答已采纳

1回答

在输出中不返回数据的Pyspark联接

pyspark、apache-spark-sql

在2数据帧上执行简单连接时，pyspark不返回输出数据。 from pyspark.sql import * import pyspark.sql.functions as F from pyspark.sql.functions import col spark = SparkSession.builder.master("local").appName("test").getOrCreate() file_path="C:\\bigdata\\pipesep_data\\Sales_ny.csv" df=spark.read.form

浏览 5提问于2022-06-06得票数 0

回答已采纳

5回答

火花放电中柱的比较

python、apache-spark、pyspark

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：输入: PySpark DataFrame，包含： col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5] 输出： col_4 = max(col1, col_2, col_3) = [3,2,5] 正如问题中所解释的那样，熊猫身上也有类似的东西。在PySpark中是否存在这样的方法，或者我是否应该将PySpark df转换为Pandas，然后执行这些操作？

浏览 7提问于2016-06-07得票数 29

回答已采纳

1回答

Pyspark -如何删除数据帧中的前导空格和尾随空格？

apache-spark、pyspark、pyspark-sql

我有一个包含10列的spark数据帧，我正在将其写入hdfs中的一个表。我遇到了列(所有字段和所有行)中的前导和尾随空格的问题。 from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Networks').getOrCreate() dataset = spark.read.csv('Networks_arin_db_2-20-2019_parsed.csv', header=True, inferSchema=True) #dataset.show(5)

浏览 33提问于2019-02-22得票数 0

回答已采纳

2回答

要Py的SQL查询(Spark)

sql、apache-spark、pyspark、count、aggregation

我有以下SQL查询，我想将其转换为pyspark。我想使用两个列pp和gender，并在pyspark中执行以下操作 %sql SELECT pp , SUM(CASE WHEN Gender = 'M' THEN 1.0 ELSE 0.0 END) / COUNT(1) AS gender_score , count(1) AS total FROM df WHERE gender in ('M', 'F') GROUP BY pp HAVING

浏览 12提问于2020-12-16得票数 0

1回答

不带groupby的计数和非重复计数使用PySpark

python、pyspark、pyspark-sql

我有一个数据帧(testdf)，希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得计数和非重复计数。 testdf memid booking rental 100 Y 100 120 Y 100 Y Y 预期结果：(对于预订列不为空/非空) count(memid) count(distinct memid) 3 2 如果是SQL： Select count(memid), count(distinct memid) from m

浏览 44提问于2018-06-05得票数 0

3回答

如何消除PySpark DataFrame列中条目的前几个字符？

python、dataframe、apache-spark、pyspark、apache-spark-sql

浏览 101提问于2021-01-15得票数 0

回答已采纳

1回答

在PySpark中连接两个数据帧时避免列重复列名

apache-spark、pyspark、spark-dataframe

我有以下代码： from pyspark.sql import SQLContext ctx = SQLContext(sc) a = ctx.createDataFrame([("1","a",1),("2","a",1),("3","a",0),("4","a",0),("5","b",1),("6","b",0),("7","b",1)],["id",

浏览 1提问于2017-02-03得票数 0

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

python、dataframe、apache-spark、pyspark

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新列，如果两个数据文件中存在相同的ID，则创建一个显示“True”或“False”的新列。到目前为止，我有这个 def doValuesMatch(df1, df2): left_join = df1.join(df2, on='ID&#

浏览 3提问于2021-12-11得票数 0