值列排序pyspark_PySpark排序值_pyspark wordcount按值排序 - 腾讯云开发者社区

python、pyspark、pyspark-sql

这个问题非常琐碎，但是我在PySpark的世界里是全新的，我面临着很多问题，即使是简单的任务。假设我们有一个带有A列的dataframe df。我想要创建另一个dataframe，它只包含最后一个值为A的一个列(这里的最后一个值是指列A底部的真正记录)。我已经试过了 df["A"][-1]，但我错了。请注意，如果可能的话，我希望可以为PySpark和Pyspark中的Python代码提供一个解决方案。

浏览 1提问于2019-06-21得票数 0

回答已采纳

1回答

pyspark dataframe同时按多列排序

dataframe、pyspark、sql-order-by

我有包含一些数据的json文件，我将这个json转换为pyspark dataframe(我选择了一些列，而不是所有列)，这是我的代码： import os from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.sql import SparkSession import json from pyspark.sql.functions import col sc = SparkContext.getOrCreate() spark = SparkSession

浏览 125提问于2019-03-12得票数 2

回答已采纳

1回答

组内火花拼花分配指数

python、apache-spark、pyspark、apache-spark-sql

我想知道生成列index以唯一标识每组标签中的记录的最有效方法： +-------+-------+-------+ | label | value | index | +-------+-------+-------+ | a | v1 | 0 | +-------+-------+-------+ | a | v2 | 1 | +-------+-------+-------+ | a | v3 | 2 | +-------+-------+-------+ | a | v4 | 3 | +------

浏览 1提问于2018-05-28得票数 0

回答已采纳

2回答

使用SparkVersion2.2的PySpark ()函数在DataFrame中创建每个行的行号

pandas、apache-spark、dataframe、pyspark、row-number

我有一个PySpark DataFrame - valuesCol = [('Sweden',31),('Norway',62),('Iceland',13),('Finland',24),('Denmark',52)] df = sqlContext.createDataFrame(valuesCol,['name','id']) +-------+---+ | name| id| +-------+---+ | Sweden| 31| | Norway| 62| |Icela

浏览 1提问于2018-10-29得票数 17

回答已采纳

1回答

除了collect()之外，还有什么方法可以从Pyspark中的列中获取最大值吗？

apache-spark、pyspark

我想从pyspark dataframe中的date类型列中获取最大值。目前，我使用的命令如下： df.select('col1').distinct().orderBy('col1').collect()[0]['col1'] 这里的"col1"是datetime类型的列。它工作得很好，但我想避免在这里使用collect()，因为我怀疑我的驱动程序可能会溢出。任何建议都会有所帮助。

浏览 0提问于2020-06-04得票数 2

1回答

显示组和agg之后的所有火花放电列

pyspark

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。 # Normal way of creating dataframe in pyspark sdataframe_temp = spark.createDataFrame([ (2,2,'0-2'), (2,23,'22-24')], ['a', 'b', 'c'] ) sdataframe_temp2 = spark.createDataFrame([

浏览 0提问于2020-01-19得票数 0

回答已采纳

1回答

根据另一列的先前值在Hive中创建新列

hive、window-functions

我有这样的数据： Status Order NULL 1 NULL 2 1 3 NULL 4 NULL 5 0 6 NULL 7 NULL 8 NULL 9 1 10 我正在尝试添加一个用前面的数字填充空的新列，例如： Status New NULL NULL NULL NULL 1 1 NULL 1 NULL 1 0 0 NULL 0 NULL 0 NULL 0 1 1 我正在使用hive，

浏览 1提问于2018-09-26得票数 0

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

python、apache-spark、apache-spark-sql、pyspark、pyspark-sql

下面是创建pyspark.sql DataFrame的代码 import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]), columns=['a','b','c']) sparkdf = sqlContext.createDataFrame(df, samplingR

浏览 0提问于2015-08-11得票数 6

1回答

按日期将吡火花数据集拆分为两个

python、pyspark、pyspark-sql

我有pyspark数据集，我想按照datetime列将其划分为列车和测试数据集，其中，训练数据集的日期时间应该小于日期时间列的中位数，而测试数据集应该有其余的数据集。我尝试按datetime列对dataset进行排序，并选择上半部分。但是这只解决了火车部件的问题，我不知道如何从PySpark中的初始数据集中“减除”训练数据集。 train = data.orderBy('datetime').limit(data.count() // 2) # test = ? 如果PySpark与Pandas ()函数有某种相似之处，那就太好了，但它没有。

浏览 0提问于2019-08-21得票数 0

回答已采纳

1回答

移除下一列中的空值和移位值

pyspark

浏览 2提问于2020-08-10得票数 2

回答已采纳

1回答

Parquet文件中groupby的最佳实践

python、pyspark、parquet、dask

我们有一个1.5BM记录分散在几个csv文件。为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：将它们加载到数据文件中(使用Dask或pyspark) 聚合列，以便生成2列作为键:value(我们不确定这是否值得) 将文件保存为Parquet 读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。对于Parquet文件上高效的groupby来说，最佳实践是什么？在索引上而不是在列(或一组列)上执行groupby有多大益处？我们知道有一个partition可以提供帮助--但在我们的例子中，我们

浏览 2提问于2017-07-09得票数 3

1回答

在不使用groupby或调用collect()的情况下，在pyspark中高效地查找max(date)

python、apache-spark、pyspark

1)我需要在代码中使用date_diff()来找出Date列和Max(Date)之间的区别我现在使用的是什么 from pyspark.sql import functions as F max_date = df.select(F.max(df['date'])).collect()[0][0] df = df.withColumn('period_difference', F.datediff(F.lit(max_date), df['date'])) 大约需要6分钟才能完成。有没有更有效的方法来做到这一点？ 2)有没有办法获取date_d

浏览 0提问于2018-05-04得票数 1

2回答

Spark DataFrame:根据列值按行排序列名

apache-spark、pyspark

对于下面的dataframe中的每一行，我希望根据降序列条目查找列名(作为数组或元组或其他什么)。所以，对于数据 +---+---+---+---+---+ | ID|key| a| b| c| +---+---+---+---+---+ | 0| 1| 5| 2| 1| | 1| 1| 3| 4| 5| +---+---+---+---+---+ 我想找到 +---+---+---+---+---+------------------+ | ID|key| a| b| c|descending_columns| +---+---+---+---+---+---

浏览 0提问于2019-07-02得票数 1

回答已采纳

2回答

Pyspark -如何从DataFrame列中获取随机值

pyspark、spark-dataframe、pyspark-sql

我在一个DataFrame中有一列，我需要在Pyspark中选择3个随机值。有没有人能帮帮我-我，好吗？ +---+ | id| +---+ |123| |245| | 12| |234| +---+ 愿望：从该列获得3个随机值的数组： **output**: [123, 12, 234]

浏览 0提问于2017-10-04得票数 5

回答已采纳

1回答

如何在pyspark中找到列表中最常用的元素？

list、pyspark、frequency

我有一个包含两列的pyspark dataframe，ID和Elements。"Elements“列中有list元素。它看起来像这样， ID | Elements _______________________________________ X |[Element5, Element1, Element5] Y |[Element Unknown, Element Unknown, Element_Z] 我想用‘element’列中最频繁的元素组成一个列。输出应如下所示： ID | Elements

浏览 6提问于2021-10-07得票数 1

1回答

两个数据帧的Pyspark联合

pyspark

我想做两个pyspark数据帧的联合。它们具有相同的列，但列的顺序不同我试过了 joined_df = A_df.unionAll(B_DF) 但结果是基于列顺序和混合结果的。有没有一种方法可以基于列名而不是列的顺序进行联合。提前感谢

浏览 5提问于2020-08-24得票数 1

回答已采纳

1回答

如何在pyspark中对dataframe行排序

pyspark

我有一个包含两列的数据帧，其中包含数字，我需要按行而不是按列对数据帧进行排序。到处都给出了如何按列对dataframe进行排序，但我找不到如何在pyspark中对dataframe的所有行进行排序。 col1 col2 2 1 3 2 预期输出 col1 col2 1 2 2 3

浏览 0提问于2017-11-14得票数 1

1回答

如何在星火数据中添加具有序列值的列？

python、apache-spark、pyspark、apache-spark-sql、apache-spark-dataset

如何从PySpark数据帧中的特定数字中添加具有序列值的列？当前数据集： Col1 Col2 Flag Val1 Val2 F Val3 Val4 T 但我希望数据集是这样的： Col1 Col2 Flag New_Col Val1 Val2 F 11F Val3 Val4 T 12T 我正在使用下面的代码，在Python中。 from pyspark.sql import functions as F from pyspark.sql import types as T seq = 10

浏览 0提问于2018-08-15得票数 3

回答已采纳

1回答

理解窗口函数的一个示例

apache-spark、pyspark、apache-spark-sql、window-functions

我正在运行代码脚本以获得以下结果。代码如下所示。我不明白为什么我会得到如图所示的xyz1列。例如，为什么xyz1的第一行是0。根据窗口函数，它对应的组应该是前两行，但为什么F.count(F.col("xyz")).over(w)在这里得到0。 import pyspark from pyspark.sql import SparkSession from pyspark.sql.window import Window from pyspark.sql import functions as F spark = SparkSession.builder.appName(&#

浏览 15提问于2021-04-03得票数 1

回答已采纳

1回答

pyspark wordcount按值排序

apache-spark、pyspark

我正在学习pyspark，我正在尝试下面的代码。有人能帮我弄明白哪里出了问题吗？ >>> pairs=data.flatMap(lambda x:x.split(' ')).map(lambda x:(x,1)).reduceByKey(lambda a,b: a+ b) >>> pairs.collect() [(u'one', 1), (u'ball', 4), (u'apple', 4), (u'two', 4), (u'three', 1)] pair

浏览 23提问于2019-09-25得票数 0

回答已采纳

6回答

PySpark groupByKey返回pyspark.resultiterable.ResultIterable

python、apache-spark、pyspark

我试图弄清楚为什么我的groupByKey返回以下内容： [(0, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a210>), (1, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a4d0>), (2, <pyspark.resultiterable.ResultIterable object at 0x7fc659e0a390>), (3, <pyspark.resultiterable.ResultIt

浏览 5提问于2015-04-18得票数 61

回答已采纳

1回答

对行中的DataFrame进行排序并获得排名

apache-spark、pyspark、apache-spark-sql

我有以下PySpark DataFrame： +----+----------+----------+----------+ | id| a| b| c| +----+----------+----------+----------+ |2346|2017-05-26| null|2016-12-18| |5678|2013-05-07|2018-05-12| null| +----+----------+----------+----------+ 我的理想输出是： +----+---+---+---+ |id |a

浏览 0提问于2018-07-12得票数 1

3回答

Python/pyspark数据框重新排列列

python、pyspark、spark-dataframe

我有一个python/pyspark格式的数据框，其中包含列id、time、city、zip等...... 现在，我向该数据框添加了一个新的列name。现在，我必须以这样的方式排列列：name列在id之后我已经做了如下工作 change_cols = ['id', 'name'] cols = ([col for col in change_cols if col in df] + [col for col in df if col not in change_cols]) df = df[cols] 我得到了这个错误 pyspark.

浏览 0提问于2017-03-21得票数 46

回答已采纳

2回答

使用list并替换pyspark列

dataframe、pyspark

假设我有一个列表new_id_acc = 6,8,1,2,4，我有像这样的PySpark DataFrame id_acc | name | 10 | ABC | 20 | XYZ | 21 | KBC | 34 | RAH | 19 | SPD | 我想用new_id_acc值替换pyspark列id_acc，我该如何实现并做到这一点。我尝试过，发现除了常量值之外，可以使用lit()，但是没有找到任何如何处理list的方法。替换后，我希望我的PySpark数据帧看起来像这样 id_acc | na

浏览 27提问于2019-05-14得票数 1

2回答

如何反转pyspark dataframe

python-2.7、pyspark

我需要反转我的pyspark数据帧。有没有一种高效的方式在pyspark中做到这一点？？我的datetime列是反转的，所以我需要反转我的dataframe +-------------------+-------+ | date|value_1| +-------------------+-------+ |2018-11-30 23:59:24| 28.02| |2018-11-30 23:58:54| 28.02| |2018-11-30 23:58:24| 28.03| +-------------------+-------+ 有没有办法在pysp

浏览 33提问于2019-10-18得票数 0

回答已采纳

1回答

如何对每个组中的变量进行排序？

pyspark、pyspark-sql

我试图为每个val使用另一列ts对值id进行排序。 # imports from pyspark.sql import functions as F from pyspark.sql import SparkSession as ss import pandas as pd # create dummy data pdf = pd.DataFrame( [['2',2,'cat'],['1',1,'dog'],['1',2,'cat'],['2',3,'cat'],

浏览 0提问于2018-05-14得票数 4

回答已采纳

1回答

将Pandas Python转换为Pyspark

python、pandas、apache-spark、pyspark、apache-spark-sql

我有用熊猫写的代码，我被要求转换成火星雨，但我对火花放电不太熟悉。我想我得到了大部分，但我有几行我无法改变。如果ID字段存在，则首先查找ID字段的下一个开始日期(对数据进行排序，使其是连续的) addmaxdate['next_start'] = pd.NaT addmaxdate.loc[addmaxdate.ID_combo.eq(addmaxdate.shift(-1).ID_combo), 'next_start'] = addmaxdate.shift(-1).startdate addmaxdate.loc[addmaxdate.startdate

浏览 1提问于2020-12-03得票数 1

回答已采纳

1回答

忽略缺失值计算pyspark数据框列的百分位数

pyspark、apache-spark-sql

我对pyspark是个新手。我有一个包含ID和BALANCE列的pyspark数据框。我尝试将列balance存储到100% (1-100%)的存储桶中，并计算每个存储桶中有多少个in。我不能使用任何与RDD相关的东西，我只能使用Pyspark语法。我试过下面的代码 w = Window.orderBy(df.BALANCE) test = df.withColumn('percentile_col',F.percent_rank().over(w)) 我希望得到一个新的列，它可以自动计算平衡列中每个数据点的百分位数，并忽略缺少的值。

浏览 14提问于2019-07-11得票数 0

2回答

将列值替换为小于其自身的其他列值的数量

apache-spark、pyspark

假设我有一个包含两列的Pyspark dataframe :ID、salary。数据帧有1亿条记录。我想用排名顺序列替换salary列。列的排名-顺序统计有多少人的工资低于。如何有效地做到这一点例如，给定以下输入数据帧： df = spark.createDataFrame([(1,2000), (2,500), (3,1500)], ['id','salary']) df.show() +---+------+ |

浏览 2提问于2018-06-26得票数 0

1回答

计算数据的每一列的模式，将其存储在一个列表中，并使用它生成一个数据格式

pyspark

我正在查找数据中所有列的“模式”，并将它们存储在列表中。计算每个列的我的模式的代码： from pyspark.sql.functions import * #calculating mode value mode_val = [] for i in df_num.columns : cnts = df_num.groupBy(i).count() mode = cnts.join( cnts.agg(max("count").alias("max_")), col("count") == col(&#

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

如何对PySpark DataFrame的每一列中的数据进行混洗？

apache-spark、pyspark、apache-spark-sql、shuffle、databricks

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。 # read the csv file in a spark dataframe df = (spark.read .option("inferSchema", "true") .option("header", "true") .csv(file_path)) 我想对每一列中的数据进行混洗，即分别为‘'In

浏览 16提问于2020-05-11得票数 0

2回答

PySpark:根据不同列中某个值的最后一次出现情况填充列

python、apache-spark、pyspark

使用PySpark，我正在寻找一种根据列Status中的值填充列Code的方法。df按ID列排序。唯一有意义的Code值是A (Good), B (Bad), C (Neutral)。当这些值中的一个出现时，我希望每一行都有相同的Status值，直到出现任何其他重要的Code值。这是所需的带有新添加的Status列的df输出： +----+------+---------+ | ID | Code | Status | +----+------+---------+ | 1 | A | Good | | 2 | 1x4 | Good | | 3 | B

浏览 25提问于2019-05-13得票数 1

回答已采纳

1回答

完整数据帧的火花散列

pyspark、hash

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。所需的是根据年份划分一个大数据，并为每年(小数据)查找散列值并将结果持久化到一个表中。输入(产品，质量，商店，SoldDate) 读取数据中的数据，通过SoldDate进行分区，计算每个分区的散列，并将其写入文件/表。输出：(日期，散列) 我这样做的原因是，我必须比较每天运行这个过程，然后检查哈希是否更改了以前的日期。存在文件级别md5的可能性，但不希望生成文件，而是根据日期动态计算分区

浏览 8提问于2022-12-04得票数 0

1回答

在PySpark中添加具有滚动最新优先级的列

python、pyspark

我有一个包含客户、日期和交易类型列表的pyspark dataframe。 +----------+-----+------+ | Customer | Day | Type | +----------+-----+------+ | A | 2 | X11 | | A | 4 | X2 | | A | 9 | Y4 | | A | 11 | X1 | | B | 3 | Y4 | | B | 7 | X1 | +----------+-----+------+ 我

浏览 35提问于2019-06-11得票数 0

回答已采纳

1回答

PySpark比较空地图文字

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我想在PySpark DataFrame中删除行，其中某个列包含一个空映射。我该怎么做？我似乎不能声明一个类型化的空MapType来比较我的列。我已经看到，在Scala中，您可以使用typedLit，但是在PySpark中似乎没有类似的东西。我还尝试过使用lit(...)并将其转换为struct<string,int>，但我没有为lit()找到可接受的参数(尝试使用返回null的None和返回错误的{} )。我确信这是微不足道的，但我还没有看到任何关于这方面的文档！

浏览 2提问于2019-09-29得票数 2

回答已采纳

2回答

将pyspark dataframe插入到现有的分区配置子表中

hive、pyspark

我有一个hive表，它是按插入时间列分区的。我有一个pyspark dataframe，除了已分区的列之外，它与表具有相同的列。当表未分区时，以下操作效果很好： df.insertInto('tablename',overwrite=True) 但是我不知道如何从pyspark插入到一个特定的分区。下面尝试过： df.insertInto('tablename',overwrite=True,partition(inserttime='20170818-0831')) 但它不起作用，失败的原因是 SyntaxError: non-keyw

浏览 0提问于2017-09-16得票数 1

1回答

_jdf丢弃数据帧中的报头，AttributeError: Pyspark

csv、dataframe、header、pyspark-sql

from pyspark.sql import SQLContext sqlContext = SQLContext(sc) spark = sqlContext.sparkSession avg_calc = spark.read.csv("quiz2_algo.csv", header= True,inferSchema=True) header = avg_calc.first() no_header = avg_calc.subtract(header) no_header avg_calc包含2列，我正在尝试从这两列中删除第1行，但是我收到以下错误： -------

浏览 1提问于2018-05-12得票数 0

1回答

spark 2.0.0选择不同的不稳定结果

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我运行pyspark2在spark 2.0.0上考虑到加载到Dataframe中的稳定和常量数据集，我确实按特定列删除了重复数据： vw_ticket = read_csv(...) vw_ticket_in_booking = vw_ticket.dropDuplicates(['BOOKING_TICKET_ID']) vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking') 然后 spark.sql('select count(distinct(booking_id)

浏览 2提问于2017-08-31得票数 0

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用： from pyspark.sql.functions import udf from pyspark.sql.functions import array_distinct from pyspark.sql.types import ArrayType, StringType create_transition = u

浏览 13提问于2022-10-19得票数 1

回答已采纳

2回答

pyspark createdataframe:字符串解释为时间戳，模式混合列

apache-spark、pyspark、apache-spark-sql

我有一个非常奇怪的错误火花数据，这导致一个字符串被计算为一个时间戳。以下是我的设置代码： from datetime import datetime from pyspark.sql import Row from pyspark.sql.types import StructType, StructField, StringType, TimestampType new_schema = StructType([StructField("item_id", StringType(), True), StructField(

浏览 2提问于2017-02-03得票数 8

10回答

基于另一个变量保持顺序的collect_list

python、apache-spark、pyspark

我试图使用现有列集上的groupby聚合来在Pyspark中创建一个新的列表列。下面提供了一个示例输入数据框架： ------------------------ id | date | value ------------------------ 1 |2014-01-03 | 10 1 |2014-01-04 | 5 1 |2014-01-05 | 15 1 |2014-01-06 | 20 2 |2014-02-10 | 100 2 |2014-03-11 | 500 2 |2014-04-15 | 1500 预期产出如下：

浏览 8提问于2017-10-05得票数 82

回答已采纳

1回答

pyspark中的不一致结果

apache-spark、pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

重复运行以下代码会产生不一致的结果。到目前为止，我只看到了两个输出。在切换到其他结果之前，结果会重复任意随机次数，然后在再次切换回之前，这些结果也会重复任意随机次数。为什么会发生这种情况？在这个示例中，我可以使用索引窗口函数并在使用%修改单个列之前包含一个orderBy()，但我的实际示例中，我没有这个选项，所以这不是一个适合我的解决方案。 import pyspark spark = pyspark.sql.SparkSession.builder.getOrCreate() import pyspark.sql.functions as F from pyspark.sql.wind

浏览 1提问于2018-03-02得票数 1

3回答

如何在Pyspark中替换dataframe的所有空值

dataframe、null、pyspark

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如： Column_1 column_2 null null null null 234 null 125 124 365 187 and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

2回答

<lambda>：sort in reduceByKey错误: in pyspark TypeError：'int‘对象不可调用

python-2.7、apache-spark、pyspark、spark-dataframe

我有以下代码:对于每个my_id，我尝试根据timestamp字段对amount字段进行排序： output_rdd = my_df.rdd.map(lambda r: (r['my_id'], [r['timestamp'],[r['amount']]]))\ .reduceByKey(lambda a, b: sorted(a+b, key=(a+b)[0]))\ .map(lambda r: r[1]) 但是，我得到了以下错误： Py4JJava

浏览 14提问于2016-09-28得票数 0

回答已采纳

1回答

星火StringIndexer MLlib

python、apache-spark、pyspark、rdd、apache-spark-mllib

我的PipelinedRDD中有一列标称值，为了分类目的，我想将其转换为索引编码。我曾经在pyspark.ml中使用pyspark.ml，这是非常容易使用的。然而，这一次我正在学习如何处理rdd而不是数据格式，而且在pyspark.mllib中没有这样的东西。任何帮助都是非常感谢的。

浏览 0提问于2018-02-14得票数 1

回答已采纳

4回答

在pyspark dataframe中的第一个序号位置添加新列

python、apache-spark、pyspark、apache-spark-sql

我有一个pyspark数据框，如下所示： +--------+-------+-------+ | col1 | col2 | col3 | +--------+-------+-------+ | 25 | 01 | 2 | | 23 | 12 | 5 | | 11 | 22 | 8 | +--------+-------+-------+ 我想通过添加如下所示的新列来创建新的dataframe： +--------------+-------+-------+-------+ | new_column | co

浏览 1提问于2018-11-16得票数 6

1回答

查找PySpark中每行的最新非空值

python、pyspark

我有一个这样的PySpark数据帧， +----------+------+------+------+------+------+------+------+------+------+------+------+------+------+ |id |201806|201807|201808|201809|201810|201811|201812|201901|201902|201903|201904|201905|201906| +----------+------+------+------+------+------+------+------+------+----

浏览 19提问于2019-08-29得票数 0

回答已采纳

1回答

使用csv文件中的pyspark数据绘制RDD数据

dataset、bigdata、apache-spark、pyspark、plotting

我刚刚开始在非常大的csv文件上使用pyspark。我使用的是Spark版本2.1.0。我希望从一个.csv文件中读取数据，并将其加载到中，然后在过滤特定的行之后，使用matplotlib绘制2列(纬度和经度)，将其可视化。这就是我到目前为止所做的：进口包装： from pyspark.sql import SparkSession from pyspark.conf import SparkConf from pyspark.sql.functions import * import matplotlib.pyplot as plt 构建火花会话： spark = SparkSessio

浏览 0提问于2017-06-28得票数 1

1回答

Pyspark:使用lambda函数和.withColumn会产生一个非类型的错误，我很难理解

apache-spark、dataframe、lambda、pyspark、nonetype

我有下面的代码。本质上，我尝试做的是从现有列中的值生成一些新列。这样做之后，我将包含新列的dataframe保存为集群中的一个表。抱歉，我还是个初学者。 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql.functions import udf, array from pyspark.sql.types import DecimalType import numpy as np import math df = sqlContext.sql('select * from db

浏览 1提问于2017-10-10得票数 2

回答已采纳

2回答