PySpark -按数组分组列_pyspark -按多列分组/计数性能_使用pyspark按agg多列分组 - 腾讯云开发者社区

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

1回答

显示组和agg之后的所有火花放电列

pyspark

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。 # Normal way of creating dataframe in pyspark sdataframe_temp = spark.createDataFrame([ (2,2,'0-2'), (2,23,'22-24')], ['a', 'b', 'c'] ) sdataframe_temp2 = spark.createDataFrame([

浏览 0提问于2020-01-19得票数 0

回答已采纳

1回答

PySpark -将组合键名称添加到字典

python-3.x、pyspark、apache-spark-sql、list-comprehension

由于这是我的第一篇文章，如果有任何错误，请坦率地告诉我。这是数据帧df:列'a‘是一个字符串，其余是浮点型。我已经为数据帧添加了一个图像，因为当我手动添加数据时，不知何故格式会变得混乱。 Dataframe 在给定的pyspark df上，我希望按列'a‘分组，并找到彼此列的最小和最大值。为了获得dictionary.So格式的输出，我将得到的dataFrame数据帧转换为toJSON，并使用转换为字典的json.loads。 Code snippet: import pyspark.sql.functions as F cols=['b','

浏览 6提问于2021-06-25得票数 1

回答已采纳

3回答

如何在PySpark中执行groupby并查找列的唯一项

python、pandas、pyspark

我有一个pySpark数据，我想按一个列分组，然后在另一个列中为每个组找到唯一的项。在熊猫身上我可以做， data.groupby(by=['A'])['B'].unique() 我也想对我的火花数据做同样的。我可以在组中找到项目的distictCount并计数，如下所示 (spark_df.groupby('A') .agg( fn.countDistinct(col('B')) .alias('unique_count_B'), fn.count

浏览 0提问于2019-06-19得票数 5

回答已采纳

1回答

如何使用Pyspark遍历一个组并创建数组列？

apache-spark、pyspark、group-by、apache-spark-sql

我有一个包含组和百分比的数据帧 | Group | A % | B % | Target % | | ----- | --- | --- | -------- | | A | .05 | .85 | 1.0 | | A | .07 | .75 | 1.0 | | A | .08 | .95 | 1.0 | | B | .03 | .80 | 1.0 | | B | .05 | .83 | 1.0 | | B | .04 | .85 | 1.0 | 我希望能够逐列迭代A %列，并从B %

浏览 59提问于2021-11-04得票数 3

回答已采纳

1回答

PySpark:如何使用窗口函数按固定日期范围和另一列来计算值列的和？

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个星火DataFrame，由三列组成：Date、Item和Value，类型分别是Date、String和Double。我想按日期范围分组(其中每个范围的持续时间从数据中的第一个日期开始起为7天)和项，并计算由日期范围(实际周号)和项定义的每个此类组的值的总和。我怀疑PySpark的窗口函数在某些时候应该被用于日期范围，但是在这种情况下无法找到实现它们的方法。

浏览 1提问于2019-03-27得票数 2

1回答

修改PySpark DataFrame的Pandas代码

apache-spark、pyspark、pyspark-sql

我有下面的代码片段，用于创建一个图形。我想修改它以在PySpark中工作，但不知道如何继续。问题是我不能迭代PySpark中的一个列，并且我已经尝试将它变成一个函数，但没有成功。上下文: DataFrame有一个名为City的列，它只是作为字符串的城市名称 cities = [i.City for i in df.select('City').distinct().collect()] stack = [] for city in cities: df = sqlContext.sql( 'SELECT Complaint Type, COUNT(*

浏览 2提问于2016-12-12得票数 0

回答已采纳

1回答

PySpark按多个时间窗口分组

python、dataframe、apache-spark、pyspark、apache-spark-sql

大家晚上好。我知道我们可以按df.groupBy('col1,'col2','col3')对多个列进行分组，我认为这种分组意味着它首先按col1分组，对于col1的每个成员，它按col2分组，依此类推。如果这是错误的，请纠正我，我昨天基本上是从PySpark开始的，因为一个大学项目。我需要按4个成员对数据进行分组:2个字符串列和2个时间窗口。 df.groupBy('col1,'col2','1HourTimeWindow','15MinTimeWindow') 我知道可以使用像这样的df.gro

浏览 15提问于2021-02-17得票数 1

2回答

如何创建一个数组列，它是两个或多个数组列的总和？

pyspark、apache-spark-sql

我的pyspark中有几个array类型列和DenseVector类型列。我想要创建这些列的元素级添加的新列。下面是总结问题的代码：设置： from pyspark.sql import SparkSession from pyspark.sql.functions import col from pyspark.ml.functions import vector_to_array from pyspark.ml.linalg import VectorUDT, DenseVector from pyspark.sql.functions import udf, array, lit s

浏览 22提问于2021-12-29得票数 1

回答已采纳

1回答

分组依据列表中的元素

python、pyspark、pyspark-sql

浏览 4提问于2019-10-09得票数 0

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

apache-spark、pyspark

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

与数值相关的Pyspark分类数据向量化

python、pyspark、vectorization

我是Pyspark编程的新手。我需要些帮助。我有一个带有分类特征的数据集和一些与之相关的数值。我想对分类值进行矢量化，包括与之相关的数值。我有大约300万个分类数据列的可能值。 ?

浏览 22提问于2021-01-22得票数 0

1回答

spark 2.0.0选择不同的不稳定结果

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我运行pyspark2在spark 2.0.0上考虑到加载到Dataframe中的稳定和常量数据集，我确实按特定列删除了重复数据： vw_ticket = read_csv(...) vw_ticket_in_booking = vw_ticket.dropDuplicates(['BOOKING_TICKET_ID']) vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking') 然后 spark.sql('select count(distinct(booking_id)

浏览 2提问于2017-08-31得票数 0

回答已采纳

1回答

无法解析给定输入列的“占用”

apache-spark、pyspark

全, 即使职业列存在，我在Pyspark中运行GroupBy时也会出错。有人能给我指明正确的方向吗？谢谢, 地堑

浏览 4提问于2021-07-03得票数 0

回答已采纳

2回答

使用pyspark根据多个列值删除记录

pandas、pyspark

我有一个pyspark数据帧，如下所示： ? 如果两列uniq_id和date_time具有相同的值，我希望只保留一条记录。预期输出： ? 我想用pyspark来实现这一点。谢谢

浏览 28提问于2020-10-06得票数 0

回答已采纳

1回答

在pyspark中计算列之间的方差

pyspark、multiple-columns、variance

如何计算pyspark中多个列的方差？例如，如果pyspark.sql.dataframe表是： ID A B C 1 12 15 7 2 6 15 2 3 56 25 25 4 36 12 5 所需的输出为 ID A B C Variance 1 12 15 7 10.9 2 6 15 2 29.6 3 56 25 25 213.6 4 36 12 5 176.2 pyspark中有一个方差函数，但它只能按列工作。

浏览 1提问于2017-04-28得票数 1

1回答

如何在星火中的Logistic回归分类器中传递多列作为特性？

python、apache-spark、machine-learning、pyspark、logistic-regression

我试图使用一个简单的数据集来运行Logistic回归，以理解pyspark的语法。我有数据，看上去有11列，其中前10列是特性，最后一列(第11列)是标签。我想传递这10列作为特征和第11列作为标签。但是我只知道作为一个列传递，使用featuresCol="col_header_name"作为一个特性传递，我使用熊猫读取了csv文件中的数据，但我已经将其转换为RDD。以下是代码： from pyspark.ml.classification import LogisticRegression from pyspark.sql import SQLContext from pys

浏览 0提问于2019-02-19得票数 3

回答已采纳

1回答

如何访问PySpark数据帧中存储在数组内部的项的集合？

python、apache-spark、pyspark、apache-spark-sql

我有一个PySpark数据帧- root |-- itemId: string (nullable = true) |-- contents: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- contentId: string (nullable = true) | | |-- position: integer (nullable = true) 如何获取每个itemId的所有contentId？它希望有一个新的列(数组类型)，其中包含每个给定it

浏览 8提问于2020-12-30得票数 0

回答已采纳

2回答

火花放电中sql.dataframe.DataFrame阵列的扁平阵列(不同尺寸)

pyspark

浏览 5提问于2019-12-09得票数 0

回答已采纳

1回答

如何在pyspark中解压list类型的列

python、apache-spark、pyspark、apache-spark-sql

浏览 29提问于2020-01-24得票数 0

回答已采纳

2回答

根据Spark 1.6数据帧上的其他字段计算每个组的不同元素

python、apache-spark、pyspark

我尝试在Spark数据帧中按日期分组，并为每个组计算一列的唯一值： test.json {"name":"Yin", "address":1111111, "date":20151122045510} {"name":"Yin", "address":1111111, "date":20151122045501} {"name":"Yln", "address":1111111, "date":20151

浏览 1提问于2016-03-17得票数 28

回答已采纳

2回答

化工厂重组数据与出口

pyspark

我尝试了这里显示的另一种方法：，它不适用于我的数据帧。我有一个数据文件，如下所示： Attribute Values ID Brand Model -------------------------------------------- Colour Red 1 Sony xyz Energy F 2 Samsung abc Year 2020 1 Sony xyz Energy C 1 Sony xyz Colou

浏览 5提问于2022-07-16得票数 0

2回答

是否使用Window()计算PySpark中数组的滚动和？

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我想计算给定unix时间戳的ArrayType列的滚动和，并以2秒为增量对其进行分组。输入/输出示例如下。我认为Window()函数会起作用，我对PySpark非常陌生，完全迷失了方向。任何意见都是非常感谢的！输入： timestamp vars 2 [1,2,1,2] 2 [1,2,1,2] 3 [1,1,1,2] 4 [1,3,4,2] 5 [1,1,1,3] 6 [1,2,3,5] 9 [1,2,3,5] 预期

浏览 11提问于2020-02-26得票数 2

回答已采纳

1回答

如何从Spark/PySpark的拼花文件中提取信息？

apache-spark、pyspark、apache-spark-sql

我必须读取N个拼板文件，按特定列对所有数据进行排序，然后将排序后的数据写入N个拼板文件中。在处理这些数据时，我还必须生成一个索引，该索引稍后将用于优化对这些文件中数据的访问。索引也将被写成一个拼花文件。举个例子来说，假设数据代表杂货店的交易，我们希望创建一个按产品到事务的索引，这样我们就可以快速地知道哪些交易有白干酪，例如，不必扫描所有的N个拼板文件。我很确定我知道如何做第一部分，但我正在挣扎如何提取和统计索引的数据，同时阅读N块文件。目前，我在我的机器上本地使用PySpark，但是这个解决方案最终将在AWS上运行，可能是在AWS中。任何关于如何创建索引的建议都将不胜感激。

浏览 14提问于2022-05-02得票数 0

1回答

计算文本中的特定字符- pyspark

python、apache-spark、pyspark、apache-spark-sql

我有一个包含文本列的pyspark数据框。此列中可以包含文本(字符串)信息。我所要做的就是在这一列的每一行中计算A，B，C，D等。它类似于： df = spark.read.csv('Data.csv', header=True) df.select(['text']).show(truncate = False) +-------------------------+ |text | +-------------------------+ |BBEBEBEFC | |DDBBCDCBBEC

浏览 6提问于2021-04-05得票数 0

回答已采纳

1回答

统计SPARKSQL中的重复行数

pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个要求，我需要计算配置单元表的SparkSQL中的重复行数。 from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row app_name="test" conf = SparkConf().setAppName(app_name) sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) df =

浏览 3提问于2018-02-01得票数 11

回答已采纳

1回答

在pyspark中保持至少有一个元素满足条件的组

python、pandas、pyspark

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。假设我有以下数据帧： df = pd.DataFrame({'a':[1,2,2,1,1,2], 'b':[12,5,1,19,2,7]}) print(df) a b 0 1 12 1 2 5 2 2 1 3 1 19 4 1 2 5 2 7 和列表 l = [5,1] 我尝试做的是按a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。然后，我们可以使用结果来索引数据帧。与此相对应的Pandas是：

浏览 8提问于2020-11-04得票数 2

回答已采纳

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

sum、pyspark、word-count

浏览 3提问于2017-05-29得票数 1

2回答

PySpark:如何在列中或列中分组

group-by、pyspark

我想在PySpark中进行分组，但是这个值可以出现在多个列中，所以如果它出现在所选列中的任何一列中，那么它将被分组。例如，如果我将这个表放在Pyspark中：我想总结一下每个身份证的访问和投资，结果是：请注意，ID1是前三列中有ID1的行0、1、3的总和，ID1访问= 500 + 100 + 200 = 800。ID2是行1、2等的总和。为了简单起见，我的例子是一个简单的dataframe，但在实际中是一个大得多的df，有很多行和变量，还有其他操作，而不仅仅是"sum“。这对熊猫来说是不可能的，因为它太大了。应该在PySpark OBS2:我用熊猫打印了表格

浏览 4提问于2019-09-20得票数 1

回答已采纳

2回答

在pyspark DataFrame中创建某个类型的空数组列

python、dataframe、apache-spark、pyspark

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

2回答

如何在PySpark中求数组的平均值

python、pandas、pyspark、pyspark-sql、pyspark-dataframes

我有一个PySpark Dataframe，其中一个列(比如B)是一个数组。以下是PySpark数据文件： +---+-----------------------------+---+ |A |B |C | +---+-----------------------------+---+ |a |[[5.0], [25.0, 25.0], [40.0]]|c | |a |[[5.0], [20.0, 80.0]] |d | |a |[[5.0], [25.0, 75.0]] |e | |b |[

浏览 11提问于2019-12-10得票数 0

回答已采纳

1回答

Parquet文件中groupby的最佳实践

python、pyspark、parquet、dask

我们有一个1.5BM记录分散在几个csv文件。为了生成一个count聚合，我们需要对几个列进行分组。我们目前的战略是：将它们加载到数据文件中(使用Dask或pyspark) 聚合列，以便生成2列作为键:value(我们不确定这是否值得) 将文件保存为Parquet 读取Parquet文件(Dask或pyspark)，并在dataframe的索引上运行groupby。对于Parquet文件上高效的groupby来说，最佳实践是什么？在索引上而不是在列(或一组列)上执行groupby有多大益处？我们知道有一个partition可以提供帮助--但在我们的例子中，我们

浏览 2提问于2017-07-09得票数 3

1回答

按日期将吡火花数据集拆分为两个

python、pyspark、pyspark-sql

我有pyspark数据集，我想按照datetime列将其划分为列车和测试数据集，其中，训练数据集的日期时间应该小于日期时间列的中位数，而测试数据集应该有其余的数据集。我尝试按datetime列对dataset进行排序，并选择上半部分。但是这只解决了火车部件的问题，我不知道如何从PySpark中的初始数据集中“减除”训练数据集。 train = data.orderBy('datetime').limit(data.count() // 2) # test = ? 如果PySpark与Pandas ()函数有某种相似之处，那就太好了，但它没有。

浏览 0提问于2019-08-21得票数 0

回答已采纳

1回答

需要在将表头转换为列后为每个指定列获取最大值。

python、python-3.x、apache-spark、pyspark、pyspark-dataframes

我需要以下问题陈述的指针/线索问题陈述:我需要将所有的表头转换成列(Col_name)，并得到所有这些列的最大值，我正在尝试下面的逻辑，但是被卡住了，任何建议/想法都会有很大帮助。 **from pyspark.sql import Row from pyspark.sql.types import * from pyspark.sql.functions import col,lit,max df = sc.parallelize([ \ Row(name='Alice', age=5, height=80), \

浏览 0提问于2020-07-04得票数 0

回答已采纳

1回答

PySpark - RDD到JSON

arrays、json、pyspark

我有一个Hive查询，它以这种格式返回数据： ip, category, score 1.2.3.4, X, 5 10.10.10.10, A, 2 1.2.3.4, Y, 2 12.12.12.12, G, 10 1.2.3.4, Z, 9 10.10.10.10, X, 3 在PySpark中，我通过hive_context.sql(my_query).rdd获得这个每个ip地址可以有多个分数(因此有多行)。我希望按以下方式以json/数组格式获取这些数据： { "ip": "1.2.3.4", "scores": [

浏览 2提问于2018-06-25得票数 2

回答已采纳

1回答

将pyspark groupedData转换为pandas DataFrame

python、pandas、pyspark、apache-spark-sql、spark-dataframe

我需要通过Spark分组一个大型数据集，我将其加载为两列的Pandas数据框架，然后重新转换为Pandas:基本上是做Pandas -> 'pyspark.sql.group.GroupedData‘-> Pandas。两列中的元素都是整数，分组后的数据需要以列表的形式存储，如下所示： df.a df.b 1 3 2 5 3 8 1 2 3 1 2 6 ... spark_df = spark.createDataFrame(df

浏览 1提问于2017-08-03得票数 1

1回答

逐列解析HTML表而不是行

php、html、parsing、dom

如何按列而不是按行解析html表td (使用DOMDocument / DOMXPath)？这意味着根据它所在的表的列来解析td元素，而不是它在哪个tr中？

浏览 1提问于2012-06-25得票数 1

4回答

如何在Spark中压缩两个数组列

python、pandas、apache-spark、pyspark、apache-spark-sql

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下： df['column_1']: 'abc, def, ghi' df['column_2']: '1.0, 2.0, 3.0' 我想将这两列连接到第三列中，如下所示，我的每一行数据都是这样的。 df['column_3']: [abc_1.0, def_2.0, ghi_3.0] 我已经在python中成功地使用了下面的代码，但是dataframe相当大，运行整个datafra

浏览 2提问于2019-01-21得票数 9

回答已采纳

1回答

吡火花:如何使用列指定重新平衡分区提示

apache-spark、pyspark、apache-spark-sql、partitioning

如何使用吡火花API指定列名的？举个例子，让我们假设我们 df = spark.range(10) 以下尝试失败： >>> df.hint("rebalance", "id").explain() ... pyspark.sql.utils.AnalysisException: REBALANCE Hint parameter should include columns, but id found 如果不按名称(即简单字符串)指定列，如何指定这些列？使用别名的无论是>>> df.alias("df").h

浏览 15提问于2022-06-15得票数 0

回答已采纳

2回答

将函数应用于groupBy数据

apache-spark、pyspark

当在另一列上分组时，我试图从csv中获取单词计数。我的csv有三列: id、message和user_id。我读了这篇文章，然后拆分消息，并存储了一个单字列表： +-----------------+--------------------+--------------------+ | id| message| user_id| +-----------------+--------------------+--------------------+ |10100720363468236|[i'm, sad,

浏览 2提问于2016-12-05得票数 12

回答已采纳

1回答

如何结合数组使用groupby

python-3.x、pandas、numpy

我正在研究“Python for Data-Analysis”(Python for Data-Analysis)一书中的一些熊猫，我偶然发现了一段我无法理解的代码： by_tz_os = cframe.groupby(['tz', op_system]) 其中，cframe是一个具有多列的数据from，而op_system是一个从以下位置生成的数组： op_system = np.where(cframe['a'].str.contains('Windows'), 'Windows', 'Not Windows'

浏览 1提问于2020-06-24得票数 0

回答已采纳

1回答

如何将DataFrame.withColumn与条件一起使用

apache-spark、dataframe、pyspark

我想知道如何在完整的DataFrame上创建一个新列，但其值仅基于DataFrame的一个子集(即，基于条件应用的某些函数)。在本例中，我希望创建一个列，该列将每个ID与Value列中按ID的正值之和相关联。使用下面的数据集： +-----+-----+ | ID |Value| +-----+-----+ | 1 | -4 | +-----+-----+ | 2 | 5 | +-----+-----+ | 2 | -23 | +-----+-----+ | 1 | 5 | +-----+-----+ | 2 | 19 | +-----+-----+ |

浏览 1提问于2019-02-02得票数 0

1回答

如何在pyspark中找到列表中最常用的元素？

list、pyspark、frequency

我有一个包含两列的pyspark dataframe，ID和Elements。"Elements“列中有list元素。它看起来像这样， ID | Elements _______________________________________ X |[Element5, Element1, Element5] Y |[Element Unknown, Element Unknown, Element_Z] 我想用‘element’列中最频繁的元素组成一个列。输出应如下所示： ID | Elements

浏览 6提问于2021-10-07得票数 1

3回答

如何计算Pyspark数据框架中的元素

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我有一个pyspark数据帧。它是一个电影数据集。其中一列是按|划分的流派。每部电影都有多种类型。 genres = spark.sql("SELECT DISTINCT genres FROM movies ORDER BY genres ASC") genres.show(5) ? 我想数一数每种类型有多少部电影。我也想展示一下这些电影是什么。如下所示： ? ? 我该怎么做呢？

浏览 22提问于2020-01-07得票数 0

1回答

如何分解pyspark dataframe中的map类型？

python、dataframe、pyspark

我有一个数据帧 import os, sys import json, time, random, string, requests import pyodbc from pyspark import SparkConf, SparkContext, SQLContext from pyspark.sql.functions import explode, col, from_json, lit from pyspark.sql import functions as f from pyspark.sql import SparkSession from pyspark.sql.types

浏览 28提问于2020-10-06得票数 0

回答已采纳

1回答

熊猫到火花放电环境

python、dataframe、pyspark、apache-spark-sql

newlist = [] for column in new_columns: count12 = new_df.loc[new_df[col].diff() == 1] new_df2=new_df2.groupby(['my_id','friend_id','family_id','colleage_id']).apply(len) 在pyspark中没有获得所有列长度的选项。我们如何才能将这段代码转化成火星雨。提前谢谢..。

浏览 5提问于2022-09-18得票数 1

回答已采纳

2回答

星星之火数据(ForeachPartition)：将元素之和

apache-spark、pyspark

我试图在每个分区的火花数据和和元素的划分使用吡咯烷酮。但我无法在被调用的函数"sumByHour“中执行此操作。基本上，我无法访问"sumByHour“中的dataframe列。基本上，我是按“小时”列进行分区，并试图根据“小时”分区对元素进行求和。预期产量分别为: 6,15,24，0,1,2小时。在没有运气的情况下尝试过。 from pyspark.sql.functions import * from pyspark.sql.types import * import pandas as pd def sumByHour(ip): print(ip) pa

浏览 4提问于2022-01-25得票数 0

回答已采纳

1回答

PySpark:如何创建包含日期范围的DataFrame

python、dataframe、date、pyspark、apache-spark-sql

我正在尝试创建一个包含日期范围的单一列的PySpark数据框架，但是我一直收到这个错误。我也尝试将它转换为int，但我不确定您是否应该这样做。 # Gets an existing SparkSession or, if there is no existing one, creates a new one spark = SparkSession.builder.appName('pyspark-shellTest2').getOrCreate() from pyspark.sql.functions import col, to_date, asc from pyspar

浏览 20提问于2022-12-02得票数 0

1回答

Postgresql:数组列中最常见的值

postgresql、query

我有一张桌子，看起来像这样： post_id tags --- ---- 1 {'tag1','tag2','tag3'} 2 {'foo','tag3', 'tag1'} 3 {'bar','tag3','anothertag'} ... 标记是数组列. 有什么方法可以获得最常见的标记(例如生成标记云)？例如，如何将标签名按受欢迎程度或使用的前10个标签排序？(在上面的示例中，按顺序排

浏览 0提问于2022-01-13得票数 0

回答已采纳

1回答

我使用它的pyspark.ml.regression.LinearRegression创建了一个火花模型

pyspark

我正在建立一个模型，但是出错了。 from pyspark.ml.regression import LinearRegression lr=LinearRegression(featuresCol = 'features', labelCol='label',maxIter=10) lrModel=lr.fit(trainingdata) IllegalArgumentException:需求失败:列特性必须是struct，values:array>，但实际上是struct，values:array>.

浏览 1提问于2020-04-24得票数 0