Pyspark:匹配来自两个不同数据帧的列并添加价值_匹配来自两个不同数据帧的列值并配对观察值_如何使用pyspark合并来自两个不同数据帧的数据？ - 腾讯云开发者社区

pyspark

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？示例：数据帧1有10列。数据帧2有1列我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

在pyspark中使用union或append合并两个不同宽度的数据帧

pyspark

Df1.unix(Df2) 如何将其扩展到处理具有不同列数的pyspark数据帧？

浏览 18提问于2019-02-21得票数 0

2回答

在另一个数据帧中值所在的派斯喀斯特过滤器

pyspark

我有两个数据帧。我需要过滤其中一个只显示包含在另一个中的值。 table_a： +---+----+ |AID| foo| +---+----+ | 1 | bar| | 2 | bar| | 3 | bar| | 4 | bar| +---+----+ table_b： +---+ |BID| +---+ | 1 | | 2 | +---+ 最后，我想将table_a中的内容过滤到table_b中的ID中，如下所示： +--+----+ |ID| foo| +--+----+ | 1| bar| | 2| bar| +--+----+ 这就是我想做的 result_table = table

浏览 1提问于2020-10-21得票数 0

回答已采纳

1回答

如何合并或连接spark中列号不相等的数据帧

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我正在做一个使用spark的项目。在某些阶段，我需要在单个数据帧中合并或连接3个数据帧。这些数据帧来自spark sql表，我使用了联合函数，它已经合并了两个表中具有相同编号的列，但我也需要合并不相等的列值。我现在很困惑，有没有办法在pyspark中合并或连接不相等的基于列的数据帧，请指导我

浏览 13提问于2016-09-22得票数 0

2回答

如何检查来自不同数据帧的列值？

python、apache-spark、pyspark、apache-spark-sql

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark来处理这种情况？感谢您的回复。 df[Name].show() Java Oracle .NET df1[Name].show() Oracle Scala .NET python

浏览 37提问于2020-09-03得票数 0

回答已采纳

1回答

如何使用PySpark更新hive表中的记录？

hive、pyspark-sql

我们正在使用spark来处理大型数据，并且最近获得了新的用例，我们需要使用spark更新Hive表中的数据。下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。 EmpNo名称年龄工资 1 aaaa 28 30000 2 bbbb 38 20000 3 cccc 26 25000 4dd 30 32000 需要添加更多的记录到表使用火花。例如： Action EmpNo名称年龄工资加5 Add 30 32000 应用程序可以通过剥离Action列并附加到表中，将新数据读入第二个数据帧(例如df2)。它是笔直的，它

浏览 1提问于2019-03-29得票数 2

1回答

将numpy中的不同数组添加到数据帧的每一行

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name | | ------ | ------ | | 1 | Bob | | 2 | Alice | | 3 | Mike | numpy矩阵是这样的 [[2, 3, 5] [5, 2, 6] [1, 4, 7]] 产生的预期数据帧应该如下所示 | Id | Name | custo

浏览 16提问于2019-10-05得票数 0

1回答

如何匹配ID号以合并两个数据帧

r、pattern-matching

我有两个数据帧，这两个数据帧的列的ID号应该匹配。然而，这两个数据帧的ID数量不同。一个有118个ID，另一个有103个ID。具有118个ID的数据帧有全部103个ID，但有一些额外的ID。我想从118行数据帧中提取两列，并根据ID号将它们与103行数据帧中匹配的ID合并。我不知道解决这个问题的最简单的方法。

浏览 2提问于2019-02-07得票数 3

回答已采纳

1回答

根据PySpark中另一个数据帧的列值更新列中的值

pyspark、intersection、collect

我在PySpark：df1中有两个数据帧 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+ 和df2 +---+-----------------+ |id2| items2| +---+----

浏览 1提问于2018-10-22得票数 0

回答已采纳

2回答

将嵌入到Dataframe中的行RDD转换为列表

python、dataframe、pyspark、rdd

IPYNB 我有如图所示的Dataframe user_recommended。recommendations列是如下所示的PySpark RDD： In[10]: user_recommended.recommendations[0] Out[10]: [Row(item=0, rating=0.005226806737482548), Row(item=23, rating=0.0044402251951396465), Row(item=4, rating=0.004139747936278582)] 我想把Python转换成recommendati

浏览 24提问于2019-03-12得票数 0

1回答

将列有条件地添加到数据帧中

python、apache-spark、dataframe、pyspark、multiple-columns

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

4回答

Pyspark:有没有等同于pandas info()的方法？

python、pandas、apache-spark、pyspark

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

如何使用Pyspark的模式从Pyspark数据帧创建hive表？

python、pyspark

我已经使用以下代码创建了数据框： import pyspark from pyspark.sql import functions as F sc = pyspark.SparkContext() spark = pyspark.sql.SparkSession(sc) data = [('A', 'B', 1), ('A', 'B', 2), ('A', 'C', 1)] columns = ['Column1', 'Col

浏览 12提问于2020-06-15得票数 0

4回答

如何在python dataframe中找到列的最大值

python、dataframe、pyspark

我在pyspark中有一个数据帧。在这个数据框架中，我有一个名为id的列，它是唯一的。现在，我希望在数据帧中找到列id的id值。我试过如下所示 df['id'].max() 但却在错误之下 TypeError: 'Column' object is not callable 请告诉我如何在数据帧中找到列的maximum值。在@Dadep的答案中，链接给出了正确的答案

浏览 3提问于2017-05-11得票数 14

回答已采纳

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

2回答

对于1-2列，多个镶嵌块文件具有不同的数据类型

python、pyspark、schema、parquet

我尝试使用Pyspark将不同的拼图文件读取到一个数据帧中，但它给了我错误，因为多个拼图文件中的一些列具有不同数据类型的列。例如:列"geo“在某些文件中的数据类型为"Double”，在另一些文件中为"String“。我应该如何处理这个问题？我必须在多个拼图文件中手动转换具有不同数据类型的每一列吗？

浏览 12提问于2021-11-22得票数 0

3回答

对子字符串匹配(或包含)加入PySpark数据帧

pyspark

我想在两个数据帧之间执行左连接，但是列并不完全匹配。第一个数据帧中的联接列相对于第二个数据帧有一个额外的后缀。 from pyspark import SparkContext import pyspark.sql.functions as f sc = SparkContext() df1 = sc.parallelize([ ['AB-101-1', 'el1', 1.5], ['ABC-1020-1', 'el2', 1.3], ['AC-1030-1', 'el3'

浏览 1提问于2017-08-08得票数 3

回答已采纳

2回答

pyspark:删除所有行中具有相同值的列

pyspark

相关问题：因此，我有一个pyspark dataframe，我想删除所有行中所有值都相同的列，同时保持其他列的完整性。然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？谢谢

浏览 1提问于2018-12-17得票数 4

6回答

在PySpark中按行合并多个数据帧

python、apache-spark、cross-validation、pyspark

我有10个数据帧pyspark.sql.dataframe.DataFrame，从randomSplit获得作为(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)，现在我想把9 td's加入到一个单一的数据框架中，我应该怎么做？我已经尝试过使用unionAll，但是这个函数只接受两个参数。 td1_2 = td1.unionAll(td2) # this is working fine t

浏览 0提问于2016-04-22得票数 35

回答已采纳

1回答

根据条件将pyspark数据帧拆分成多个数据帧

python、dataframe、apache-spark、pyspark、conditional-statements

我有一个pyspark dataframe，它包含类似下面的数据： id class price place 1 A 10 US 2 B 5 US 3 B 5 MEXICO 4 A -20 CANADA 5 C -15 US 6 C -5 US 7 D 20 MEXICO 8 A 10 CANADA 9 A -30 CANADA 我想找出价格列相对于列'class‘的总

浏览 18提问于2021-01-13得票数 0

回答已采纳

1回答

在应用pandas udf: IndexError后不能使用.toPandas()或.collect()

python、pandas、pyspark、user-defined-functions

我正在使用pandasUDF将标准的ML python库应用于pyspark DataFrame。在定义了模式并进行了预测之后，我得到了pyspark DF作为输出。现在，我想用这个预测数据帧做一些事情，例如，我尝试对列"weekly_forecast_1“中的所有值进行求和。当我应用.collect()或.toPandas()方法时，在.fit()中得到以下错误 IndexError: too many indices for array:array is 0-dimensional, but 1 were indexed 每当我尝试将.collect()或.toPandas()方

浏览 33提问于2020-11-24得票数 0

1回答

使用Pyspark从原始数据帧中删除行子集

python、dataframe、apache-spark、pyspark

浏览 0提问于2021-10-04得票数 0

3回答

从csv文件向现有apache spark数据帧添加数据

python、apache-spark、pyspark、spark-dataframe

我有一个spark dataframe，它有两列: name，age，如下： [Row(name=u'Alice', age=2), Row(name=u'Bob', age=5)] 数据帧是使用以下命令创建的 sqlContext.createDataFrame() 接下来我需要做的是从外部的'csv‘文件中添加第三列'UserId’。外部文件有几列，但我只需要包括第一列，即'UserId'：两个数据源中的记录数相同。我在windows操作系统上使用的是独立的pyspark版本。最终结果应该是一个包含三列的新数据帧:

浏览 9提问于2016-09-16得票数 0

回答已采纳

1回答

制作具有多个y值的ggplot图表

r、ggplot2、geom-col

我有一个2行3列的数据帧。我希望能够绘制所有三列的图表，并且这在geom_col或geom_bar图表中可能是最有意义的。两个图的x轴将保持不变。数据帧具有列a1、b1、b2 我使用这个模板创建了一个图表。希望这些细节能对你有所帮助。 Datafame %>% ggplot(aes(x = a1, y = b1, fill = b1)) + geom_col(position = "dodge", show.legend = FALSE) + theme(axis.text.x = element_text(angle = 90)) + geom_text(a

浏览 2提问于2020-04-22得票数 0

2回答

比较两种不同的pyspark数据帧

pyspark、apache-spark-sql、compare

我目前正在使用一个需要使用pyspark的API环境。这样，我需要在两个数据帧之间执行每日比较，以确定记录是新的、更新的和删除的。以下是两个数据帧的示例： today = spark.createDataFrame([ [1, "Apple", 5000, "A"], [2, "Banana", 4000, "A"], [3, "Orange", 3000, "B"], [4, "Grape", 4500, "C"], [5, "Wat

浏览 24提问于2021-08-27得票数 0

1回答

在pyspark中连接同名的Dataframe

python、apache-spark、pyspark、apache-spark-sql、apache-spark-2.0

我有两个数据帧，它们是从两个csv文件中读取的。 +---+----------+-----------------+ | ID| NUMBER | RECHARGE_AMOUNT| +---+----------+-----------------+ | 1|9090909092| 30| | 2|9090909093| 30| | 3|9090909090| 30| | 4|9090909094| 30| +---+----------+--------------

浏览 1提问于2018-10-03得票数 1

1回答

将多个PySpark DataFrames与MergeSchema合并

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

Pyspark :如何在不同条件下在dataframe中创建列

dataframe、pyspark

我想用两个不同的条件和一个dataframe : df = dataframecol1，col2在Pyspark中创建to列。 col1 =基于df_A::MTAV = df_B::CODE将df_B与df_A：：MTAV连接起来 col2 =基于df_A::MTAP = df_B::CODE将df_B与df_A：：MTAP连接起来如何在数据帧中创建两列？

浏览 1提问于2021-12-20得票数 -1

回答已采纳

1回答

Pyspark:将多类分类结果提取为不同的列

pyspark、apache-spark-sql、apache-spark-mllib、apache-spark-ml

我正在使用RandomForestClassifier对象来解决多类分类问题。预测的输出数据帧将'probability‘列表示为向量： df.select('probability').printSchema() root |-- probability: vector (nullable = true) 每一行都是4的向量： df.select('probability').show(3) +--------------------+ | probability| +--------------------+ |[0.027533

浏览 15提问于2019-10-10得票数 1

回答已采纳

1回答

从同一DataFrame Pyspark的另一列中添加dataFrame中的列

pyspark、spark-dataframe

我有一个Pyspark dataframe df，如下所示： +---+----+---+ | id|name| c| +---+----+---+ | 1| a| 5| | 2| b| 4| | 3| c| 2| | 4| d| 3| | 5| e| 1| +---+----+---+ 我想添加一个列match_name，它的值来自name列的where id == c 是否可以使用函数withColumn()来完成此操作目前，我必须创建两个数据帧，然后执行join。这在大数据集上是低效的。预期输出： +---+----+---+--------

浏览 0提问于2017-11-03得票数 0

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

pandas、apache-spark、dataframe、scikit-learn、pyspark

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的每一行都有了journalID和TFIDF vector。我想将支持向量机应用于所有类型的核，以TFIDF向量作为特征，以JournalID作为标签。由于多类支持向量机不存在于pys

浏览 1提问于2018-12-17得票数 0

1回答

pyspark将数组类型的列拆分成多列

python-3.x、pyspark

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳

3回答

如何删除PySpark数据帧中字符串中的特定字符？

dataframe、apache-spark、pyspark、apache-spark-sql

我想删除列中值的最后两个字符。 PySpark数据帧的值如下所示： 1000.0 1250.0 3000.0 ... 它们应该看起来像这样： 1000 1250 3000 ...

浏览 51提问于2021-02-11得票数 1

回答已采纳

3回答

与另一个dataframe比较

python、dataframe、pyspark、apache-spark-sql

我有两个要比较的数据帧，它们都有相同的列数，比较结果应该有不匹配的字段和ID值。数据一号 +-----+---+--------+ | name| id| City| +-----+---+--------+ | Sam| 3| Toronto| | BALU| 11| YYY| |CLAIR| 7|Montreal| |HELEN| 10| London| |HELEN| 16| Ottawa| +-----+---+--------+ 数据二 +-------------+-----------+-------------+ |Expected_name|Expe

浏览 2提问于2018-08-16得票数 7

回答已采纳

1回答

当我在数据帧中只使用列名的开头部分时，R为什么不抛出一个错误？

r、dataframe、columnname

我有一个包含各种列以及sender_bank_flag的数据框架。我在我的数据框架上运行了以下两个查询。 sum(s_50k_sample$sender_bank_flag, na.rm=TRUE) sum(s_50k_sample$sender_bank, na.rm=TRUE) 尽管我的数据帧中没有sender_bank这样的列，但我从这两个查询中得到了相同的输出。我预期第二段代码会出现错误。不知道R有这样的功能！有谁知道这个功能到底是什么&如何更好地利用它呢？

浏览 1提问于2018-08-28得票数 5

回答已采纳

1回答

如何转换pyspark dataframe列的值？

python、sql、apache-spark、pyspark、data-science

我在pyspark数据框中有一列表示电子设备的年龄，这些值是以毫秒为单位给出的。有没有一种简单的方法将该列的值转换为年份？我不是很精通Spark。编辑:我知道你可以很容易地用基本的数学将毫秒转换为年，我正在尝试获取pyspark数据帧的一列，并迭代它，并将所有列值转换为不同的值。有没有一个特定的pyspark函数可以让这一切变得更容易？我有一个列，其中所有的值都是以毫秒为单位的非常大的整数，我试图根据设备的寿命过滤掉太小或太大而没有意义的值。 table.filter(F.col("age")>0).filter(F.col("age")<year

浏览 17提问于2021-05-20得票数 1

1回答

通过连接比较两个pyspark数据帧

python、dataframe、join、pyspark

我有两个pyspark数据帧，它们的行数不同。我试图通过在多个键上连接这两个数据帧来比较所有列中的值，这样我就可以找到这些列中具有不同值的记录和具有相同值的记录。 #df1: +-------+----------+----------+----------+ |id |age |sex |value +-------+----------+----------+ | 1 | 23 | M | 8.4 | 2 | 4 | M |2 | 3 |16 | F | 4.

浏览 14提问于2021-02-13得票数 0

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。我有16 of的RAM，当我访问前几百个文件时，我一直在耗尽RAM。这些文件的总大小只有300-400MB的数据。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让它们在日期上合并： bigframe = pd.concat(

浏览 14提问于2020-02-17得票数 2

回答已采纳

3回答

PySpark:如何转置数据帧中的多个列

apache-spark、pyspark、apache-spark-sql、pivot、transpose

我是Spark的新手，需要使用PySpark或Spark Sql将以下输入数据帧转置为所需的输出df (从行到列)的帮助。输入数据帧- A B C D 1 2 3 4 10 11 12 13 ...... ........ 所需的输出(转置)数据 A 1 B 2 C 3 D 4 A 11 B 12 C 13 D 14 .... ...... 如果我可以根据我们的要求旋转输入数据(列)，那就更好了。

浏览 1提问于2020-11-27得票数 3

1回答

spark是否异步写入数据帧

apache-spark、pyspark

我有两个spark数据帧df1和df2。我尝试将它们写到两个不同的文件路径。有人能告诉我，写操作是同步进行还是异步进行？这是因为它们是两个不同的数据帧写入两个不同的路径，写入是同时发生，还是必须等到它完成df1写出后才开始写df2？示例代码：更新添加的导入库： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueConte

浏览 15提问于2020-02-17得票数 0

1回答

Pyspark数据框架操作的单元测试用例

python、unit-testing、spark-dataframe、pyspark-sql

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。我希望为它编写单元测试用例。我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

1回答

PySpark动态连接条件

join、dynamic、pyspark、conditional-statements

我有PK列的列表。我在存储主键，因为每个表的主键数可能会发生变化。我想根据pk_list中的列连接两个数据帧。 pk_list=['col1',col2', .... 'coln'] 现在，我的代码如下所示： full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s) in zip(pk_list,pk_list) ) , "leftanti") 当我运行代码时，我会得到以下错误：在join "/mnt/yarn/userc

浏览 0提问于2018-12-07得票数 2

1回答

Pyspark数据帧过滤语法错误

pyspark、pyspark-sql

我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前，我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作，我从多个.JSON文件创建了初始数据帧。此数据框已子集，因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止，我已经尝试了两种不同的方法，使用sqlContext和使用Pyspark方法。 sqlContext方法： df_filtered = sqlContext.sql("SELECT * from df WHERE text LIKE '#abc' OR

浏览 0提问于2017-07-27得票数 0

回答已采纳

2回答

优化PySpark与pandas DataFrames之间的转换

pandas、pyspark、apache-spark-sql、azure-databricks、pyarrow

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

2回答

将列值替换为小于其自身的其他列值的数量

apache-spark、pyspark

假设我有一个包含两列的Pyspark dataframe :ID、salary。数据帧有1亿条记录。我想用排名顺序列替换salary列。列的排名-顺序统计有多少人的工资低于。如何有效地做到这一点例如，给定以下输入数据帧： df = spark.createDataFrame([(1,2000), (2,500), (3,1500)], ['id','salary']) df.show() +---+------+ |

浏览 2提问于2018-06-26得票数 0

2回答

用于获取精度、召回、f1score的混淆矩阵

python-3.x、dataframe、pyspark、pyspark-sql

我有一个数据帧df。我已经对数据帧执行了decisionTree分类算法。这两列是执行算法时的标签和特征。该模型被称为dtc。如何在pyspark中创建混淆矩阵？ dtc = DecisionTreeClassifier(featuresCol = 'features', labelCol = 'label') dtcModel = dtc.fit(train) predictions = dtcModel.transform(test) from pyspark.mllib.linalg import Vectors from pyspark.mllib.re

浏览 0提问于2019-10-16得票数 4

3回答

如何解决"SparkException:在Future.get中抛出异常“问题？

python、pyspark、databricks、azure-databricks

我正在处理两个pyspark数据帧，并对它们进行左反联接，以跟踪日常更改，然后发送电子邮件。我第一次尝试： diff = Table_a.join( Table_b, [Table_a.col1== Table_b.col1, Table_a.col2== Table_b.col2], how='left_anti' ) 预期输出是包含一些数据或不包含任何数据的pyspark数据帧。这个比较数据帧从Table_a获取它的模式。当我第一次运行它时，没有显示模式表示所期望的数据。下一次只抛出SparkException： Exception thro

浏览 0提问于2019-06-22得票数 3

6回答

计算pyspark数据帧上的百分比

apache-spark、pyspark、spark-dataframe

我有一个来自巨型数据的pyspark数据帧，我已经在下面粘贴了一份副本。如何添加包含每个存储桶的百分比的列？谢谢你的帮助！

浏览 1提问于2017-05-15得票数 9

1回答

如何将所有的日期格式转换为日期列的时间戳？

apache-spark、datetime、pyspark、apache-spark-sql

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的格式，但如何转换为正确的时间戳，如果我不知道什么格式的csv文件。我也尝试过下面的代码，但这是在创建一个空值的新列 df1 = df.withColumn('datetime', col('joining_date&#

浏览 16提问于2020-12-30得票数 2

2回答