Pyspark使用2个数据帧中的值和阈值生成段数组

Pyspark是一个用于大规模数据处理的Python库，它提供了丰富的功能和工具来处理和分析大数据集。在Pyspark中，可以使用两个数据帧中的值和阈值生成段数组。

段数组是指将数据划分为不同的段或区间，并将每个数据点分配到相应的段中。生成段数组的过程可以通过以下步骤完成：

导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when

创建SparkSession对象：

spark = SparkSession.builder.getOrCreate()

创建两个数据帧（DataFrame）：

df1 = spark.createDataFrame([(1, 10), (2, 20), (3, 30)], ["id", "value1"])
df2 = spark.createDataFrame([(1, 5), (2, 15), (3, 25)], ["id", "value2"])

将两个数据帧合并为一个新的数据帧：

merged_df = df1.join(df2, "id")

使用阈值和条件表达式生成段数组：

segmented_df = merged_df.withColumn("segment", when(col("value1") > col("value2"), "Segment A").otherwise("Segment B"))

在上述代码中，我们使用join方法将两个数据帧按照"id"列进行合并。然后，使用withColumn方法和条件表达式，根据"value1"和"value2"的值的大小关系，将数据划分为"Segment A"和"Segment B"两个段，并将结果存储在新的列"segment"中。

生成段数组后，可以根据具体的需求进行进一步的分析和处理。例如，可以使用Pyspark的聚合函数对每个段进行统计分析，或者将段数组用于机器学习模型的训练和预测。

腾讯云提供了一系列与大数据处理和分析相关的产品和服务，例如腾讯云数据仓库（TencentDB）、腾讯云数据湖（Tencent Cloud Data Lake）、腾讯云数据计算（Tencent Cloud Data Compute）等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

在pyspark中保持至少有一个元素满足条件的组

、、

我一直在尝试用pyspark重现一些在Pandas中很容易做到的东西，但我现在已经挣扎了一段时间。假设我有以下数据帧： df = pd.DataFrame({'a':[1,2,2,1,1,2], 'b':[12,5,1,19,2,7]}) print(df) a b 0 1 12 1 2 5 2 2 1 3 1 19 4 1 2 5 2 7 和列表 l = [5,1] 我尝试做的是按a进行分组，如果b中的任何元素都在列表中，则为该组中的所有值返回True。然后，我们可以使用结果来索引数据帧。与此相对应的Pandas是：

浏览 8提问于2020-11-04得票数 2

回答已采纳

2回答

以每列为关键字将PySpark数据帧转换为JSON

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]} 因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，但由于数据量非常大，我想直接在PySpark数据

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

PySpark:获取ROC曲线中每个点的阈值(截止值)

、、

我从PySpark开始，构建二进制分类模型(logistic回归)，我需要为我的模型找到最佳阈值(截止点)。我想用ROC曲线来找出这个点，但是我不知道如何提取这条曲线中每个点的阈值。有什么方法可以找到这些价值吗？我发现的事物：显示了如何提取ROC曲线，但只显示了TPR和FPR的值。它对于绘图和选择最优点很有用，但我找不到阈值。我知道我可以使用H2O为ROC曲线中的每一个点找到阈值(我以前做过)，但是我正在研究Pyspark。是一篇文章，描述了如何用R.但是，再一次，我需要用火花呢其他事实我正在使用ApacheSpark2.4.0。我正在处理数据框架(

浏览 10提问于2019-01-29得票数 1

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

4回答

Pyspark:有没有等同于pandas info()的方法？

、、、

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

如何在Spark SQL中优化非equi-join？

、、

我有两个数据帧，我需要使用具有两个连接谓词的非相等连接(即不等式连接)将它们连接在一起。一个数据帧是直方图DataFrame[bin: bigint, lower_bound: double, upper_bound: double] 另一个数据帧是观察值DataFrame[id: bigint, observation: double]的集合我需要确定每个观察值落入直方图的哪个柱状图中，如下所示： observations_df.join(histogram_df, ( (observations_df.observation >= histogram_d

浏览 1提问于2018-10-02得票数 1

2回答

如何将pyspark dataframe列转换为numpy数组

、、、

我正在尝试将一个大约有9000万行的pyspark dataframe列转换成一个numpy数组。我需要数组作为scipy.optimize.minimize函数的输入。我尝试过转换为Pandas和使用collect()，但这些方法非常耗时。我是PySpark的新手，如果有更快更好的方法，请帮助我。谢谢这就是我的数据帧的样子。 +----------+ |Adolescent| +----------+ | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0|

浏览 138提问于2019-09-30得票数 3

回答已采纳

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳

1回答

动态汇总和重命名PySpark中的聚合列

、、、、

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark生成的默认名称。以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col = 'Amount'，'Balance'，'Customer‘-->这是一个不断变化的动态列表

浏览 24提问于2021-09-08得票数 0

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？示例：数据帧1有10列。数据帧2有1列我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

生成暂停帧以测试硬件

、

我已经组装了一个媒体转换器，它从一边的100 fiber以太网和另一边的100 100BASE光纤转换。此转换器进入的应用程序使用全双工/暂停帧流控制来处理数据过载。我已经配置了我的硬件来接受和处理暂停帧。我需要的是一种测试设置的方法，以确保媒体转换器正确地处理暂停帧。为此，我有两个问题..。 ( 1)有没有人有一个很好的方法来测试一块硬件来处理暂停帧？ 2)我的一个想法是通过转换器发送数据。在此过程中，向转换器发送一个已知长度的暂停帧。然后查看设备是否暂停了正确的时间。这个方法看起来可行吗？如果是这样的话，是否有一种简单的方法(软件工具)来生成暂停帧来完成我想要做的事情？这里的任何帮助都将

浏览 0提问于2016-07-06得票数 1

1回答

pyspark中包含空值的行数

、

考虑一个pyspark数据帧，例如 columns = ['id', 'dogs', 'cats'] vals = [(1, 2, 0),(None, 0, 1),(5,None,9)] df=spark.createDataFrame(vals,columns) df.show() +----+----+----+ | id|dogs|cats| +----+----+----+ | 1| 2| 0| |null| 0| 1| | 5|null| 9| +----+----+----+ 我想写一段代码，返回2作为包

浏览 1提问于2018-08-09得票数 0

1回答

当我们不知道数据帧的大小时，我们如何从PySpark中的大量数据中快速采样？

、、

我有两个pyspark数据帧tdf和fdf，其中fdf比tdf大得多。这些数据帧的大小每天都在变化，我不知道它们的大小。我想从fdf中随机挑选数据来组成一个新的数据帧rdf，其中rdf的大小大约等于tdf的大小。目前我有以下几行代码： tdf = tdf.count() fdf = fdf.count() sampling_fraction = float(tdf) / float(fdf) rdf = fdf(sampling_fraction, SEED) 这些行产生正确的结果。但是当fdf的大小增加时，fdf.count()需要几天的时间才能完成。你能推荐另一种在PySpark中更快的

浏览 15提问于2021-01-30得票数 0

回答已采纳

1回答

PySpark dataframe:具有四个或多个非空列的筛选记录

、

我有许多PySpark数据格式，其中两个列中的数据是强制性的，其他列是可选的。强制列包含日期和记录ID；最有价值的数据驻留在可选列中。我试图捕捉可选列中元素之间的连接。数据过滤，预过滤器： id col1 col2 col3 date 123 xyz 20160401 234 abc pqr 20160401 345 def hij klm 20160401 456 20160401 在过滤后，数据文

浏览 3提问于2016-04-03得票数 1

2回答

将结构类型列分解为pyspark中的两列键和值

、、

浏览 11提问于2020-03-14得票数 1

1回答

Objective-C峰值检测加速框架

、、、、

我在这里不是一个数学大师，所以我想问任何熟悉数字信号处理的人，什么是检测实时峰值的最佳方法。我每秒得到大约30帧/值，我已经尝试实现了斜率算法来检测峰值，它工作得很好，大约80%的情况下，但它确实不够好:(。从我搜索的结果来看，人们应该使用快速傅立叶变换，但我不知道如何开始使用它，也许我错过了在这种情况下应该如何使用FFT的一般想法。在iOS中，我们有一个令人惊叹的加速框架，它应该可以帮助我做快速傅立叶变换的事情，但只要我不明白一般的想法，它对我来说几乎是无用的。有人能给我指明正确的方向吗:-)？非常感谢，祝大家新年快乐！

浏览 1提问于2013-01-03得票数 1

1回答

如何在没有直接连接列的两个数据帧之间找到最匹配的行？

、、、、

对于pyspark数据帧中的每一组坐标，我需要在另一个数据帧中找到最接近的一组坐标我有一个包含坐标数据的pyspark dataframe (dataframe a)： +------------------+-------------------+ | latitude_deg| longitude_deg| +------------------+-------------------+ | 40.07080078125| -74.93360137939453| | 38.704022| -

浏览 22提问于2020-07-20得票数 0

2回答

不带聚合或计数的Pyspark groupBy DataFrame

、、

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？例如Pandas中的代码： for i, d in df2: mycode .... ^^ if using pandas ^^ Is there a difference in how to iterate groupby in Pyspark or have to use aggregation and count?

浏览 54提问于2020-01-07得票数 3

回答已采纳

1回答

如何在pyspark中将重复列名的数据帧写入csv文件

、、、

如何在join操作后将具有相同列名的数据帧写入csv文件。目前，我正在使用以下代码。dfFinal.coalesce(1).write.format('com.databricks.spark.csv').save('/home/user/output/',header = 'true')将在“/home/user/output”中写入数据帧"dfFinal“.But它在数据帧包含重复列的情况下不起作用。下面是dfFinal数据帧。 +----------+---+-----------------+---+---------------

浏览 0提问于2018-10-03得票数 6

4回答

在PySpark中对GroupedData应用UDF(带功能python示例)

、、、、

我有一段python代码，它在本地运行在一个pandas数据帧中： df_result = pd.DataFrame(df .groupby('A') .apply(lambda x: myFunction(zip(x.B, x.C), x.name)) 我想在PySpark中运行它，但在处理pyspark.sql.group.GroupedData对象时遇到了问题。我尝试过以下几种方法： sparkDF .groupby('A') .agg(myFun

浏览 1提问于2016-10-13得票数 43

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

2回答

使用pyspark进行加权采样

、、、

我在使用PySpark的spark上有一个不平衡的数据帧。我想对其进行重新采样，使其达到平衡。我只在PySpark中找到了示例函数 sample(withReplacement, fraction, seed=None) 但是我想在Python中用单位体积的权重来采样数据帧，我可以这样做 df.sample(n,Flase,weights=log(unitvolume)) 有没有什么方法可以用PySpark做同样的事情呢？

浏览 2提问于2018-02-01得票数 5

1回答

从PySpark中的复杂列中提取值

、、

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0

2回答

如何使用模糊逻辑从熊猫的数据帧中匹配和提取文本？

、

我有两个数据帧，如下: DF1： Name Value buying fish hook 240 arrange lunch 75 repair equipment 800 purchase air condition 1400 buying fish 66 DF 2： Name fish lunch equipemt air condition hair condition fish hook 我想用模糊逻辑匹配来自两个数据帧的名称列中的名称，并将第二个数据帧中的名称列

浏览 1提问于2018-07-05得票数 3

2回答

电子病历笔记本-会话未处于活动状态

、、、

我正在使用EMR笔记本和pyspark和livy。我从s3中读取数据，数据格式为拼图和字符串，并将其读入pyspark数据帧。大约有几个。200万行。当我执行连接操作时。我收到400会话处于非活动状态。为此，我已经将livy超时设置为5小时。遇到错误:来自的无效状态代码'400‘，负载错误：“要求失败:会话未处于活动状态。”

浏览 1提问于2019-08-19得票数 1

1回答

将连续信号转换为二进制信号的算法

、、

我在脑海中有一个很好的项目，由于缺乏时间，我可能不会去做，但我在那里遇到了一些理论问题，这些问题仍然困扰着我，你可能也会感兴趣。我有一个来自动物的数据，它以离散的方式移动。它移动了几帧，然后停止了几帧，然后继续前进。我有动物尾巴尖端每一帧之间的距离。例如，如果我们有5帧，我有一个长度为4的列表，第一个值是第一帧中尾部尖端到第二帧中尾部尖端之间的欧几里得距离，第二个值是第二帧和第三帧之间的距离，依此类推。我相信当动物移动时，距离比它停留在原地更远(没有狗摇尾巴的影响)，我有一个假设，一次移动，两轮之间的间隔比一帧更长。当然，运动单位是不相关的。有了这个信号，我想告诉你动物是在哪一帧中运

浏览 29提问于2020-08-26得票数 0

2回答

使用列表中的随机值在Pyspark中创建数据帧

、、、、

我需要将此代码转换为PySpark等效项。我不能使用pandas来创建数据帧。这是我使用Pandas创建数据帧的方式： df['Name'] = np.random.choice(["Alex","James","Michael","Peter","Harry"], size=3) df['ID'] = np.random.randint(1, 10, 3) df['Fruit'] = np.random.choice(["Apple","

浏览 65提问于2021-11-09得票数 1

回答已采纳

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

2回答

如何在Pyspark中优化我的Reduce函数

我正在尝试创建数据帧中的键之间的映射。我在pyspark数据帧中有一列R_ID、V1、V2、V3列。我需要输出数据帧来提供这些列之间的映射。我的结果应该是我已经使用Reduce做到了这一点，但是我在测试大数据时遇到了性能问题。有人能帮我一下吗？

浏览 0提问于2021-10-28得票数 0

2回答

如何检查来自不同数据帧的列值？

、、、

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark来处理这种情况？感谢您的回复。 df[Name].show() Java Oracle .NET df1[Name].show() Oracle Scala .NET python

浏览 37提问于2020-09-03得票数 0

回答已采纳

3回答

带有条件值的数据帧的r下标

、、

这看起来很简单，但它让我忙碌了一段时间。我有一个具有n列的dataframe (df)和一个具有相同数量(n)值的向量。矢量中的值是数据帧中列中观测值的阈值。因此，线索是，如何告诉R对每一列使用不同的阈值？我希望在数据框中保留满足每列的各种阈值的所有观察值(在示例中，高于或低于该阈值都无关紧要)。不满足阈值标准的观测值应设置为0。我不想要数据帧的子集。有人能帮上忙吗？在此之前非常感谢。

浏览 1提问于2012-06-05得票数 2

回答已采纳

2回答

IllegalArgumentException:列的类型必须为struct<type:tinyint，大小为:int、indices:array<int>、values:array<double>>，但实际为双精度。‘

、、

我有一个包含多个分类列的数据帧。我正在尝试使用两列之间的内置函数来查找菱形统计数据： from pyspark.ml.stat import ChiSquareTest r = ChiSquareTest.test(df, 'feature1', 'feature2') 但是，它给出了一个错误： IllegalArgumentException: 'requirement failed: Column feature1 must be of type struct<type:tinyint,size:int,indices:array<in

浏览 1提问于2020-04-06得票数 8

回答已采纳

1回答

在spark数据帧中插入记录

、

我在pyspark有一个数据帧。这是它看起来的样子， +---------+---------+ |timestamp| price | +---------+---------+ |670098928| 50 | |670098930| 53 | |670098934| 55 | +---------+---------+ 我想用之前的状态来填补时间戳中的空白，这样我就可以得到一个完美的集合来计算时间加权平均值。下面是输出应该是什么样子- +---------+---------+ |timestamp| price | +---------+-----

浏览 4提问于2016-08-18得票数 2

7回答

将PySpark数据框列聚合值存储到变量中

、

我在这里使用PySpark数据帧。"test1“是我的PySpark数据帧和事件 _ date是一个TimestampType。因此，当我尝试获取事件的不同计数时 _ date，结果是一个整数变量，但是当我尝试获取同一列的max时，结果是一个dataframe。我想了解哪些操作会导致数据帧和变量。我还想知道如何将事件日期的最大值存储为变量生成整数类型的代码： loop_cnt=test1.select('event_date').distinct().count() type(loop_cnt) 生成数据帧类型的代码： last_processed_dt=test1

浏览 147提问于2016-05-03得票数 5

回答已采纳

1回答

基于Python Pandas中的多个查找表创建新列

、

我有一个大型的熊猫数据帧(df_orig)和几个与df_orig中的每个段相对应的查询表(也是数据帧)。下面是df_orig的一个小子集 segment score1 score2 B3 0 700 B1 0 120 B1 400 950 B1 100 220 B1 200 320 B1 650 340 B5 300 400 B5 0 320 B1 0 240 B1 100 360 B1

浏览 36提问于2016-10-13得票数 2

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

、、、、

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * z=pd.read_csv("mydata.csv", dtype=str) z.info() <class 'pandas.core.frame.DataFrame'>

浏览 6提问于2016-08-06得票数 33

回答已采纳

1回答

PYSpark数据帧架构显示每个列的字符串。

、、

我正在从下面的代码段读取CSV文件。 df_pyspark = spark.read.csv("sample_data.csv") df_pyspark 当我试图打印数据帧时，它的输出如下所示： DataFrame[_c0: string, _c1: string, _c2: string, _c3: string, _c4: string, _c5: string] 对于每一列，dataType都显示“String”，尽管列包含不同的数据类型，如下所示： df_pyspark.show() |_c0| _c1| _c2|

浏览 5提问于2022-11-02得票数 1

回答已采纳

2回答

使用spark连接器从snowflake自定义数据类型映射

、、、

使用snowflake spark连接器从snowflake复制表时，默认行为是将结构化数据映射到spark字符串：https://docs.snowflake.net/manuals/user-guide/spark-connector-use.html#from-snowflake-to-spark-sql 例如，给定snowflake中的一个表： create table schema.table as select array_construct('1','a') as array_col, object_construct(

浏览 26提问于2019-05-30得票数 1

1回答

如何在Pyspark中获取数组类型中的最大重复值？

、、、

我有一个如下所示的pyspark数据框： columns = ["id","values"] data = [("sample1", ["a","b","a"]), ("sample2", ["b","b","a","c"])] dataframe = spark.sparkContext.parallelize(data) 来源 +-------+--------------------+ | id|

浏览 27提问于2021-11-19得票数 0

回答已采纳

1回答

如何在pyspark dataframe中不聚合地分组

、、、、

我有一个非常庞大的数据集，我需要使用pyspark dataframe。请参考数据的简化版本： product_type series_no product_amount date 514 111 20 2020/01/01 (YYYY/MM/DD) 514 111 30 2020/01/02 514 111 40 2020/01/03 514

浏览 30提问于2021-01-23得票数 0

回答已采纳

1回答

pyspark从数据帧到每次执行迭代N行

、、、

def fun_1(csv): # returns int[] of length = Number of New Lines in String csv def fun_2(csv): # My WorkArround to Pass one CSV Line at One Time return fun_1(csv)[0] 输入数据帧为df +----+----+-----+ |col1|col2|CSVs | +----+----+-----+ | 1| a|2,0,1| | 2| b|2,0,2| | 3| c|2,0,3| | 4|

浏览 0提问于2020-09-17得票数 2

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

SolvePNP在一段时间后返回坏的rvec和tvec

、、、

我正试图从KITTI数据集中使用立体相机对来估计摄像机的轨迹。该程序在某个时候使用cv::SolvePNP()，对于最初的1500帧，它返回相当好的结果，但在那之后它就完全疯狂了。以下是我目前正在做的事情：加载2帧，将它们称为P和Q(一个帧是从立体对左和右图片) 使用SIFT/SURF/ORB获得特性(尝试了所有这些) 匹配P中的特征，P.left与Q.left匹配基于匹配，我筛选出不存在于匹配中的关键点。我对框架P上的点进行三角剖分(注意，我已经拥有KITTI数据集提供的相机矩阵) 我将点从齐次转换而来现在，我正在尝试实现我自己的RANSAC，它将使

浏览 3提问于2019-08-14得票数 2

回答已采纳

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_1： Table_2：期望的结果：从本质上讲，我知道SQL查询可以做spark.sql(“查询”)等任何事情。我尝试了几种在spark环境下不起作用的方法。谢谢!

浏览 1提问于2020-08-08得票数 2

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

2回答

用于获取精度、召回、f1score的混淆矩阵

、、、

我有一个数据帧df。我已经对数据帧执行了decisionTree分类算法。这两列是执行算法时的标签和特征。该模型被称为dtc。如何在pyspark中创建混淆矩阵？ dtc = DecisionTreeClassifier(featuresCol = 'features', labelCol = 'label') dtcModel = dtc.fit(train) predictions = dtcModel.transform(test) from pyspark.mllib.linalg import Vectors from pyspark.mllib.re

浏览 0提问于2019-10-16得票数 4

1回答

pyspark查找数据帧中超出范围的值

、

我在pyspark里有两个数据帧。我正在尝试将一个数据帧与另一个数据帧进行比较，以查看值是否在范围内。下面是一个数据帧的例子。 Dataframe df： Dataframe dfcompare：我正在寻找的输出：我目前拥有的代码如下： def cal_OTRC(spark_df): compare = df.compare.fillna(0) df = spark_df.agg(*(F.count(F.when((F.col(c) > compare.astype(int).values.tolist()[0]) | (F.col(c) &l

浏览 0提问于2021-03-28得票数 1

1回答

从稀疏数据集中删除列和行

、

我有一个包含许多空值的稀疏Pandas数据帧，我希望对其进行过滤，以便在最终数据集中只保留具有超过10个浮点型条目的行和列。我尝试使用现有的代码片段，但似乎不起作用： df.drop([col for col, val = df.count(axis=1, numeric_only='float') if val < 10], axis=1, inplace=True) 谁能告诉我在我的数据帧中删除稀疏列的最好方法是什么？

浏览 16提问于2020-06-29得票数 3

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

、、、

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----+ |Name | +-----+ | a| | b| | c| +-----+ Dataframe B:共3条记录 +-----+ |Zip | +-----+ |06905| |06901| |06902| +-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从Dataframe B中随机选择的值填充这些值。因此，Dataframe A将如下所示： +-----+-----+ |Name |Zip | +-----+-----+ |

浏览 12提问于2021-02-10得票数 2

回答已采纳