PySpark中pandas.cut()的等价物是什么？_iOS中"OnUserInteraction“的等价物是什么？_EmguCV中drawMarker的等价物是什么？ - 腾讯云开发者社区

python、pandas、apache-spark、pyspark

pandas.cut()用于将值绑定到离散的间隔中。0.587, 0.781)] Categories (3, interval[float64]): [[0.2, 0.393) < [0.393, 0.587) < [0.587, 0.781)] 如何在PySpark中实现相同的功能？我看过QuantileDiscretizer，但它绝对不是pd.cut()的等价物，因为它不返回间隔。

浏览 37提问于2021-05-06得票数 2

回答已采纳

3回答

如何在PySpark中绑定？

apache-spark、pyspark

age_bins = [0, 6, 18, 60, np.Inf]我会在pandas中使用pandas.cut如何在PySpark中执行此操作

浏览 0提问于2017-09-15得票数 33

回答已采纳

1回答

在函数中等价于pyspark

sql、pyspark、apache-spark-sql

pyspark中col1 in ('a','b','c')的等价物是什么？我试过下面的方法，但似乎不起作用 col1.isin.(['a','b','c']

浏览 15提问于2021-07-21得票数 0

回答已采纳

9回答

类Pyspark数据帧运算符

pyspark、spark-dataframe

在Pyspark中，LIKE运算符的等价物是什么？例如，我想这样做：寻找像这样简单的东西(但这不起作用)： df.select('column

浏览 0提问于2016-10-24得票数 33

1回答

使用PySpark绑定数值列

python、pandas、apache-spark、pyspark、apache-spark-sql

我有一个PySpark DataFrame df，它有一个数值列(带有NaN) +-------++-------+| || 79.3|+-------+ 我想创建一个新列，它定义了一些bin，例如0, (0, 500], (500, 1000], (1000, inf) 有没有办法使用像pandas.cut这样的函数来实现这一点呢？目前，我使用PySpark完成此操作的方式是定义一个如下所

浏览 9提问于2021-01-29得票数 2

1回答

如何在pyspark dataframe中获取列的唯一值并存储为新列

python、pandas、pyspark

基本上，我想知道某个客户在其他数据集中购买了多少品牌，并将其重命名为change brand，以下是我在Pandas中所做的 firstvalue=firstvalue.merge((pd.DataFramehpbrand_change_num')) .reset_index()),how='left',on=['msisdn']) 下面是我在pyspark中所做的(没有合并) fd_subsprofile.

浏览 76提问于2021-08-30得票数 0

回答已采纳

3回答

Spark计数包含特定单词的行数

apache-spark、pyspark

我有一个日志文件，其中有包含单词"error“的行。如何计算apache spark中包含此术语的总行数？lines = spark.textFile(&quo

浏览 1提问于2017-07-13得票数 0

回答已采纳

1回答

在使用pandas.cut时，有没有办法舍入你的结果？

python、pandas

我使用的是pandas.cut。我希望修改我的代码，使pandas.cut产生的边界是整数。下面是我当前的代码： for (ColumnName, columnData) in df.iteritems(): df[ColumnName+'_binned']=pd.cut(df[ColumnName改变我当前代码的最好方法是什么？这个是可能的吗？提前谢谢你。

浏览 11提问于2020-12-04得票数 1

1回答

在pyspark中创建列的数组

python、apache-spark、pyspark、apache-spark-sql

我有一个单行多列的数据帧。我希望它能将其转换为多行。我在stackoverflow上发现了一个类似的问题。import org.apache.spark.sql.Column var ColumnsAndValues: Array[Column] = df.columns.flatMap

浏览 18提问于2021-03-11得票数 0

回答已采纳

1回答

Pyspark相当于Pyodbc？

python、sql-server、apache-spark、pyspark、pyodbc

我目前有以下Python代码，可以将本地SQL Server数据库中的表读入Pandas：import pyodbc server中做同样的事情。在Pyspark中，此代码的等价物是什么？我尝试过以下几种方法：import osfr

浏览 0提问于2017-11-28得票数 3

1回答

在PySpark中写入增量表时如何使用Zorder集群？

apache-spark、pyspark、apache-spark-sql、databricks

databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中看到的建议，我正在尝试编写一个非常大的PySpark数据帧然而，这个页面使用Scala显示建议，我不知道如何将其转换为PySpark 我看到Scala代码是这样的： spark.read.table(connRandomsaveAsTable(connZorde

浏览 4提问于2019-01-08得票数 2

回答已采纳

1回答

基本的Pyspark问题-- If Else等价

select、pyspark

嗨，非常基本的问题，但我是Pyspark的新手。我希望我的函数根据输入参数返回不同的列，但我不知道如何做到这一点。Python的等价物是： if model='a': return df[[colA,colB]] if model ='b': return df[[colA,colB,colC]] 提前感谢

浏览 31提问于2021-10-01得票数 0

回答已采纳

1回答

如何在dask中有效地使用pandas.cut() (或等效)？

python、pandas、dask

在Dask中是否存在与pandas.cut()等价的内容？我尝试用Python对大型数据集进行装箱和分组。它是一个被测量的电子与性质(positionX，positionY，能量，时间)的列表。groupby方法工作得很好，但不幸的是，当我试图将数据存储在能量中时，我遇到了困难。我找到了一个使用pandas.cut()的解决方案，但它需要调用原始数据集上的compute() (将其本质上转换为非并行代码)。在das

浏览 4提问于2017-02-24得票数 13

回答已采纳

1回答

我正在尝试将python代码转换为pyspark，但遇到错误，因为'Row‘对象不支持项赋值

python、dataframe、pyspark

我正在尝试下面的python代码来转换为pyspark。请告诉我pyspark版本的代码出了什么问题：原始python版本：- for i in range(0,km_data.count()): km_data['riskrisk'].iloc[i]=km_data['risk'].iloc[i-1]-(km_data['lapsed'].iloc[i-1])-(km_data['censored'].iloc[i]) 使

浏览 12提问于2020-07-08得票数 0

1回答

PySpark中的分层交叉验证

pyspark、apache-spark-ml

我正在使用python中的Apache Spark API，PySpark (--version 3.0.0)，理想情况下，我希望以分层的方式执行标记数据的交叉验证，因为我的数据非常不平衡！from pyspark.ml.tuning import CrossValidator 在scikit-learn中，这可以通过定义一个StratifiedKFold并将其放在任何网格搜索函数的cv参数中来实现这确保了训练给定估

浏览 23提问于2020-09-01得票数 1

1回答

PySpark旋转，以列形式输出

python、pyspark

我有一个24小时内股票交易的PySpark数据框架。列包括:日期、时间名称、VOL、成本。(同样，日期有些多余，因为所有事务都发生在同一天。我想要以下列: NAME、DATE、HOUR、VOL，其中每一行表示一个股票代码，例如AAPL，VOL表示该股票在该小时内的交易次数。在excel中，我认为使用数据透视表可以很容易地解决这个问题。PySpark的等价物是什么？以下是我的数据框中的一个示例，用于

浏览 8提问于2019-10-26得票数 0

1回答

Python2.7--用相同的项目数(以类似于pandas.cut()的方式)将一个系列分成若干个区间

python、pandas、python-2.7、split、series

7 151.09 313.011 113.0如果我在这上面使用pandas.cut313.0 (306.1, 608.2]11 113.0 (0.979, 306.1]pandas.cut如果我使用pandas.cut()，我会得到相同长度的间隔，但是如何将这个系列划分

浏览 0提问于2018-12-09得票数 1

回答已采纳

1回答

在Pyspark中插入Null时间戳值

python、pyspark

我正在将一些python代码翻译成Pyspark。我正在尝试将空值放在startdate = next start的位置。我使用的是以下代码： addmaxdate = addmaxdate.withColumn('next_start', F.when(F.col('startdate') == F.col('next_start'), F.col('next_start').isNull).otherwise(F.col('next_st

浏览 33提问于2020-12-08得票数 0

2回答

Oracle重写为PySpark。如果为null - update，否则-插入

python、apache-spark、pyspark、pyspark-dataframes、sql-merge

这是我的桌子：在Oracle SQL中，我可以这样做： USING new_data n在PySpark中有同样的方法吗？这将生成数据文件：from pyspark.sql import SparkSession from pyspark.sql import functions as F中，几乎包含了SQL<e

浏览 6提问于2021-02-11得票数 1

回答已采纳

1回答

Pyspark等同于pandas的所有函数

python、pandas、apache-spark、pyspark、apache-spark-sql

True True None True None True NaN True True 在pyspark中，有没有一种方法可以根据A，B，C，D行获得第五列，这些行中没有值false，但返回一个int值，或者1表示True，0表示False。None 1 True NaN True True 1 这可以通过df.all().astype(int)函数在p

浏览 22提问于2020-12-16得票数 0

回答已采纳

点击加载更多