有没有类似的方法在pyspark中复制熊猫的"qcut“功能？

、、、、

我想在pyspark中做KS测试，以获得预测的概率和真实的标签。链接中的熊猫也做了类似的工作：

浏览 38提问于2020-05-19得票数 0

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

、、、

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。我们就可以看到结果test.show() 有没有办法向现有的dataframe添加一个新的列(不复制dataframe)？我们只有一个选择(熊猫中的inp

浏览 4提问于2021-01-26得票数 0

1回答

星星之火与熊猫对战

、

我对pySpark非常陌生，但我对火花数据采集(例如，由RDD创建)和一只在星火中的熊猫之间的区别感到困惑。核心的区别是什么，如果有的话？(我知道，与熊猫在星星之火中工作，你可以在分布式的Dataframe上使用Pandas的几乎相同的语法，但我想知道是否只有这一个才是不同的<

浏览 2提问于2022-02-04得票数 6

1回答

Databricks spark dataframe按列创建数据框

、

在熊猫中，我可以做这样的事情。在pyspark中有没有类似的方法来创建spark数据帧？

浏览 1提问于2021-11-02得票数 0

1回答

在groupby中使用pandas.qcut，每个键具有不同数量的类

、

我在groupby.transform()例程中使用pd.qcut面对着一堵墙。我想根据groupby中年龄变量的分位数(按某个键)分配一个类号。所以我想用像这样的东西 df['class'] = df.groupby('key')['AGE'].transform(pd.qcut, number_of_classes) 我的问题是，根据变量‘number_of_classes’的不同，“键

浏览 24提问于2021-04-09得票数 1

回答已采纳

2回答

有没有办法在pyspark中根据索引对数据帧进行切片？

、、

在python或R中，可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式来根据行的位置对数据进行切片？

浏览 3提问于2018-10-13得票数 4

回答已采纳

2回答

如何在Pyspark中使用Scala类

、、、、

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { import sqlCont

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

熊猫如何决定垃圾桶边？

、

我有熊猫的数据，我想保存连续的值。25.00000075% 53.000000Name: abc, dtype: float64print(a["abc

浏览 0提问于2021-11-05得票数 1

回答已采纳

1回答

qcut在pandas中是一个很棒的功能。但在正常的机器学习情况下，我们通常需要将数据拆分成训练数据和测试数据。让我举一个例子：我有一个包含7个数据的数据集。In [5]: pd.qcut([1,4,3,2,5,3,4], 3, labels=False) Out[5]: array([0, 1, 0, 0, 2, 0, 1]) 但是我想要的只是基于前5个元素的qcut。因此，前5个标签应该是

浏览 15提问于2021-01-31得票数 0

回答已采纳

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释的那样，熊猫身上也有类似的东西。在P

浏览 7提问于2016-06-07得票数 29

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化，但它并不将dataframe转换为串联，因为我的dataframe有多个列。有没有办法将<

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

Orange3汇总数据，分组数据值

、、、、

在orange3中是否有一种简单的方法(不是编写Python )来总结数据和分组类似的数据值？有没有类似的小部件/功能，我正在忽略橙色？

浏览 0提问于2017-09-18得票数 1

2回答

星火DataFrame方法“`toPandas`”实际上在做什么？

、、、

我使用此代码加载csv选项卡，并将其分隔到中。for fname in fnames])假设我使用新文件创建了DataFrame，并使用内置方法toPandas()将其转换为熊猫，我可以把它转换成toPandas，然后用它来完成，而不

浏览 2提问于2015-03-24得票数 49

回答已采纳

1回答

如何用SFrame中的中间值或模式替换缺失的值？

、、

我正在阅读Graphlab文档，并试图弄清楚如何复制熊猫的功能，如果na值被中间值、平均值或模式等所取代……在熊猫中，您只需这样做:df.dropna()、.median()或df.dropna()、.但是，关于SFrame的下拉和填充函数的文档没有提到任何类似的内容。在SFrame中有可能吗？

浏览 2提问于2016-09-07得票数 2

回答已采纳

1回答

如何将熊猫嵌套列复制到另一个DF中？

、、、

我们在一个具有嵌套结构的Delta源中有一些数据。在我们的转换中，我们目前在使用PySpark中读取了Delta文件，将DF转换为使用df.toPandas()的熊猫，并使用熊猫API对此熊猫DF进行操作。我们希望能够做这样的事情： not inventory_df["sta

浏览 1提问于2022-04-18得票数 1

回答已采纳

1回答

如何在更新BigQuery表时运行一些代码？

、、、

有没有办法在更新BigQuery表时运行一些PySpark代码？每当使用Cloud Functions将文件上传到Google Cloud Storage时，我都会运行一些类似的东西，但我在BigQuery文档中找不到任何提供类似功能的东西。非常感谢您的帮助，谢谢！

浏览 9提问于2019-06-25得票数 0

2回答

将类成员复制到其他类中- eclipse

、、、

当您需要将某些类功能移到另一个类中时，可以很容易地通过引用某个公共变量(Ctrl+Shift+G)搜索相应的方法，然后使用Eclipse的重构功能" move“，它允许将选定的方法移动到其他类中但也可能发生需要复制方法的情况。例如，如果在其他类中需要非常相似的</e

浏览 1提问于2013-04-19得票数 3

回答已采纳

1回答

数据库从存储库中的python库导入/复制数据

、、、、

在尝试使用databricks的新repo功能实现解决方案时，我面临着一个小小的挑战。我在一个需要能够使用python和pyspark代码的interdisziplinairy项目中工作。python团队已经构建了一些库，这些库现在也希望被pyspark团队使用(例如预处理等)。我们认为使用新的repo功能将是一个很好的折衷方案，可以轻松地进行协作。问题是，在databricks中

浏览 0提问于2021-04-30得票数 2

1回答

使用pyspark从Hadoop中删除文件(查询)

、、、、

我使用Hadoop来存储我的数据-对于一些数据我使用分区，对于一些数据我不使用分区。我使用pyspark DataFrame类以parquet格式保存数据，如下所示： df = sql_context.read.parquet('/some_path') df.write.mode("append").parquet(parquet_path) 我想写一个删除旧数据的脚本，使用类似的方式(我需要在数据框上使用过滤来查询这个旧数据)与pyspark<

浏览 2提问于2019-04-14得票数 2

回答已采纳

2回答

在PySpark* DataFrame中使用数据哈德*

、、、、

我想绘制200 Gb的。我设法用datashader绘制/可视化了熊猫的数据。但是，我没有设法使用PySpark数据RAM (使用一个4节点集群，每个集群有8Gb内存)来完成它。不过，我可以做的是使用.toPandas()方法将PySpark数据into转换为Pandas数据into。但是这将在驱动节点上加载整个RAM中的数据(该节点没有足够的RAM来适应整个数据集)，因此不能利用Spark的</e

浏览 3提问于2017-09-03得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在pyspark的现有dataframe中添加新列的方法是什么？

星星之火与熊猫对战

Databricks spark dataframe按列创建数据框

在groupby中使用pandas.qcut，每个键具有不同数量的类

有没有办法在pyspark中根据索引对数据帧进行切片？

如何在Pyspark中使用Scala类

熊猫如何决定垃圾桶边？

如何使用qcut通过训练数据的值来标记所有数据？

火花放电中柱的比较

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

Orange3汇总数据，分组数据值

星火DataFrame方法“`toPandas`”实际上在做什么？

如何用SFrame中的中间值或模式替换缺失的值？

如何将熊猫嵌套列复制到另一个DF中？

如何在更新BigQuery表时运行一些代码？

将类成员复制到其他类中- eclipse

数据库从存储库中的python库导入/复制数据

使用pyspark从Hadoop中删除文件(查询)

在PySpark* DataFrame中使用数据哈德*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐