如何在PySpark的Pandas中使用iloc获得相同的结果？_如何在laravel中使用相同的输入多次获得相同的结果？_如何在javascript中使用集合并获得相同的结果 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql

在Pandas dataframe中，我可以使用data.iloc[1:1000,:]获取前1000行。如何在PySpark中做到这一点？

浏览 24提问于2021-01-11得票数 1

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

pandas、pyspark

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

在pyspark上运行python库的速度会加快吗？

apache-spark、dataframe、pyspark

当我运行python库如pandas或scikit learn时，我试着通读并理解spark中的加速是从哪里来的，但我没有看到任何特别有用的东西。如果我可以在不使用pyspark数据帧的情况下获得相同的加速比，我可以只使用pandas部署代码，它的性能大致相同吗？我想我的问题是：如果我有可用

浏览 2提问于2018-06-22得票数 0

1回答

我正在尝试将python代码转换为pyspark，但遇到错误，因为'Row‘对象不支持项赋值

python、dataframe、pyspark

我正在尝试下面的python代码来转换为pyspark。请告诉我pyspark版本的代码出了什么问题：原始python版本：- for i in range(0,km_data.count()): km_data['riskkm_data['lapsed'].iloc[i-1])-(km_data['censored'].iloc[i]) 使用的Pyspark版本：

浏览 12提问于2020-07-08得票数 0

1回答

用火花放电写自定义的联非新议程

python、pandas、pyspark、user-defined-functions

我需要编写一个自定义的pySpark，我遇到了这个例子。在类似的行中，如线程的最后一部分所示，我提出了以下函数 StructField("key(schema, functionType=PandasUDFType.GROUPED_MAP) gr = df['key'].iloc[0]

浏览 1提问于2019-04-04得票数 1

1回答

无法在数据库中使用Pandas

python、pandas、apache-spark、pyspark、databricks

我必须运行一个以几个参数作为输入并返回一些结果作为输出的脚本，所以首先我在本地机器中开发了它--工作正常--现在我的目标是在Databricks中运行它，以便并行化它。我从已经挂载的Datalake中获取数据(问题不在那里，因为在读取DataFrame之后我能够打印它)，将其转换为Spark，并将每一行传递给按材料分组的主要函数： import pandas as pdpyspark.sql.functions im

浏览 4提问于2021-04-16得票数 0

回答已采纳

1回答

如何在postgres中获得用于分区之上的postgres命令'nth_value‘？

python、sql、postgresql、pyspark、hive

我正在解决这个例子： ) as imagined_weight

浏览 0提问于2020-07-21得票数 0

回答已采纳

2回答

熊猫群+在栏上应用的火花放电当量

dataframe、group-by、pyspark

我有一个星星之火DataFrame，我想在groupby之后为一个变量计算唯一值的数量。在熊猫中，我可以从以下网址获得：df.groupby('UserName').apply(lambda x: x['Server'].nunique()) 如果df是一个pyspark，我如何才能得到相同的结果

浏览 4提问于2017-11-08得票数 4

回答已采纳

1回答

无法理解iloc用于反转所有行和反转所有列的语法。

python、pandas、dataframe

我无法理解用于逆转Pandas中所有行和所有列的语法。2.Reversing all columns : df.iloc[:,::-1] 在一个相关的注意事项上，将如何同时逆转行和列？

浏览 5提问于2020-04-04得票数 1

回答已采纳

1回答

如何在中获得postgres命令'nth_value‘的等效命令？

python、postgresql、apache-spark、pyspark、window-functions

我正在解决这个例子：所有大于4的重量被指定为第4最小的重量前三最轻的重量被赋值99.9

浏览 5提问于2020-07-21得票数 1

回答已采纳

4回答

在PySpark中对GroupedData应用UDF(带功能python示例)

python、apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有一段python代码，它在本地运行在一个pandas数据帧中： .groupby('A').apply(lambda x: myFunction(zip(x.B, x.C), x.name)) .agg(myFunction(zip(

浏览 1提问于2016-10-13得票数 43

4回答

Pandas：.ix的替代品

python、pandas、indexing

考虑到pandas 0.20.0和deprecation of 的更新，我想知道使用剩余的.loc和.iloc获得相同结果的最有效方法是什么。我刚刚回答了this question，但是第二种选择(不使用.ix)似乎低效且冗长。代码片段： print df.iloc[df.loc[df['cap'].astype(float) > 35].index, :-1] 当同时<e

浏览 75提问于2017-05-08得票数 17

回答已采纳

2回答

火花放电drop_duplicates(keep=False)

python、pandas、pyspark、duplicates

我需要一个用于潘达斯 drop_duplicates(keep=False)的解决方案。不幸的是，keep=False选项无法在pyspark中使用..。Pandas示例： 'B': [3, 3, 5],df.drop_duplicates(subse

浏览 1提问于2019-01-09得票数 1

回答已采纳

1回答

Spark在Scala中打印我的DataFrame形状

python、pandas、scala、apache-spark

Pandas中有一个函数可以计算我的DataFrame的形状，最终结果如下 [total number of rows, total number of columns] 我可以在PySpark中使用以下函数来获得我的DataFrame的形状： print((df.count(), len(df.columns))) 我如何在Scala中做同样的事情？对于更大的数

浏览 111提问于2021-11-06得票数 1

回答已采纳

1回答

Pandas和Pandas被证明可以一起工作吗？

python、pandas、apache-spark、pyspark、apache-spark-sql

我面临许多问题，集成/添加Pandas现有代码的Pandas代码。2)如果我选择使用Pandas和pandas在同一代码中处理不同的数据集，当通过map调用的函数包含任何熊猫数据时，Pyspark转换(如map)似乎根本不起作用。我在Python中已有使用熊猫和numpy的代码，并且在一台机器上工作得很好。我最初试图将整个代码转换为<e

浏览 2提问于2017-12-26得票数 6

1回答

为什么在dataframe.iloc()中使用“：”会给出不同大小的值？

pandas、matrix、vector、size

在Python3 with pandas中，有如下所示的csv格式数据集YearsExperience,Salary1.3,46205.001.5,37731.00 但是，我在使用iloc方法时意识到，如果我像下面这样使用: (比如Case 1)，尽管结果是相同的，但是Size的表示方式是不同的。import pandas</em

浏览 0提问于2019-02-23得票数 0

1回答

如何将索引转换为PySpark* DataFrame？*

python、indexing、pyspark、databricks

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用<

浏览 2提问于2019-08-20得票数 1

回答已采纳

1回答

使用PySpark从Blob存储容器加载CSV文件

csv、apache-spark、pyspark、azure-blob-storage

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题的答案，但我还没有找到关于我想要做什么的具体说明。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码

浏览 21提问于2019-04-28得票数 0

1回答

将panda列中的json字符串值提取到具有第一级动态键的新列中

python、json、pandas、dataframe

第四列(data)是需要提取的列。第一级中的键(605,254,834,265等)总是在变化，但数字始终与最后一列('reg')中的数字相同。我想提取“价格”、“状态”和“#结果”的值，并将它们放入新列中。我使用的代码是 import pandas as pdimport json from pandas

浏览 20提问于2019-12-20得票数 2

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

python、python-2.7、apache-spark、pyspark

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中<

浏览 34提问于2017-03-01得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云