在pyspark dataframe中查找连续数据_在PySpark中查找连续的逐月注册期_减去Pandas或Pyspark Dataframe中的连续列 - 腾讯云开发者社区

pyspark、apache-spark-sql

浏览 25提问于2019-05-17得票数 1

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

apache-spark、pyspark、apache-spark-sql、spark-structured-streaming

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functions\ .getOrCreate() # Create DataFrame representi

浏览 3提问于2016-12-29得票数 3

回答已采纳

3回答

为什么在352之后添加一个单调增加id中断的id列？

python、pyspark、spark-dataframe

我使用了以下代码：但是，在352行之后，它会像这样分开：有什么办法解决这个问题吗

浏览 0提问于2017-12-04得票数 4

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

pandas、pyspark

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

2回答

将数据保存到HDFS的格式是什么？

hadoop、apache-spark、hdfs、apache-spark-sql

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

python、pandas、apache-spark、pyspark

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

python、pandas、apache-spark、pyspark、apache-spark-sql

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。我需要直接在pyspark中执行相同的函数。<

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果

浏览 0提问于2016-07-27得票数 1

1回答

使用pyspark从每个行的数组中获取不同的计数

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我正在使用pyspark dataframe从每个行的数组中查找不同的计数:输入: col1 1,1,1 1,2,1,212 output:3 please help me how do i achieve this using python pysparkdataframe.

浏览 10提问于2020-02-28得票数 1

回答已采纳

4回答

如何选择最后一行，以及如何按索引访问PySpark数据？

python、apache-spark、pyspark、apache-spark-sql

来自类似于PySpark SQL数据文件的abc 20 A如何获得最后一行。(就像df.limit(1)一样，我可以将第一行数据last转换为新的数据格式)。df.tail(1) # for last rowdf.loc[] or by df.iloc[] 我只是好奇如何以这样的

浏览 7提问于2016-09-17得票数 16

回答已采纳

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

pandas、scala、dataframe、apache-spark

Dataframe是使用scala创建的。spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas DataframePySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

我必须遵守pyspark sql中的命令顺序吗？

python、pyspark-sql

我正在学习pyspark sql，我不确定函数的顺序是否必须是下一个？在何处指定此顺序？我检查了，但它没有提到任何关于尊重命令顺序的内容。

浏览 2提问于2019-09-18得票数 0

2回答

如何在pyspark datafarme中查找重复的列值

pyspark、duplicates、find

我正在尝试从pyspark中的dataframe中查找重复的列值。例如，我有一个只有一个列'A‘的dataframe，值如下：A1245====5

浏览 0提问于2019-08-27得票数 4

2回答

熊猫数据转换为PySpark的问题？

python、python-2.7、pandas、pyspark、pyspark-sql

所以我试着把熊猫的数据转换成一个RDD，如下所示：spDF = sqlContext.createDataFrame(df['A'是否知道如何将特定的熊猫数据栏转换为Pyspark？更新：new_dataframe = df_3.loc[:,'A'] new_dataframe.he

浏览 4提问于2016-03-17得票数 1

回答已采纳

2回答

如何创建空的考拉df

python、spark-koalas

我正在尝试使用以下命令创建空的考拉DataFrame但是我得到了以下错误我也尝试了执行命令，但发现了类似的错误 df = ks.DataFrame(columns=['col1

浏览 3提问于2020-08-24得票数 0

2回答

在PySpark Dataframe中分组连续行

python、pyspark

我有下面的示例:星火DataFrame：| 1| 20:15:00|20:35:00| 20|我希望根据开始时间和结束时间对连续行进行分组00|20:10:00| 10| | 1| 20:0

浏览 0提问于2018-07-12得票数 10

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

apache-spark、spark-dataframe、apache-spark-2.0

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用：我使用以下命令找到数据的类型type(data)pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。from pyspark.sql.types

浏览 4提问于2016-09-08得票数 6

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

apache-spark、pyspark、apache-spark-mllib、pca、apache-spark-ml

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：中执

浏览 1提问于2016-10-06得票数 4

回答已采纳

6回答