在pySpark中更改数据帧的架构_在PySpark中操作复杂的数据帧_在pyspark中划分数据帧 - 腾讯云开发者社区

json、dataframe、pyspark

我必须通过调用JSON文件中的模式来更改dataframe的模式。-++---+---+ a: string (nullable - true) b: long (nullable - true) json文件中的新模式如下： { "schema": ["a StringType() False", "b IntegerType() False"] } 现在，我调用json

浏览 24提问于2020-01-18得票数 0

1回答

如何使用pyspark和自定义python函数处理均匀的to流

apache-spark、pyspark、azure-eventhub

我当前的设置是：我使用作为如何读取数据的示例，但是：不能使用writeStream.start()"接收器，因为它在python中没有实现。当我尝试调用.rdd、.map或.flatMap时，我得到了一个异常：“必须使用foreach执行对流来源的<

浏览 52提问于2018-03-19得票数 3

1回答

PySpark -大数据帧上的空指针异常

python、dataframe、apache-spark、pyspark

当我试图用数据帧做一些事情时，我总是会得到一个java.lang.NullPointerException错误。导致它的行是这个df_3 = df_2.groupBy("id").pivot("key").agg(collect_list("value"))。我知道数据框架中没有空值，并对此进行了验证。这个问题似乎与数据框架的大小有关吗？例如，如果我在上面的一行之前添加了这一行，那么它可以很好地工作：df_2

浏览 2提问于2020-07-06得票数 2

1回答

pySpark jdbc写入错误:调用o43.jdbc时出错。：scala.MatchError:空

pyspark、db2、spark-dataframe、spark-jdbc

我正在尝试使用pySpark将简单的spark数据帧写入db2数据库。Dataframe只有一个数据类型为double的列。这是只有一行和一列的数据帧：这是数据帧架构：当我尝试使用以下语法将此数据帧写入db2表时： dataframe.write.mode('overwrite').jdbc(

浏览 0提问于2018-03-21得票数 1

3回答

如何在pyspark数据框中将字符串类型的列转换为int形式？

python、dataframe、pyspark

我在pyspark有数据帧。它的一些数字列包含'nan‘，所以当我读取数据并检查dataframe的模式时，这些列将具有'string’类型。如何将它们更改为int类型。我将'nan‘值替换为0，并再次检查了架构，但同时也显示了这些列的字符串类型。=True, inferSchema="true")data_df = da

浏览 2提问于2017-10-26得票数 64

2回答

在Bigquery中使用pyspark将数据编码为ISO_8859_1

apache-spark、pyspark、google-cloud-dataproc

我的pyspark数据帧中有多语言字符。在将数据写入bigquery之后，它向我显示了奇怪的字符，因为它的默认编码方案(utf-8)。如何使用pyspark / dataproc将Bigquery中的编码更改为ISO_8859_1？

浏览 0提问于2020-05-06得票数 1

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

pyspark、pyspark-sql

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： dff=pd.read_csv(f,deli

浏览 5提问于2017-04-10得票数 11

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

python-3.x、apache-spark、pyspark

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

2回答

PySpark列向绑定

pyspark

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

如何将Azure Synapse Dataframe转换为JSON on Databricks？

azure、pyspark、databricks、azure-databricks、azure-synapse

因为当我尝试的时候，它得到了一个错误。下面是我的synapse的脚本： @staticmethod .mode(write_mode) ) 这是我选择我的表的时候= df_dim_store.to

浏览 19提问于2021-05-31得票数 0

回答已采纳

1回答

AWS胶水:在结构中使用火花重命名字段名

amazon-web-services、pyspark、aws-glue

在使用AWS Glue中的Unnest转换之后，这里提到的模式是我原始模式的一部分。("profile.details.indices.index.val.indexname“和"profile.details.indices.index.val.indexname")中将两个字段的名称分别更改为、索引名、和索引符号，分别使用pyspark。Glue中的RenameField转换不适用于

浏览 1提问于2020-02-03得票数 1

1回答

如何在spark上使用双定界符从文件中读取数据

apache-spark、pyspark、delimiter

PySpark代码： from pyspark.sql import SparkSession, types spark = SparkSession.builder.master("local").

浏览 15提问于2020-10-27得票数 0

0回答

用于在PySpark中定义JSON Schema结构的配置文件

python、apache-spark、pyspark、apache-spark-sql

我已经创建了一个PySpark应用程序，它通过定义的模式读取数据帧中的JSON文件。True), df= sqlContext.read.json(file, schema) 我需要一种方法来找到如何在一种配置或ini文件等中定义此模式，并在主PySpark应用程序中读取它。这将帮助我在将来有任何需要时修改模式以适应更改的</em

浏览 3提问于2016-07-09得票数 9

2回答

使用python将两个spark数据帧合并到一个模式中

python、apache-spark、pyspark、apache-spark-sql

我有两个不同的pyspark数据帧，需要合并成一个。有一些逻辑需要为合并编码。其中一个数据帧具有以下模式：(id，类型，计数)，另一个具有模式：(id，timestamp，test1，test2，test3) 第一个数据帧是通过sql "group by“查询创建的。可以有重复的ids，但ids的类型将有所不同。并且，对于给定的类型，有一个相关的计数。

浏览 46提问于2020-01-29得票数 0

回答已采纳

1回答

将列有条件地添加到数据帧中

python、apache-spark、dataframe、pyspark、multiple-columns

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将p

浏览 0提问于2016-07-27得票数 1

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

python、pandas、python-2.7、dataframe

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics&#x

浏览 110提问于2019-06-20得票数 1

1回答

Pyspark使用窗口函数和我自己的函数

python、pandas、pyspark、window

我有一个Pandas的代码，它计算出x窗口上线性回归的R2。参见我的代码： def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300的滚动，并计算每个窗口的

浏览 29提问于2020-06-26得票数 0

回答已采纳

1回答

删除PySpark数据帧中具有无效多边形值的行？

apache-spark、validation、pyspark、polygon、apache-sedona

我们在数据帧上使用PySpark函数，这会引发错误。错误很可能是由于数据帧中的错误行造成的。数据帧的架构如下：|-- geo_name: string (nullable = true)|--|-- geometry_multipolygon: string (nullable =

浏览 14提问于2022-10-18得票数 1

回答已采纳

1回答

从数据帧列表生成单个DataFrame

list、pyspark、apache-spark-sql、jupyter-notebook、pyspark-dataframes

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * im

浏览 12提问于2021-01-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云