带有pyspark数据帧的NullPointerException_PySpark数据帧转换_toString数据Pyspark数据帧 - 腾讯云开发者社区

我有一个pyspark数据帧，.show()表示一切正常，但.toPandas()、.count()、.write.parquet(“abc/abc_pred.parket”)都会生成NullPointerException我不能对这个数据帧做任何事情。您知道如何导出此数据帧吗？

浏览 37提问于2019-06-17得票数 0

1回答

使用PySpark从Blob存储容器加载CSV文件

、、、

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题的答案，但我还没有找到关于我想要做什么的具体说明。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSch

浏览 21提问于2019-04-28得票数 0

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

Pyspark使用窗口函数和我自己的函数

、、、

我有一个Pandas的代码，它计算出x窗口上线性回归的R2。参见我的代码： def lr_r2_Sklearn(data): X = pd.Series(list(range(0,len(data),1return(regressor.score(X,Y)) r2_rolling = df[['value']].rolling(300).agg([lr_r2_Sklearn]) 我做了一个大小为300的滚动，并计算每个窗口的

浏览 29提问于2020-06-26得票数 0

回答已采纳

1回答

分组依据列表中的元素

、、

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

2回答

将PySpark数据写入BigQuery“数字”数据类型

、、、、

为了简单起见，我在BigQuery中有一个表，其中有一个类型为“数字”的字段。当我尝试用一列编写一个NullPointerException.数据帧时，它会继续引发PySpark我尝试将pyspark列转换为int、float、string，甚至编码它，但它一直在抛出NullPointerException即使在花了5到6个小时之后，我也无法自己或在互联网上弄清楚这里的问题是什么，以及将它映射到BigQuery数字列类型的确切的列类型

浏览 5提问于2022-04-28得票数 0

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebooks/Krish

浏览 110提问于2019-06-20得票数 1

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

2回答

从Pyspark Dataframe列提取文件扩展名

、、

我有一个带有列FullPath的pyspark数据帧。谢谢。

浏览 0提问于2018-03-19得票数 2

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

如何将Azure Synapse Dataframe转换为JSON on Databricks？

、、、、

因为当我尝试的时候，它得到了一个错误。下面是我的synapse的脚本： @staticmethod .mode(write_mode) ) 这是我选择我的表的时候= df_dim_store.to

浏览 19提问于2021-05-31得票数 0

回答已采纳

1回答

Pyspark pyspark.sql.functions行为怪异

、、、

当我们有超过3个节点来分发数据时，pyspark.sql.functions下的"last“函数在spark上返回不一致的结果。from pyspark.sql.types import DoubleType numeric = sqlContext.createDataFramecolor").agg(F.last("v1&

浏览 1提问于2017-02-02得票数 1

1回答

在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我

浏览 0提问于2016-07-27得票数 1

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

5回答

E-num / get Dummies in pyspark

、

我想在中创建一个函数PYSPARK获取数据帧和参数列表(代码/分类特征)，并返回带有附加虚拟列的数据帧，如列表PFA中特征在DF之前和之后的类别：数据帧之前和之后- Examplepython中的代码如下所示

浏览 115提问于2017-03-15得票数 5

回答已采纳

1回答

如何使用Pyspark从xml文件创建子数据帧？

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em

浏览 11提问于2019-03-15得票数 0

2回答

从PySpark数据帧获取第一个元素

、、、

我有一个PySpark数据框架，它只包含一个元素。如何从数据帧中提取数字？例如，如何从PySpark数据帧中获得数字5.0？

浏览 0提问于2022-07-13得票数 1

回答已采纳

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

、、、、

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如何使用py

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云