无法在PySpark SQLContext DataFrame中显示列

文章/答案/技术大牛

发布

1回答

、、

如果我输入： df[['avg_wind_speed_9am']].head() 它返回： Row(avg_wind_speed_9am=2.080354199999768) 我不明白，通常它应该打印一列。下面是我导入数据帧的方式： from pyspark.sql import SQLContextdf = sqlContext.read.load

浏览 15提问于2020-11-09得票数 0

2回答

用java代码和python代码创建的数据

、、、

我在java中有一个类，它构建了一些复杂的星火DataFrame。package companyX; public DataFrame build() { }我将这个类添加到pyspark/木星类路径中，这样它就可以被py4j调用。现在，当我称之为它时，我得到了奇怪的类型：#prints: py4j.java_gateway.J

浏览 0提问于2018-03-14得票数 1

回答已采纳

2回答

熊猫数据转换为PySpark的问题？

、、、、

所以我试着把熊猫的数据转换成一个RDD，如下所示：spDF = sqlContext.createDataFrame(df['A'是否知道如何将特定的熊猫数据栏转换为Pyspark？更新：new_dataframe = df_3.loc[:,'A'] new_datafram

浏览 4提问于2016-03-17得票数 1

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

从火花数据中选择或删除重复列

、、、

( A)对于不能修改上游或源的，如何选择、删除或重命名其中的一个列，以便检索列值？df.select('A')向我显示了一个不明确的列错误，filter、drop和withColumnRenamed也是如此。如何选择其中一列？

浏览 0提问于2018-09-06得票数 2

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

、、、

我正在尝试创建一些POC代码，演示如何从PySpark调用Scala函数，结果是一个PySpark.RDD。sc.parallelize(List.range(1, 10))这就是我在PySpark端访问它所做的事情：>>> jrdd = foo.getTestRDD(sc._jsc.sc()) >>> type(moo

浏览 18提问于2017-05-05得票数 0

回答已采纳

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContextsdf.withColumn("features", DenseVector(1)) 给出anaconda3/lib/python3.6/si

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

(将列表添加到列dataframe* pyspark)*

、、、

如果我已经存在数据帧，且我想要向数据框中添加新列sqlContext = SQLContext(sc)numbers=[1,2,30,4]row_rdd = rdd1.map(lambda x: Row(x)) test_df = sqlContext.createData

浏览 0提问于2020-10-05得票数 1

1回答

如何将PySpark* RDD转换为具有未知列的Dataframe？*

、、、

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。我试图了解如何创建schema，但大多数示例都显示了一个硬编码模式创建示例。现在，由于我不知道列是什么，所以如何将rdd转换为dataframe？到目前为止，我的代码如下：sqlContext = SQ

浏览 9提问于2017-04-07得票数 2

1回答

只有在通过单独的脚本导入时才广播未定义的变量

、、、、

下面是两个最低限度的工作示例脚本，它们都在pyspark中调用一个UDF。UDF依赖于一个广播字典，它用它将一个列映射到一个新列。, SparkConfimport pyspark.sql.functions as F from pyspark import SparkContex

浏览 0提问于2017-03-07得票数 1

2回答

SqlContext导入和并行化火花中的错误

、、、

line)).collect()TypeError: parallelize() missing 1 required positional argument: 'c'from pyspark.sql.types import *sqlContext =SQLCont

浏览 4提问于2018-03-19得票数 0

2回答

从DataFrame列的操作创建新列会产生错误“列不可迭代”。

、、、

我有一个PySpark DataFrame，我尝试过许多示例，演示如何使用现有列创建一个基于操作的新列，但它们似乎都不起作用。1-为什么这段代码不能工作？from pyspark import SparkContext, SparkConfimport pyspark.sql.functionsas F

浏览 0提问于2017-06-08得票数 0

回答已采纳

3回答

Pyspark:将PythonRDD转换为Dataframe

、

有人能引导我把PythonRDD转换成DataFrame吗。另外，如果你认为有更好的方法，请提出建议。如果需要更多细节，请回复。谢谢。

浏览 3提问于2016-07-12得票数 0

回答已采纳

1回答

在DataFrame中子类是可能的吗？

、、、、

Pyspark的文档显示了DataFrames是从sqlContext、sqlContext.read()和各种其他方法构建的。是否可以将Dataframe子类并独立实例化它？我想将方法和功能添加到基类DataFrame类中。

浏览 3提问于2017-01-11得票数 8

回答已采纳

1回答

_jdf丢弃数据帧中的报头，AttributeError: Pyspark

、、、

from pyspark.sql import SQLContextavg_calcinferSchema=True)no_header = avg_calc.subtract(header)avg_calc包含2列，我正在尝试从这两列中删除第1行，但是我

浏览 1提问于2018-05-12得票数 0

1回答

PySpark: AttributeError：“DataFrame”对象没有属性“forEach”

、、

我试图从hdfs中获取数据，并对每个数据进行迭代，以便对列_c1进行分析。import findsparkimport pysparksc= SparkContext()sql = SQLContext(sc) df =

浏览 3提问于2022-04-07得票数 0

回答已采纳

1回答

在dataframe中不存在列时，星火设置为空。

、、、

我正在加载许多版本的JSON文件，以激发DataFrame。有些文件包含A、B列和A、B、C或A、C列。如果我运行这个命令加载几次后，我可以得到错误“列不存在”，我只加载了不保存列</e

浏览 9提问于2015-08-23得票数 4

2回答

如何在Pyspark中使用Scala类

、、、、

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { impor

浏览 3提问于2016-03-15得票数 29

回答已采纳

2回答

如何访问由Row创建Dataframe的DataFrame列

、

我对火种很陌生它抛出错误AttributeError：'DataFrame‘对象没有属性'product’from pyspark.sql import Ro

浏览 2提问于2020-04-13得票数 0

回答已采纳

点击加载更多