将pyspark行列表的RDD转换为DataFrame - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

RDD[string]：将DataFrame转换为pyspark

python、apache-spark、dataframe、pyspark、apache-spark-sql

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String]data = df.rddtype (data)新的RDD data包含Row

浏览 2提问于2016-02-17得票数 8

回答已采纳

1回答

火星雨流中的to.JSON()

json、pyspark、pickle、spark-streaming、spark-dataframe

采用toJSON()方法将DataFrame转换为文档的RDD，并在火花流的transform()函数中实现了这一转换。我使用pyspark进行编码，如下所示： rddDataframe = sqlContext.createDataFrame(rdd)return rdd dstream

浏览 2提问于2016-06-30得票数 0

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

python、pandas、apache-spark、pyspark、rdd

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。[2, 'b', {'c': 1, 'd':3}],内部列

浏览 1提问于2018-04-07得票数 1

2回答

如何在火花放电中将密集向量的关系式转换成DataFrame？

apache-spark、pyspark、apache-spark-mllib、apache-spark-ml、apache-spark-2.0

我有这样的DenseVector RDD[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0,0.0, 0.0]), DenseVector([0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0])]>>> spark.createDataFrame(frequencyDen

浏览 3提问于2016-12-26得票数 11

回答已采纳

2回答

文本文件中的Pyspark对RDD

apache-spark、pyspark、spark-dataframe、rdd

我有一个本地文本文件kv_pair.log格式，例如键值对是逗号分隔的，记录以新行开始和终止："A"="oof","B"="rab","C"="zab" "A"="aaa","B"="bbb&

浏览 2提问于2017-08-01得票数 0

1回答

如何将SQLContext数据转换为向量的RDD？

statistics、apache-spark

我有一个SQLContext数据框架，它是由几个数字列组成的熊猫数据框架。我想使用pyspark.mllib.stats包进行多元统计分析。统计函数期望向量的RDD。我无法将此数据帧转换为向量的RDD。有办法转换数据帧吗？代码： summary = Statistics.colStats(rdd) df_new = df.applym

浏览 0提问于2015-07-01得票数 1

回答已采纳

7回答

如何将星火流数据转换为星火DataFrame

python、pyspark、spark-streaming

我尝试了几种方法，但仍然无法将DStream转换为DataFrame，也无法将DStream中的RDD转换为DataFrame。下面是我最新版本的代码的一部分：import re from pyspark.sql.context import当我使用ssc.socketTextStream(

浏览 2提问于2016-02-06得票数 10

回答已采纳

1回答

无法将RDD转换为DataFrame* (RDD有数百万行)*

python、csv、apache-spark、pyspark

我正在使用ApacheSpark1.6.2但是，我必须首先将它转换为RDD来进行映射，以获得我想要的数据(列)。映射RDD很好，但是当涉及到将RDD转换为DataFrame时，火花抛出一个错误。\spark\python\lib\pyspark.zip\pyspark\rdd<

浏览 3提问于2017-01-14得票数 4

回答已采纳

1回答

如何使用pyspark.mllib rdd* api度量来测量pyspark.ml (新数据帧api)？*

pyspark、apache-spark-mllib、apache-spark-ml

MlLib的旧API有评估指标类：，而新的dataframe API没有这样的类：它有计算器类，但它是有限的。

浏览 0提问于2016-09-06得票数 0

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

java、python、scala、apache-spark

我正在尝试创建一些POC代码，演示如何从PySpark调用Scala函数，结果是一个PySpark.RDD。以下是Scala端的代码： } 这就是我在PySpark端访问它所做的事情： >>>

浏览 18提问于2017-05-05得票数 0

回答已采纳

4回答

PySpark计算相关性

python、apache-spark、pyspark、apache-spark-sql、apache-spark-mllib

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

声明字段类型和实际字段类型不匹配时生成空值的PySpark* SQLContext.createDataFrame*

apache-spark、pyspark、apache-spark-sql

在PySpark (v1.6.2)中，当使用指定的模式将RDD转换为DataFrame时，值类型与模式中声明的值类型不匹配的字段将转换为null。from pyspark import SparkContextfrom pyspark.sql.types import StructType=

浏览 27提问于2016-07-27得票数 0

回答已采纳

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

hadoop、machine-learning、pyspark、cloudera

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：你能把它们混合在一起，用python编写一部分代码，用pyspa

浏览 4提问于2017-08-30得票数 0

1回答

如何在PySpark中从文本文件创建DataFrame？

python、dataframe、text、pyspark

我是Pyspark的新手，我想在pyspark中将txt文件转换为Dataframe。我正在尝试让pyspark中的数据整齐。有什么帮助吗？谢谢我试着这样做，但它还没有起作用。# read input text file to RDD</e

浏览 11提问于2019-07-11得票数 0

回答已采纳

1回答

在pyspark数据帧的数据类型中进行不同的计数

pyspark、pyspark-dataframes

我需要一个函数来在pypspark dataframe中获取类似以下内容：变量类型：数字:4分类:4日期:1

浏览 18提问于2019-10-17得票数 0

4回答

如何在结构化流式传输中将数据帧转换为rdds？

apache-spark、spark-streaming

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last):File "/home/softs/spark-2.4.3-bin

浏览 56提问于2020-01-06得票数 3

1回答

我有一个pyspark应用程序。我将一个hive表复制到我的hdfs目录中&在python中，我对这个表执行了sqlContext.sql查询。现在这个变量是我称之为rows的数据帧。我需要随机地对rows进行混洗，所以我必须将它们转换为一个行列表rows_list = rows.collect()。然后我使用shuffle(rows_list)将列表打乱到合适的位置。(以更容易做的为准)。rows的

浏览 1提问于2016-04-28得票数 5

回答已采纳

1回答

使用整行udf过滤Pyspark Dataframe

pyspark、apache-spark-sql、user-defined-functions

有没有办法选择整行作为一列输入到Pyspark过滤器udf中？我有一个复杂的过滤函数"my_filter“，希望应用于整个DataFrame：new_df= df.filter(my_filter_udf(col("*"))col("*") 引发错误，因为这不是有效的操作。我知道我可以将dataframe转

浏览 2提问于2018-08-28得票数 4

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

hadoop、apache-spark、hdfs、apache-spark-sql

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

如何从文件中读取数据并将其传递给Spark/PySpark中的FPGrowth算法

python、algorithm、pyspark、apache-spark-mllib

我试图从文件(用逗号分隔的项)中读取数据，并使用FPGrowth算法将这些数据传递给PySpark算法。到目前为止，我的代码如下：from pyspark import SparkContext data = txt.map(lamb

浏览 4提问于2017-12-11得票数 0

回答已采纳

点击加载更多

RDD[string]：将DataFrame转换为pyspark

火星雨流中的to.JSON()

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

如何在火花放电中将密集向量的关系式转换成DataFrame？

文本文件中的Pyspark对RDD

如何将SQLContext数据转换为向量的RDD？

如何将星火流数据转换为星火DataFrame

无法将RDD转换为DataFrame* (RDD有数百万行)*

如何使用pyspark.mllib rdd* api度量来测量pyspark.ml (新数据帧api)？*

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

PySpark计算相关性

声明字段类型和实际字段类型不匹配时生成空值的PySpark* SQLContext.createDataFrame*

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

如何在PySpark中从文本文件创建DataFrame？

在pyspark数据帧的数据类型中进行不同的计数

如何在结构化流式传输中将数据帧转换为rdds？

将行列表保存到pyspark中的配置单元表

使用整行udf过滤Pyspark Dataframe

将数据保存到HDFS的格式是什么？

如何从文件中读取数据并将其传递给Spark/PySpark中的FPGrowth算法

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐