从RDD - PySpark创建数据帧_在pyspark中使用RDD从字典创建数据帧_无法从RDD创建数据帧 - 腾讯云开发者社区

python、apache-spark、pyspark、spark-dataframe

我正在尝试将Spark RDD转换为DataFrame。我已经看到了将方案传递给sqlContext.CreateDataFrame(rdd,schema)函数的文档和示例。

浏览 0提问于2016-09-26得票数 47

回答已采纳

1回答

从RDD - PySpark创建数据帧

python-3.x、apache-spark、pyspark、rdd

在执行PySpark代码时，通过提供所需的模式从现有的DataFrame创建DF时，我无法展示在什么情况下会引发以下异常，此代码在Databricks社区平台中执行。请帮助解决将数据框显示为输出的问题。代码： from pyspark import SparkConf, SparkContextsc = SparkContext.getOrCreate(conf=conf) r

浏览 108提问于2021-10-25得票数 0

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

pyspark

Pbm：

浏览 0提问于2015-04-15得票数 4

1回答

如何从任何数据库表创建PySpark* RDD？*

pyspark

由于我是星火社区的新手，任何人都能解释如何从数据库表创建PySpark RDD吗？我可以使用PySpark方法的textFile()方法从CSV文件创建SparkContext RDD。但我不知道从数据库表中创建PySpark RDD。

浏览 0提问于2018-02-10得票数 1

回答已采纳

3回答

取消持久化(py)spark中的所有数据帧

python、caching、apache-spark、pyspark、apache-spark-sql

似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。C2'])df.show() simple_data.csv：4,5,6查看应用程序UI，除了包含新列的数据帧之外

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

PySpark:从数据帧列表创建RDD

python、pyspark、rdd

我无法从pyspark数据帧列表创建RDD，如下所示：df = sqlContext.createDataFrame(l)df2它适用于像[1,2,3]这样的简单列表，但是当列表的元素变成一个数据帧时，它似乎失败了……请给我建议。我有一个timeseries数据帧，它可以按列的id进行分组。因为我需要

浏览 4提问于2017-04-10得票数 1

2回答

Pyspark读取csv

python、apache-spark、pyspark

新的pyspark，并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗？from pyspark.sql import SQLContextfrom pyspark.sql import Row rdd = sc.textFile('data.csv').map(lambda line: line.split(","))

浏览 3提问于2018-05-14得票数 1

回答已采纳

4回答

如何在Pyspark中使用pyspark.rdd.PipelinedRDD ()方法将数据帧转换成数据帧？

python-3.x、apache-spark、pyspark、apache-spark-sql、rdd

我有pyspark.rdd.PipelinedRDD (Rdd1)。当我做Rdd1.collect()时，它会给出如下的结果。3.1517805604906313}),现在，我想使用pyspark.rdd.PipelinedRDD()方法将数据帧转换成数据帧

浏览 13提问于2018-01-05得票数 9

回答已采纳

2回答

从RDD中的Pandas DataFrames创建Spark DataFrame

pandas、apache-spark、pyspark

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。available for spark dataframes return data rdd= sc.parallelize(filelist) rdd<

浏览 31提问于2019-06-05得票数 0

回答已采纳

1回答

如何从np.arrays列表(由RDKit生成)中创建Spark数据帧以馈送给sparks随机森林实现？

python、numpy、apache-spark、rdkit

这段代码从以svmlight格式存储的文件中加载数据帧，我可以使用dump_svmlight_file创建这样的文件，但写入文件感觉并不是很“闪亮”。AllChem.GetMorganFingerprintAsBitVect(x, 2, nBits=1024))\spark.createDataFrame(mols) 但很明显，我不能像这样从np.arrays的RDD中创建一个DataFrame

浏览 0提问于2021-01-15得票数 1

3回答

从csv文件向现有apache spark数据帧添加数据

python、apache-spark、pyspark、spark-dataframe

我有一个spark dataframe，它有两列: name，age，如下：数据帧是使用以下命令创建的sqlContext.createDataFrame() 两个数据源中的记录数相

浏览 9提问于2016-09-16得票数 0

回答已采纳

1回答

将Spark数据帧转换为Spark DenseMatrix进行操作

apache-spark、pyspark、spark-dataframe、apache-spark-mllib

我在互联网上找遍了，却找不到如何简单地将spark中的数据帧转换成矩阵，这样我就可以对其进行矩阵运算。我如何在Spark 2中简单地实现这一点？

浏览 0提问于2017-02-18得票数 2

1回答

Pyspark -在空数据帧上调用时withColumn不工作

python、pyspark

我为一些需求创建了一个空的dataframe，当我在它上面调用withColumn函数时，我得到了列，但数据是null，如下所示-df = sqlContext.createDataFrame

浏览 17提问于2018-07-26得票数 2

回答已采纳

2回答

pyspark dataframe to dictionary:列作为键和列值列表

python、pyspark

您好，我需要将pyspark dataframe (或rdd)转换为字典，其中dataframe的列将是关键字，column_value_list将作为字典值。c 50new_dict = {'name':['a','b', 'a', 'b', 'c'], 'amt':[10,20,30,40,50]} 我该怎么做呢(避免在rdd

浏览 4提问于2017-04-28得票数 1

1回答

从PySpark数据框中的重复行中提取和替换值

pyspark、apache-spark-sql、jupyter-notebook、rdd

我有重复的行，可能包含相同的数据或在PySpark数据框中有缺失值。我写的代码非常慢，并且不能作为分布式系统工作。有谁知道如何从PySpark数据帧中的重复行中保留单个唯一值，该数据帧可以作为分布式系统运行，并且具有快速的处理时间？我已经写了完整的Pyspark代码，这个代码工作正常。(): # Match duplicates using std name and cr

浏览 25提问于2019-06-21得票数 0

2回答

pyspark dataframe、groupby和列的方差计算

python、pyspark、spark-dataframe、pyspark-sql

我想按pyspark数据帧分组，并计算特定列的方差。对于一般人来说，这很容易，可以这样做AVERAGES=df.groupby('country').agg(func.avg

浏览 7提问于2015-08-12得票数 5

3回答

如何从多个列表创建pyspark* dataframe*

python、pyspark、apache-spark-sql

我想将两个列表转换为pyspark数据帧，其中列表是各自的列。| a| b|| 1| 2|| 3| 4|+---+---+ 有没有一种方便的方法来创建这个结果

浏览 0提问于2018-10-13得票数 3

回答已采纳

1回答

(将列表添加到列dataframe pyspark)

python、list、dataframe、pyspark

如果我已经存在数据帧，且我想要向数据框中添加新列sqlContext = SQLContext(sc)numbers=[1,2,30,4]row_rdd = rdd1.map(lambda x: Row(x)) test_df= sqlContext.createDataF

浏览 0提问于2020-10-05得票数 1

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

pandas、apache-spark、dataframe、pyspark、apache-spark-sql

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。from pyspark import SparkContextfrom pyspark.sql.types import * z/sql

浏览 6提问于2016-08-06得票数 33

回答已采纳

0回答

在UDF中引用另一个数据帧时，如何引用该数据帧？

apache-spark、dataframe、pyspark、user-defined-functions、broadcast

当在另一个数据帧上执行UDF时，如何引用一个pyspark数据帧？from pyspark import SparkConf from pysp

浏览 6提问于2016-12-30得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark RDD to DataFrame python

从RDD - PySpark创建数据帧

我可以将pandas数据帧转换为spark rdd吗？

如何从任何数据库表创建PySpark* RDD？*

取消持久化(py)spark中的所有数据帧

PySpark:从数据帧列表创建RDD

Pyspark读取csv

如何在Pyspark中使用pyspark.rdd.PipelinedRDD ()方法将数据帧转换成数据帧？

从RDD中的Pandas DataFrames创建Spark DataFrame

如何从np.arrays列表(由RDKit生成)中创建Spark数据帧以馈送给sparks随机森林实现？

从csv文件向现有apache spark数据帧添加数据

将Spark数据帧转换为Spark DenseMatrix进行操作

Pyspark -在空数据帧上调用时withColumn不工作

pyspark dataframe to dictionary:列作为键和列值列表

从PySpark数据框中的重复行中提取和替换值

pyspark dataframe、groupby和列的方差计算

如何从多个列表创建pyspark* dataframe*

(将列表添加到列dataframe pyspark)

Pandas dataframe to Spark dataframe“无法合并类型错误”

在UDF中引用另一个数据帧时，如何引用该数据帧？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐