如果我不能使用SparkContext，如何创建DataFrame？

文章/答案/技术大牛

发布

1回答

、

String]("Type","Month","Dept","Size","IsHoliday")val label = model.linear.predict(Vectors.dense(features))我正在尝试将Seq转换为Dat

浏览 9提问于2018-08-24得票数 3

回答已采纳

1回答

registerTempTable在从RDD创建的DataFrame上失败

我在找个解决办法。我有一个函数，它从一个DataFrame的底层RDD创建一个DataFrame： sqlContext.createDataFrame(df.rdd, df.schema)现在，我<

浏览 3提问于2017-11-14得票数 1

回答已采纳

2回答

如何在Spark Streaming中将RDD转换为DataFrame

、、、

如何在Spark Streaming中将RDD转换为DataFrame，而不仅仅是在Spark中rdd.toDF() 在我的例子中，我使用StreamingContext。然后我应该在foreach中创建SparkContext吗？它看起来太疯狂了..。那么，如何处理这个问题呢？我的最终目标(如果它可能有用

浏览 0提问于2016-10-12得票数 6

回答已采纳

1回答

在dataframe中映射每一行并应用返回dataframe的UDF

、、、

我有一个有几行数行的dataframe。我可以使用以下代码循环这个dataframe：但这是行不通的，对吧？因此，我想要的是映射每一行并将其传递给UDF，并根据行中的值返回另一个新的dataframe (从DB)。、操作或转换引用SparkContext。SparkContext只能在驱动程序上使用，而不能在它在工作人员上运行的代码中<em

浏览 5提问于2019-12-24得票数 0

2回答

火花2至火花1.6

、

我正在尝试转换下面的代码来运行星星之火1.6，但是，在这一点上，我面临着某些问题。同时将闪烁会话转换为上下文。object TestData { spark.createDataFrame( StructType(List(StructField(&q

浏览 7提问于2017-08-08得票数 1

回答已采纳

1回答

参数太多

、

String], filesCountFirstBatch: Int, sparkDf: DataFrame, operationType: String, partitionColumn: Option[String] = None,这些对象使用其中的一些参数，例如，我有一个DeltaWriterConfig对象： DeltaWriterCon

浏览 11提问于2020-11-21得票数 0

5回答

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

、、、、

SparkContext, JavaSparkContext, SQLContext和SparkSession？是否有任何方法可以使用SparkSession？我是否可以使用单个条目完全替换所有上下文SparkSession？中的所有函数SQLContext，SparkContext，以及JavaSparkContext也在SparkSession？一些函数，比如parallelize在中有不同的行为SparkContext和JavaSparkContext。它们在如何</e

浏览 216提问于2017-05-05得票数 39

回答已采纳

1回答

如何使用同一个case类创建多个数据帧

、、

如何使用同一个case类创建多个数据帧？假设我想创建多个数据帧，一个有5列，另一个有3列，我如何使用一个case类来实现这个目标？

浏览 2提问于2019-05-14得票数 1

1回答

如何用火花数据框架计算星火数据流对象

、、

我正在编写一个星星之火应用程序，在这个应用程序中，我需要根据位于sql server数据库中的历史数据对流数据进行评估。现在我得到的流数据是from pyspark import SparkContext sc = SparkContext("local[2]&quo

浏览 4提问于2016-05-11得票数 5

2回答

AttributeError：'NoneType‘对象没有属性'sc’

、

不好意思me.Today我想运行一个关于如何在Pyspark.The结果中使用sqlContext创建DataFrame的程序是AttributeError，它是“AttributeError：'NoneType‘对象没有属性'sc'”，我的计算机是win7，Spark的版本是1.6.0，API是python3 .I有过几次google并阅读了Spark文档，并且无法解决我寻求帮助的problems.So问题。我的代码是：

浏览 3提问于2016-11-28得票数 6

1回答

Scala Spark :如何从字符串列表创建RDD并转换为DataFrame

、、、、

我想从与现有模式匹配的字符串列表中创建一个DataFrame。这是我的代码。fails val newRow = sqlContext.sparkContext.parallelize(Seq(rowValueTuple)).toDF(df.

浏览 0提问于2016-04-21得票数 8

回答已采纳

2回答

如何在星火中的AWS Glue created Dataframe上运行SQL SELECT？

、、、

我在AWS中有以下工作，它基本上是从一个表中读取数据并在S3中将其提取为一个csv文件，但是我想在这个表上运行一个查询(A Select、SUM和GROUPBY)，并希望将该输出获得给CSV，我如何在AWS我是星火的新手，所以请帮忙glueContext = GlueContext

浏览 1提问于2019-05-21得票数 1

回答已采纳

2回答

从DataFrame列的操作创建新列会产生错误“列不可迭代”。

、、、

我有一个PySpark DataFrame，我尝试过许多示例，演示如何使用现有列创建一个基于操作的新列，但它们似乎都不起作用。1-为什么这段代码不能工作？as F sqlContext = SQLContext(sc) a = sqlContext.createDataFrame([(5, 5, 3)], [我必须使用本

浏览 0提问于2017-06-08得票数 0

回答已采纳

2回答

星星之火-如何在类中使用SparkContext？

、、

我正在Spark中构建一个应用程序，并且希望在类中的方法中使用SparkContext和/或SQLContext，主要用于从文件或SQL查询中提取/生成数据集。例如，我想创建一个T2P对象，它包含收集数据的方法(在本例中需要访问SparkContext)： class T2P (mid: Int, sc: SparkContext, sqlContext: SQLContext作为参数传递给T2P类不起作用，因为SparkContext</e

浏览 1提问于2015-07-27得票数 2

1回答

无法在Spark中在RecordsWritten中获取OutputMetrics

、

我正在创建一个自定义火花监听器，并将其添加到运行的recordsWritten中，但是即使在运行sparkContext之后，如果执行DataFrame操作，在从OutputMetrics获取DataFrame当我在下面运行时(非DataFrame)： println("Records Written: &

浏览 0提问于2018-08-03得票数 3

回答已采纳

1回答

在同一个主程序下在Java和R应用程序之间共享SparkContext

、、、、

目前，我有两个星火应用程序初始化。我需要在它们之间传递数据(最好是通过共享的闪烁上下文/sqlcontext，这样我就可以查询临时表)。我目前使用Parquet文件进行数据传输，但是否可能有其他方式？SQLContext sqlContext = new SQLContext(parentContext.sc());df.registerTem

浏览 3提问于2016-02-12得票数 3

回答已采纳

2回答

将吡火花数据转换为动态数据

、、

我有一张火花放电数据。我能够通过persons.toDF()将动态数据转换为触发数据。我想把火花数据再一次转换回pyspark.I中的dataframe，我想将我的列转换为Time戳，然后再将它转换为dataframe到resolveChoices。请帮帮我

浏览 2提问于2019-09-24得票数 2

4回答

使用Java创建一个简单的1行星火DataFrame

、、

在Scala中，我可以从内存中的字符串创建一个单行DataFrame，如下所示：val df = sqlContext.sparkContext.parallelize(jsonValues).toDF("fizz")当df.show()运行时，它会输出：| fizz|| buzz|--现在我正试图在我试过：

浏览 0提问于2016-10-10得票数 9

回答已采纳

1回答

类型不匹配Spark Scala

、

我正在尝试创建一个空的数据帧，并在函数上使用它，但我一直都有以下错误： Required: DataFrame .emptyRDD[Row], schema) //orvar df1 = s

浏览 24提问于2021-11-11得票数 0

2回答

ScalaTestFailureLocation StructField(value1，ArrayType(StringType，真)，false)实际StructField(val2，ArrayType(真)，真)

、、、、

我正在试着做一些测试。即在2个数据流上。ArrayType(StringType,true),false)一个df是从一个列表创建的val etalon= spark.sparkContext.parallelize(data).toDF() 另一个是从一些输入文件中计算出来的。如果value2是字符串或其他类似类型，我<

浏览 1提问于2018-09-07得票数 0

回答已采纳

点击加载更多