spark dataframe_spark dataframe except_Spark DataFrame groupBy - 腾讯云开发者社区

、、、、

我正在尝试加载一个用spark sql以ORC格式创建的托管配置单元表。 SparkConf conf = new SparkConf().setAppName(ConnectionTest.class.getName()).setMaster(master); JavaSparkContext context = new JavaSparkContext(conf); SQLContext sqlContext = new HiveContext(context); sqlContext.sql("SELECT * FROM schema.tableName").show

浏览 21提问于2017-04-20得票数 3

2回答

简单sparksql联接查询中丢失的执行器

、、

我正在运行一个简单的sparkSQL查询，它在两个数据集上进行匹配，每个数据集大约是500 is。所以整个数据都在1TB左右。 val adreqPerDeviceid = sqlContext.sql("select count(Distinct a.DeviceId) as MatchCount from adreqdata1 a inner join adreqdata2 b ON a.DeviceId=b.DeviceId ") adreqPerDeviceid.cache() adreqPerDeviceid.show() 作业工作良好，直到数据加载(10k任务分配

浏览 3提问于2016-10-17得票数 1

回答已采纳

4回答

如何在Spark中强制DataFrame求值

、

有时(例如，为了测试和标记)，我想强制执行在DataFrame上定义的转换。AFAIK调用像count这样的操作并不能确保所有的Columns都是实际计算的，show可能只计算所有Rows的一个子集(参见下面的示例) 我的解决方案是使用df.write.saveAsTable将DataFrame写到HDFS，但是这会“扰乱”我的系统，我不想再保存更多的表。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人员列表上还有一个最近的讨论：http://apache-spark-developers-list.1001551.n3.nabble.com/Will-

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

我们如何看待同一个函数的不同实现

、

我想了解如何在Scala中实现相同方法。 def createDataFrame[A <: Product](data: Seq[A])(implicit evidence$3: reflect.runtime.universe.TypeTag[A]): org.apache.spark.sql.DataFrame def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFrame def createDataFrame(row

浏览 0提问于2020-07-19得票数 0

回答已采纳

1回答

奴隶的迷失和缓慢的加入火花

、、、

我在一个公共列上连接了两个dataframes，然后运行了一个show方法： df= df1.join(df2, df1.col1== df2.col2, 'inner') df.show() 然后，join运行得非常慢，最后引发了一个错误:奴隶丢失。 Py4JJavaError: An error occurred while calling o109.showString. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage

浏览 4提问于2016-11-16得票数 0

1回答

如何使用listOfData和模式创建spark DataFrame

、、

我正在尝试从数据列表创建一个DataFrame，并希望在其上应用模式。在Spark Scala文档中，我尝试使用这个接受行列表和模式作为StructType的createDataframe签名。 def createDataFrame(rows: List[Row], schema: StructType): DataFrame 下面是我正在尝试的示例代码 import org.apache.spark.sql.types._ import org.apache.spark.sql.Row val simpleData = List(Row("James", "Sal

浏览 36提问于2020-10-01得票数 0

回答已采纳

2回答

错误:重载方法值createDataFrame

我试着创建Apache Spark dataframe val valuesCol = Seq(("Male","2019-09-06"),("Female","2019-09-06"),("Male","2019-09-07")) valuesCol: Seq[(String, String)] = List((Male,2019-09-06), (Female,2019-09-06), (Male,2019-09-07)) 模式 val someSchema = List(StructField

浏览 8提问于2019-09-19得票数 0

回答已采纳

1回答

运行火花-使用Gradle从Intellij中移出红移

、

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

1回答

如何在scala中创建未初始化的Dataframe变量。这样，相同的变量就可以在if can条件下初始化。

、、

我需要创建一个未初始化的Dataframe变量。因此，在初始化它中的值之后，我可以将它添加到Seq中 var df: org.apache.spark.sql.DataFrame = spark.emptyDataFrame queries.foreach(q=>{ var view_name = q._1 var sourceType = q._2 var query = q._3 var df: org.apache.spark.sql.DataFrame = spark.emptyDataFrame if(sourceType == &

浏览 3提问于2021-08-11得票数 0

回答已采纳

1回答

无法从HBase访问运行在安全集群上的数据库？

、、、、

尝试从Windows中的Eclipse程序连接到Windows。群集是secured using Kerberos身份验证，因此它没有连接到Hbase数据库。每次我们创建jar文件并在集群中运行时。但是这对于开发和调试并没有用。如何在类路径中设置hbase-site.xml？我下载了*site.xml文件，尝试将hbase-site.xml, core-site.xml and hdfs-site.xml作为source文件夹添加，并尝试从项目构建路径中将该文件添加为外部类文件夹，但没有任何工作。我该怎么做呢？我们是否可以在hbase-site.xml中设置sqlContext，因为

浏览 4提问于2016-11-18得票数 0

2回答

将cache()和count()应用于数据库中的Spark是非常慢的。

、、、

我在Databricks集群中有一个包含500万行的星星之火数据。我想要的是缓存这个火花数据，然后应用.count()，以便下一个操作运行得非常快。我过去做过两万行，而且它能工作。然而，在我尝试这样做的过程中，我遇到了以下悖论： Dataframe创建步骤1:从Azure数据湖存储帐户读取800万行 read_avro_data=spark.read.format("avro").load(list_of_paths) #list_of_paths[0]='abfss://storage_container_name@storage_account_name.dfs.

浏览 0提问于2020-06-01得票数 3

回答已采纳

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

、、、

我用的是火花1.5。我有两份表格的数据： scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = [person_id: int, family_id: int] libriFirstTable50Plus3DF有766,151记录，linkPersonItemLessThan

浏览 5提问于2016-12-13得票数 71

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

1回答

根据列中特定值的计数条件筛选火花数据的行[spark.sql语法

、、、

我有以下火花数据： datalake_spark_dataframe_downsampled = pd.DataFrame( {'id' : ['001', '001', '001', '001', '001', '002', '002', '002'], 'OuterSensorConnected':[0, 0, 0, 1,

浏览 0提问于2020-06-09得票数 1

回答已采纳

1回答

SparkR中的scala.MatchError (使用Spark SQL的DataFrame)

、、、

浏览 2提问于2016-07-27得票数 1

2回答

Scala Spark -调用createDataFrame时获取重载方法

、、

我尝试从双精度数组(Array[ArrayDouble])创建一个DataFrame，如下所示： val points : ArrayBuffer[Array[Double]] = ArrayBuffer( Array(0.19238990024216676, 1.0, 0.0, 0.0), Array(0.2864319929878242, 0.0, 1.0, 0.0), Array(0.11160349352921925, 0.0, 2.0, 1.0), Array(0.3659220026496052, 2.0, 2.0, 0.0), Array(0.31809629470827383,

浏览 16提问于2017-02-13得票数 1

回答已采纳

1回答

从scala.collection.immutable.Iterable[org.apache.spark.sql.Row]到DataFrame？错误:具有替代项的重载方法值createDataFrame

、、、、

我有一些sql.Row对象，我希望在Spark1.6.x中将它们转换为DataFrame 我的行如下所示： events: scala.collection.immutable.Iterable[org.apache.spark.sql.Row] = List([14183197,Browse,80161702,8702170626376335,59,527780275219,List(NavigationLevel, Session)], [14183197,Browse,80161356,8702171157207449,72,527780278061,List(StartPlay, Ac

浏览 0提问于2017-10-12得票数 0

1回答

RLang中的Sparklyr ft_tokenizer错误

、

当我尝试在sparklyr中使用ft_tokenizer时，我一直收到一个错误。当我执行下面的脚本时，我总是得到Error in rlang::env_get(mapping, nm, default = NULL, inherit = TRUE) : unused argument (default = NULL) 我已经尝试下载R studio的最新版本，并尝试使用Microsoft R open和R 3.5.2 sc <- spark_connect(master = "local") dataframe <- data.frame("Re

浏览 18提问于2019-01-20得票数 1

回答已采纳

1回答

我的本地火星雨少了什么？

、

我刚刚开始学习pyspark，这里似乎是一个展示器:我试图将一个本地文本文件加载到spark中： base_df = sqlContext.read.text("/root/Downloads/SogouQ1.txt") 16/12/29 11:55:20 text.TextRelation:在驱动程序上列出text.TextRelation base_df.show(10) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2存储在内存中(估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11

浏览 5提问于2016-12-29得票数 1

1回答

在码头集装箱齐柏林飞艇运行火花时未发现lzo

、、、

我试图在齐柏林飞艇上运行星火代码，我得到了这样的信息: java.lang.ClassNotFoundException:类com.hadoop.compression.lzo.LzoCodec未找到同样的问题与齐柏林飞艇嵌入式火花和从我自己安装的火花外壳(1.6.3) Conf : 来自debian的码头集装箱:jessie 齐柏林飞艇版本: 0.6.2 (安装自tar，而不是从源代码构建) cdh版本: 5.9.0 liblzo2-dev和hadoop-lzo安装在容器上。 SPARK_HOME和HADOOP_HOME被设置为env var，在conf/zeppeli

浏览 0提问于2016-12-30得票数 2

回答已采纳

1回答

错误: object DataFrame不是package org.apache.spark.sql的成员

、、

我正在使用spark-shell来运行Spark的示例(使用Scala)，我导入了库 import org.apache.spark.sql.DataFrame import org.apache.spark.sql.{Row, SQLContext, DataFrame} 我得到了错误： error: object DataFrame is not a member of package org.apache.spark.sql 我不知道为什么，我在上查看了谢谢！

浏览 1提问于2015-03-12得票数 1

1回答

方法未在Microsoft.Spark中的Take方法上实现异常

、、、

我正在尝试使用新的Microsoft.Spark库设置spark。DataFrame.PrintSchema方法工作得很好，但是DataFrame.Take()方法给出了一个System.NotImplementedException。分配的其他方法也会给出这个异常。我查看了源代码，发现'Take‘方法调用了collect方法，但在调用collectToPython时失败了。 SparkSession spark = SparkSession .Builder() .AppName(".NET Spark") .GetOrCreate();

浏览 14提问于2019-05-10得票数 0

0回答

尝试在SparkSQL中显示表格时引发ValueError(item)

、、、

我使用PySpark和SparkSQL编写了以下代码，其中我尝试创建一个DataFrame，将其另存为表，然后显示该表： schema = StructType([StructField("int_field", IntegerType()), StructField("string_field", StringType())]) dfRow = sqlContext.createDataFrame(simulation, schema) dfRow.registerTempTable("myRow

浏览 1提问于2016-07-06得票数 0

1回答

Spark在IDE中创建数据帧(使用databricks-connect)

、、、、

我正在尝试使用databrick connect在IDE中运行我的databricks笔记本中的一些代码。我似乎想不出如何创建一个简单的数据帧。使用： import spark.implicits._ var Table_Count = Seq((cdpos_df.count(),I_count,D_count,U_count)).toDF("Table_Count","I_Count","D_Count","U_Count") 给出错误消息value toDF is not a member of Seq[(Long, L

浏览 69提问于2021-09-14得票数 0

1回答

我可以避免将相同的资源参数传递给不同类的实例吗？

、

我想知道是否有更好的方法来实现我想要的。我有一个Python程序，在这个程序中我使用类来组织代码。但是，所有这些类都需要将打开的资源传递给它们才能工作。在我的特殊情况下，我定义了在使用星火会话资源读取的dataframe上执行不同转换的类，如下面的代码片段所示。我想知道是否有更好的设计模式不需要我将相同的参数(在我的示例中是火花会话对象spark)传递给每个类成员。注意，有时我在其他类中启动类实例，这说明了为什么我需要传递相同的资源，而不是动态地创建和销毁它。换句话说:有没有一种方法可以在类的实例之间共享资源，而不需要显式地传递它？ # main.py from pyspark.sql

浏览 7提问于2021-10-22得票数 1

回答已采纳

4回答

在Spark/Scala中将RDD转换为Dataframe

、、

RDD是以Array[Array[String]]格式创建的，具有以下值： val rdd : Array[Array[String]] = Array( Array("4580056797", "0", "2015-07-29 10:38:42", "0", "1", "1"), Array("4580056797", "0", "2015-07-29 10:38:43", "0", "1", "1"

浏览 8提问于2015-10-14得票数 6

回答已采纳

2回答

Python Spark查询配置单元仅返回架构

、、、、

当我从Hive中选择data时，它会返回一个dataframe，但我不能访问模式以外的任何内容。 from spark import HiveContext, SQLContext hive_context = HiveContext(sc) hive_context.sql("USE myDatabase") data = hive_context.sql("SELECT * FROM myTable") data.show() 当我检查它返回的"data“类型时： <class 'pyspark.sql.dataframe.DataF

浏览 1提问于2018-04-19得票数 0

1回答

如何将spark DataFrame转换为RDD mllib LabeledPoints？

、、、、

我尝试将PCA应用于我的数据，然后将RandomForest应用于转换后的数据。然而，PCA.transform(数据)给了我一个DataFrame，但我需要一个mllib LabeledPoints来供给我的RandomForest。我该怎么做呢？我的代码： import org.apache.spark.mllib.util.MLUtils import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.tree.RandomForest import org.a

浏览 0提问于2016-03-13得票数 14

回答已采纳

3回答

带有备选方案的重载方法foreachBatch

、

我正在尝试将json文件序列化为parquet格式。我有一个错误： org.apache.spark.api.java.function.VoidFunction2[org.apache.spark.sql.Datasetorg.apache.spark.sql.Row，java.lang.Long])org.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.Row错误：(34，25)重载方法foreachBatch与备选方

浏览 5提问于2020-07-28得票数 6

1回答

Python -使用side_effect模拟一个在类的初始化内部调用的函数

、

我有这样一个类，Foo，它的函数使用我在其构造函数中初始化的数据帧。我想在我的测试类FooTest中测试它的功能。 from src.shared.utils import get_spark_dataframe class Foo(object): def __init__(self, x, y): self.a = get_spark_dataframe(x, y.some_db, "table_a") self.b = get_spark_dataframe(x, y.some_db, "table_b")

浏览 0提问于2019-02-25得票数 1

1回答

使用“发现”参数获取com.sap.spark.vora.VoraConfigurationException

、、

我在SLES 11 SP3上安装了HDP 2.3.4集群和3台机器，并安装了Vora1.2 终于让发现号服务开始工作了。我可以在中验证它。另外，Vora Thriftserver也不会死。这样我就可以通过第34页上的"val =(Sc)“一行。但是，当我试图创建一个表时，我会得到以下内容： com.sap.spark.vora.VoraConfigurationException: Following parameter(s) are invalid: discovery at com.sap.spark.vora.config.ParametersValidator

浏览 3提问于2016-05-13得票数 0

回答已采纳

1回答

火花过滤器未按预期工作..“‘Column”对象不可调用

、、、、

当在Spark Dataframe上的过滤器中使用"and“子句时，它返回Spark.SQL.Column而不是Spark Dataframe。但在一个条件下，它工作得很好。如何show()或迭代通过Spark Sql列对象？尝试show()函数时抛出错误- 'Column' object not callable. 或者如何将Spark.SQL.Column转换为Spark Dataframe？或者如何在filter子句中传递多个条件？ df2 = df.filter((df.dropoff_longitude >= -65.09)&(df.dropo

浏览 1提问于2019-04-23得票数 0

2回答

RDD到Dataframe Spark Couchbase

、、、

我已经从NOSQL数据库创建了RDD，我想将RDD转换为数据帧。我已经尝试了许多选项，但都会导致错误。 val df = sc.couchbaseQuery(test).map(_.value).collect().foreach(println) {"accountStatus":"AccountOpen","custId":"140034"} {"accountStatus":"AccountOpen","custId":"140385"} {"

浏览 1提问于2016-11-28得票数 0

1回答

线程"main“java.io.IOException中出现异常:作业中未指定输入路径

、

我正在尝试用Java中的spark读取一个json文件。我尝试的几个更改是： SparkConf().setAppName("Search").setMaster("local*")；配置=新的SparkConf sqlContext.read().json("../Users/pshah/Desktop/sample.json/*")；df = DataFrame 代码： import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api

浏览 6提问于2016-07-24得票数 2

1回答

如何将Spark RDD转换为Spark DataFrame

、

我已经和Scala 2.12一起使用过Spark 3.1.2了。我想在节点之间并行一些键，它们根据接收到的键来读取数据。因此，我必须先使用RDD，然后再将其转换为Spark DataFrame。我从Oracle Database中的表中读取数据。代码如下： object managementData extends App { val num_node = 2 def read_data(group_id: Int):String = { val table_name = "table" val col_name = &#

浏览 6提问于2021-09-26得票数 1

2回答

从Spark访问内核化远程HBASE集群

、、、、

我正在尝试使用从Spark读取来自kerberized实例的数据。我的集群配置本质上类似于：我将客户端计算机上的星火作业提交给远程spark独立集群，该作业试图从单独的HBASE集群中读取数据。如果我通过直接在我的客户端上运行带有master=local*的Spark集群来绕过独立集群，只要我第一次从客户端启动，就可以访问远程HBASE集群。但是，当我将我的主服务器设置为远程集群时，所有其他的信任都是相同的，我在org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:43)接收一个空指针异常(下面

浏览 8提问于2016-08-22得票数 0

1回答

星星之火REST :未能找到数据源: com.databricks.spark.csv

、、、、

我在s3上存储了一个pyspark文件。我正在尝试使用火花REST来运行它。我正在运行以下命令： curl -X POST http://<ip-address>:6066/v1/submissions/create --header "Content-Type:application/json;charset=UTF-8" --data '{ "action" : "CreateSubmissionRequest", "appArgs" : [ "testing.py"], "app

浏览 1提问于2016-12-01得票数 0

回答已采纳

1回答

对象DataFrame不是package org.apache.spark.sql的成员

我在scala文件中使用import org.apache.spark.sql.DataFrame，然后使用sbt编译，错误是object DataFrame is not a member of package org.apache.spark.sql 在网上搜索了一些解决方案，似乎是spark版本太旧了。但我使用的是最新版本(2.1.1)，所以很奇怪。在REPL中，当I import org.apache.spark.sql.DataFrame时，没有错误。我的函数是这样的： def test(df: DataFrame): Unit={ .... } 当我在REPL中定义这个

浏览 101提问于2017-07-12得票数 7

回答已采纳

2回答

这是火花流或内存泄漏的错误吗？

、、、

我将我的代码提交给一个星星之火的独立集群。提交命令如下所示： nohup ./bin/spark-submit \ --master spark://ES01:7077 \ --executor-memory 4G \ --num-executors 1 \ --total-executor-cores 1 \ --conf "spark.storage.memoryFraction=0.2" \ ./myCode.py 1>a.log 2>b.log & 我在上面的命令中指定执行器使用4G内存。但是使用top命令来监视executor进程，我注意到

浏览 3提问于2016-05-11得票数 9

2回答

使用Python将Dask Dataframe转换为Spark dataframe

、、、、

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子： import dask.dataframe as dd dask_df = dd.read_csv("file_name.csv") # convert dask df to spark df spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。有没有其他方法可以做到这一点。提前谢谢。

浏览 18提问于2021-02-25得票数 0

2回答

如何从pyspark导入"spark“？

我正在尝试测试一个实用函数，它接受一个spark DataFrame，并在经过一些转换后输出一个新的spark DataFrame。在尝试模拟测试数据时，我需要为输入构造一个pyspark dataframe。我看到的大多数使用这种用法的例子 spark.createDataFrame(data, columns) 我对文档不太熟悉，找不到"spark“。您如何使用from pyspark* import spark

浏览 8提问于2020-08-12得票数 0

回答已采纳

1回答

在scala中使用函数时得到错误类型不匹配

、、

import org.apache.spark.sql.{SparkSession, DataFrame} import org.apache.spark.sql.functions._ object sparkcpp { val spark = SparkSession.builder().getOrCreate() import spark.implicits._ def extract(): DataFrame = { val df = spark.read.option("inferschema","true").op

浏览 1提问于2021-12-09得票数 0

2回答

重载方法值json与备选方案：(jsonRDD: org.apache.spark.rdd.RDD[String])在IntelliJ中使用火花

、、、、

我正在尝试将JSON字符串jsonStr转换为Scala中的。为此目的使用InteliJ。 val spark = SparkSession.builder().appName("SparkExample").master("local[*]").getOrCreate() val sc = spark.sparkContext import spark.implicits._ var df = spark.read.json(Seq(jsonStr).toDS) df.show() 在使用Maven编译/构建项目时获取以下错误。错误：(243，29)重载方法

浏览 3提问于2020-05-22得票数 0

回答已采纳

1回答

如何使用spark (Eclipse)从Elasticsearch读取数据并将其转换为表格格式

、、、

我已经成功地将csv文件推送到我的elasticsearch中。 val spark=SparkSession.builder() .appName("eswithfunctions") .config("spark.master","local") .config("spark.es.nodes","localhost") .config("spark.es.port","9200") .getOrCreate() println("Enter

浏览 25提问于2020-06-14得票数 1

1回答

如何在布尔列上拆分DataFrame

、

我想拆分一个关于布尔列的DataFrame。我想出了： def partition(df: DataFrame, c: Column): (DataFrame, DataFrame) = (df.filter(c === true), df.filter(c === false)) 注意:在我的用例中，c是一个UDF。有更好的办法吗？我想：避免扫描2次DataFrame 为了避免丑陋的布尔测试以下是一个例子： @ val df = sc.parallelize(Seq(1,2,3,4)).toDF("i") df: org.apache.spar

浏览 4提问于2016-10-18得票数 0

1回答

从任意长度csv列创建火花数据

、

我正在尝试从我的dataframe中的单个csv格式化列创建一个新的dataframe。我之前不知道模式，所以我尝试使用没有模式参数的spark.createDataFrame方法(类似于中的方法1)。我正在尝试下面这样的代码，但会引发异常： var csvrdd = df.select(df("Body").cast("string")).rdd.map{x:Row => x.getAs[String](0)}.map(x => x.split(",").toSeq) var dfWithoutSchema = spark.cre

浏览 6提问于2017-05-08得票数 0

回答已采纳

1回答

Vora无法连接领事代理

、、

我已经在基于SP3的SLES 11的HDP2.3上安装了Vora1.2。当我试图按照新安装和管理手册第2.7节(第34页)对Vora进行基于命令行的验证时，我现在得到了一个新的错误： scala> vc.sql(testsql) com.sap.spark.vora.discovery.DiscoveryException: Could not connect to Consul Agent on localhost:8500 : null at com.sap.spark.vora.discovery.ConsulDiscoveryClient$ConsulDisc

浏览 0提问于2016-04-05得票数 0

回答已采纳

2回答

星火1.3.1 (PySpark)和MongoDB 3.4中的错误

、、

我有一个非常简单的脚本来持久化带有MongoDB中两列的数据文件： from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql.functions import col, udf from datetime import datetime sparkConf = SparkConf().setMaster("local").setAppName("Wiki-Analyzer

浏览 4提问于2017-03-30得票数 0

回答已采纳

2回答

火花使用dbutils.fs.ls().toDF在.jar文件中

、、、

我正试图将基于代码的jar打包到databricks笔记本中。下面一行在databricks中工作，但在scala代码中抛出了一个错误： import com.databricks.dbutils_v1.DBUtilsHolder.dbutils val spark = SparkSession .builder() .appName("myApp") .master("local") .enableHiveSupp

浏览 7提问于2021-10-26得票数 2

2回答

使用已知模式保存空DataFrame (Spark 2.2.1)

、、

是否可以使用已知的模式保存一个空的DataFrame，以便将该模式写入该文件，即使该文件没有任何记录？ def example(spark: SparkSession, path: String, schema: StructType) = { val dataframe = spark.createDataFrame(spark.sparkContext.emptyRDD[Row], schema) val dataframeWriter = dataframe.write.mode(SaveMode.Overwrite).format("parquet")

浏览 2提问于2018-04-14得票数 5