如何使用dotnet spark正确实例化spark会话？

文章/答案/技术大牛

发布

2回答

c#、.net、apache-spark、.net-spark

我一直在遵循dotnet spark上的文档，开始在Windows上使用这个库。此指南可在以下位置找到：在GitHub上：https://github.com/dotnet/spark/blob/master/docs/getting-started/windows-instructions.md在微软文档上：https://docs.microsoft.com/en-us/

浏览 19提问于2019-09-10得票数 0

1回答

在jupyter笔记本中使用stark-defaults.conf文件初始化pyspark

apache-spark、pyspark、jupyter-notebook

很少有不同的答案可以在网络上实例化电火花等等。然而，有些是过时的，有些没有涵盖所有的“期望和最佳”*字符的启动火花。这是压缩和可用的每一点RAM和CPU，你有火花会话。5)将最大大小传递给spark.driver.extraJavaOptions和spark.executor.extraJavaOption ( 6)在2017年至2018年，使用高评论的星火书中推荐的一个广义的方法将实例化一个火花会话。这个火花会话的

浏览 0提问于2018-07-30得票数 0

回答已采纳

1回答

根据地块文件创建配置单元表并加载数据

apache-spark、hive、schema、external、parquet

我正在使用Amazon EMR集群和spark进行数据处理。但是我需要读取输出的拼图文件来验证我的转换。| | |-- cdAccState: string (nullable = true)如何使用这种模式创建配置单元外部表

浏览 0提问于2017-09-11得票数 1

1回答

.NET Apache Spark的UnitTest

unit-testing、apache-spark、xunit.net、.net-spark

我想为我的用C#/.NET编写的Spark应用程序编写单元测试。我目前正在使用XUnit编写测试，但我还没有找到任何好的文档来编写单元测试来测试我的spark应用程序组件。我已经写了一个spark单元测试，但如果我运行"dotnet test“命令，它就会失败。如果我使用spark-submit运行测试，则不会出现测试通过或失败之类的输出。我使用的bin/Debug/netcoreapp3.1/micr

浏览 20提问于2020-08-11得票数 0

1回答

如何为Zeppelin配置Livy / spark？

apache-spark、impersonation、apache-zeppelin、livy

我已经成功地使用Spark配置了齐柏林飞艇。然而，我想使用多租户，为此我想用Livy和Spark配置Zeppelin。对于Livy，我提供了以下两条路径export HADOOP_CONF_DIR=/etc/hadoop/conf%livy.<

浏览 2提问于2017-01-12得票数 1

1回答

如何同时使用SparkSession和StreamingContext？

scala、apache-spark、spark-dataframe、spark-streaming

我将SparkSession和StreamingContext一起使用，如下所示：val inputDF = sparkSess.readStream.format("org.apache.spark.csv显然，我不理解SparkSession和StreamingContext应该如何协同工作。如果您

浏览 0提问于2018-03-16得票数 4

3回答

星火流中的序列化问题

apache-spark、apache-spark-sql、spark-streaming、apache-spark-ml

我对星火如何处理引擎盖下的数据感到非常困惑。例如，当我运行流作业并应用foreachRDD时，其行为取决于变量是从外部范围捕获还是在内部初始化。val sparkConf = new SparkConf() val spark = SparkSession.builder.config$DirectKafkaInputDStreamCheckpointData的对象被序列化，可能是RDD操作关闭的一部分。(sparkConf).getOrCreate()

浏览 1提问于2016-09-26得票数 10

2回答

如何从pyspark导入"spark“？

pyspark

我正在尝试测试一个实用函数，它接受一个spark DataFrame，并在经过一些转换后输出一个新的spark DataFrame。我看到的大多数使用这种用法的例子 spark.createDataFrame(data, columns) 我对文档不太熟悉，找不到"spark“。您如何使用from pyspark* import spark

浏览 8提问于2020-08-12得票数 0

回答已采纳

1回答

如何解决TypeError：“SparkContext”对象不是可调用的错误？

pyspark

pyspark.sql import SparkSessionfrom pyspark import SparkContext .master("local") \ .getOrCreate() <ipython-input-2-2

浏览 1提问于2020-10-20得票数 0

回答已采纳

1回答

如何在Spark2.1中直接查询Cassandra表？

apache-spark、apache-spark-sql、cassandra、spark-cassandra-connector

在spark 1.6中，我们可以使用cassandraSqlContext直接查询cassandra表，如下所示： cassandraSqlContext.sql("select * from keyspace.tableName我知道spark 2.1没有cassandra上下文，相反它有一个session会话。如果我执行spark.sql("select * from keyspace.tableName")，它会引发关于未解决的关系或表名不存在的错误。adminKeyS

浏览 0提问于2017-05-22得票数 1

1回答

Apache Spark UDF:访问冰山

apache-spark、user-defined-functions、iceberg

下面是我如何在UDF中创建Spark会话： SparkSession spark = .master(...("USE db"); 我注意到Spark配置中的环境变量( Jupyter config = spark.conf();)与我调用中定义的值不同。at org.apache.spark.rdd.RDD.iterator(RDD.scala:313)

浏览 56提问于2021-05-11得票数 0

3回答

sparksession.config()和spark.conf.set()有什么区别

apache-spark、pyspark

我尝试使用这两种方法来设置spark.dynamicAllocation.minExecutors，但似乎只有第一种方法有效 .builder \.appName("test") \ .getOrCreate()spark2.conf.set("spark.dynam

浏览 1提问于2018-10-09得票数 4

1回答

在不能访问internet的服务器上安装Delta Lake库

apache-spark、installation、pyspark、delta-lake

我有一个没有互联网接入的服务器，在那里我想使用德尔塔湖。因此，在spark会话中正常使用Delta lake是不起作用的。从pyspark.sql导入SparkSession .builder \ .master("...") \ .config("spark.sql.extensions", "io.delta.

浏览 12提问于2021-03-12得票数 2

1回答

使用databricks-connect安装时在本地使用Pyspark

python-3.x、pyspark、databricks、databricks-connect

我安装了databricks-connect 6.6.0，其Spark版本为2.4.6。到目前为止，我一直在使用databricks集群，但我正在尝试切换到使用本地spark会话进行单元测试。我尝试过使用SparkConf()、SparkContext()和SQLContext()进行初始化，但它们都做同样的事情。我还分别设置了正确的SPARK_HOME、HADOOP_HOME和JAVA_HOME以及下载的winutils.exe，这

浏览 43提问于2020-11-07得票数 1

回答已采纳

1回答

在POST/批请求中使用现有的SparkSession

livy

我试图使用Livy远程提交几个Spark作业。我用来做这个我知道我可以使用spark-submit Livy 提供上述Livy命令中的所有选项。但是，由于我必须远程制作超过250个spark-submit，所以我想利用Livy的会话管理功能；也就是说，我希望Livy只创建一次SparkSession，然后将其用于所有spark-submit请求允许我指定许多远程实例化SparkSession的选项。但是，在session中没有

浏览 0提问于2018-08-08得票数 1

回答已采纳

1回答

在自定义包中创建pyspark dataframe？

python、pyspark、package、databricks

我对最佳实践以及如何在包中创建spark会话感到有点困惑，其中包可以在databricks或local上使用。我认为单个会话应该足够了，因此需要检查会话是否存在，如果不存在，则创建一个会话。但我只是不确定如何在函数中做到这一点？这是我的代码，为什么它不在一个jupyter笔记本里面，我不知道这是不是最好的方式，anyways...sometimes，我得到一个错误使用这个方法。session already created"

浏览 2提问于2020-10-31得票数 0

1回答

即使存在JAR文件，也无法在pyspark中实例化GoogleHadoopFileSystem

python、apache-spark、hadoop、pyspark

同样的代码在Linux Ubuntu上运行得很好，同样的jar，files.My spark是3.1.2，hadoop是3.2。我已经尝试了来自maven的所有gcs连接器版本。val = df.write.format('bigquery') \ #df is a spark.dataframe .mode(mode) \

浏览 40提问于2021-09-16得票数 0

回答已采纳

1回答

如何在spark集群中使用Prefect的资源管理器

apache-spark、pyspark、prefect

我一直在使用Prefect进行工作流管理，但在使用Prefect的资源管理器建立和停止spark会话时遇到了麻烦。我浏览了Prefects文档，下面提供了一个使用Dusk的示例： from prefect import resource_manager some_task(client) some_other_task(client)

浏览 23提问于2021-08-20得票数 2

2回答