SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？_'!='和'!=='之间的区别是什么？_ö和ö之间的区别是什么？ - 腾讯云开发者社区

、、、、

它们之间的区别是什么？SparkContext, JavaSparkContext, SQLContext和SparkSession？是否有任何方法可以使用SparkSession？我是否可以使用单个条目完全替换所有上下文SparkSession？中的所有函数SQLContext，SparkContext，以及JavaSparkContext也在SparkSession？一些函数，比如parallelize在中有不同的行为SparkContext和JavaSparkContext。它们在如何使用SparkSession？我如何使用 a 创建以下内容SparkSession？ RDD

浏览 216提问于2017-05-05得票数 39

回答已采纳

1回答

在spark 2.1中访问共享SqlContext

、、、

我一次创建sqlContext，然后每隔一段时间访问一次。我使用以下语法创建了sqlcontext： class A { static SparkConf conf = new SparkConf().setMaster("local").setAppName("SparkApp"); static JavaSparkContext sc = new JavaSparkContext(conf); static SQLContext sqlContext = new SQLContext(sc); public static void

浏览 0提问于2017-08-04得票数 0

2回答

SparkContext和SparkSession :如何获得"parallelizePairs()"？

、

我是星火方面的新手，需要parallelizePairs() (工作于Java)。首先，我让我的司机： SparkSession spark = SparkSession .builder() .appName("My App") .config("driver", "org.postgresql.Driver") .getOrCreate(); 但是spark没有我需要的功能。只有parallelize() thru spark.sparkContext() 现在我想补充一下

浏览 2提问于2017-09-10得票数 2

回答已采纳

1回答

用Spark和Java连接MongoDB的问题

、、

我一直在尝试在Mongo和Spark建立联系我的Spring Config是： @Bean public SparkConf sparkConf() { return new SparkConf() .setMaster("local[*]") .setAppName("test") .set("spark.app.id", "test") .set("spark.mongodb

浏览 1提问于2017-03-13得票数 2

2回答

管理sparkContext以进行测试和正常执行

、

我喜欢在枚举中定义应用程序的星火上下文，如下所示： import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.SQLContext; public enum SparkGlobalContext { INSTANCE; private final SparkContext sparkContext = new SparkCo

浏览 4提问于2021-07-16得票数 0

回答已采纳

1回答

NullPointerException in SQLContext.read()火花

、、、

我正在尝试使用SQLContext.read()读取由Kafka在Spark中生成的JSON记录。每次NullPointerException出现。 SparkConf conf = new SparkConf() .setAppName("kafka-sandbox") .setMaster("local[*]"); JavaSparkContext sc = new JavaSparkContext(conf); JavaStreamingContext ssc = new JavaStreamingCo

浏览 1提问于2016-08-10得票数 3

2回答

为什么apache spark在尝试获取spark配置时抛出异常

、、

当我尝试这样做的时候： SparkConf conf = new SparkConf().setAppName("SparkUnitTest").setMaster("local[*]"); SparkSession sparkSession = SparkSession .builder() .config(conf) .getOrCreate(); JavaSparkContext sparkContext = JavaSparkContext.fromSpar

浏览 1提问于2021-10-09得票数 0

1回答

为Spark2.x SQLContexts设置Hadoop属性

火花2.x在这里。我需要设置以下Hadoop配置，以便我的SqlContext可以与S3对话： sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "blah1") sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "blah 2") 但是，从2.x开始，SparkContext和SqlContext似乎是两个独立的对象，它们是从SparkSession构建的 val spark

浏览 0提问于2018-05-11得票数 1

回答已采纳

1回答

Snappydata存储，其中包含来自现有spark安装的配置单元元存储

、、

我在HDP2.6.2，spark 2.1.1上使用snappydata-1.0.1，并且能够从外部spark应用程序连接。但是，当我通过向spark conf添加hive-site.xml来启用hive支持时，snappysession列出的是hivemetastore中的表，而不是snappystore中的表。 SparkConf sparkConf = new SparkConf().setAppName("TEST APP"); JavaSparkContext javaSparkContxt = new JavaSparkContext(sparkConf); Spar

浏览 2提问于2018-05-11得票数 1

1回答

Spark-Java API : SparkSession.builder().config(conf).getOrCreate()失败了？

、

我正在尝试运行一个样例独立的Spark-Java程序。看起来虽然缺少一些依赖库... SparkConf conf = new SparkConf().setAppName("Test").setMaster("local[1]"); SparkSession spark = SparkSession.builder().config(conf).getOrCreate(); JavaSparkContext context = new JavaSparkContext(spark.sparkContext()); SQLContext sc = new S

浏览 0提问于2017-11-21得票数 0

1回答

org.apache.spark.SparkContext.ui()Lscala/Option :NoSuchMethodError

我在Maven中使用1.6.0尝试Spark examples <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>1.6.0</version> </dependency> <dependency> <groupId>org.apache.sp

浏览 0提问于2016-04-28得票数 0

1回答

SparkException:此SparkContext中只能运行一个JVM (请参阅SPARK-2243)

、

我看到几个帖子包含与我收到的错误相同的错误，但没有一个帖子会让我修复我的代码。我已经多次使用这个完全相同的代码，没有任何问题，现在有问题了。下面是我收到的错误： y4j.protocol.Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext. : org.apache.spark.SparkException: Only one SparkContext may be running in this JVM (see SPARK-2243). 下面是我如何在p

浏览 1提问于2017-08-15得票数 1

回答已采纳

1回答

在PySpark中，SparkSession和Databricks的Spark-CSV模块在导入CSV文件方面有什么不同？

、、

我知道在PySpark中导入CSV文件的两种方法： 1)我可以使用SparkSession。这是我在Jupyter Notebook中的完整代码。 from pyspark import SparkContext sc = SparkContext() from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Spark Session 1').getOrC

浏览 28提问于2019-10-18得票数 2

回答已采纳

1回答

使用Java SparkSession手动创建数据集时的UnsupportedOperationException

、、

在我的JUnit测试中，我正在尝试从字符串创建一个数据集，如下所示。 SparkSession sparkSession = SparkSession.builder().appName("Job Test").master("local[*]") .getOrCreate(); String some1_json = readFileAsString("some1.json"); String some2_json = readFileAsString("some2.js

浏览 15提问于2021-04-23得票数 0

回答已采纳

3回答

在同一个JVM中检测到多个SparkContext

、、

根据我的，我必须为我唯一的JVM定义多个SparkContext。我用了另一种方法(使用Java)： SparkConf conf = new SparkConf(); conf.setAppName("Spark MultipleContest Test"); conf.set("spark.driver.allowMultipleContexts", "true"); conf.setMaster("local"); 之后，我将创建下一个源代码： SparkContext sc = new SparkContext(conf

浏览 0提问于2016-01-19得票数 10

回答已采纳

2回答

用java从SparkSession读取对象文件

、、

我使用JavaSparkContext编写了一个JavaRDD作为对象文件： JavaSparkContext sc = new JavaSparkContext(conf); //where conf is a SparkConf JavaRDD<MyClass> something; something.saveAsObjectFile("path"); 我可以轻松地使用以下方法加载此文件： JavaRDD<MyClass> loaded = sc.objectFile("path); 现在，在同一个程序中，我希望加载对象文件并使用Spark

浏览 7提问于2017-02-06得票数 0

回答已采纳

1回答

Jupyter + EMR + Spark -从本地计算机上的Jupyter笔记本连接到EMR群集

、、、

我是PySpark和电子病历的新手。我尝试通过Jupyter notebook访问在EMR集群上运行的Spark，但遇到错误。我使用以下代码生成SparkSession： spark = SparkSession.builder \ .master("local[*]")\ .appName("Carbon - SingleWell parallelization on Spark")\ .getOrCreate() 尝试跟随访问远程群集，但出现错误： spark = SparkSession.builder \ .maste

浏览 4提问于2017-06-28得票数 2

1回答

Spark自定义模式& jdbc不能正确呈现数据

下面的代码打印列名而不是数据。 SparkConf sparkConf = new SparkConf().setAppName("SparkSQL-Analysis").setSparkHome("C:\\work\\spark-2.4.4-bin-hadoop2.7").setMaster("local[*]"); JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf); SparkSession sparkSession = Spa

浏览 14提问于2020-01-20得票数 0

1回答

使用Spark和Java从s3读取文件时未能连接到服务端点

、、、

我需要将S3桶中的一个文件读入火花dataSet。我使用了正确的secretKey和accessKey，我也尝试了端点配置，但我得到了以下错误： com.amazonaws.SdkClientException: Failed to connect to service endpoint: at com.amazonaws.internal.EC2ResourceFetcher.doReadResource(EC2ResourceFetcher.java:100) at com.amazonaws.internal.InstanceMetadataServiceResourceFetch

浏览 16提问于2020-08-11得票数 0

回答已采纳

1回答

如何实现ScalaTest FunSuite以避免样板火花代码和导入触发

、、

我试图重构一个ScalaTest FunSuite测试，以避免样板代码插入和销毁火花会话。问题是，我需要导入隐式函数，但在使用之前/之后的方法时，只能使用变量(var字段)，而导入则需要一个值(val字段)。的想法是在每次测试执行时都有一个新的干净火花会话. 我试着这样做： import org.apache.spark.SparkContext import org.apache.spark.sql.{SQLContext, SparkSession} import org.scalatest.{BeforeAndAfter, FunSuite} object SimpleWithBe

浏览 3提问于2017-01-11得票数 7

1回答

星火拼花数据帧分区数目

、、、

我有一个HDFS文件夹与两个250 an的地板文件。hadoop块大小设置为128 to。具有以下代码： JavaSparkContext sparkContext = new JavaSparkContext(); SQLContext sqlContext = new SQLContext(sparkContext); DataFrame dataFrame = sqlContext.read().parquet("hdfs:////user/test/parquet-folder"); LOGGER.info("Nr. of rd

浏览 3提问于2017-06-28得票数 4

1回答

使用位于服务器路径中的Excel文件中的星星之火创建DataFrame

、、

我试图从服务器加载xls/xlsx文件。使用此代码 SparkConf sparkConf = new SparkConf(); SparkContext sparkContext = null; sparkContext = new SparkContext("local", "234", sparkConf); SparkSession sparkSession = SparkSession.builder().sparkContext(sparkContext).getOrCreate(); SQLContext sqlContext = spar

浏览 0提问于2019-01-17得票数 1

1回答

火花sql加入性能问题与芒果火花和火花红移连接器

、、、、

我们正在使用Apache与(用于与MongoDB连接)和(用于与Amazon连接)。我们的工作表现很差。因此，我希望得到一些帮助，以了解我们是否做错了我们的程序，或者这是我们可以期待的基础设施，我们已经使用。我们在4个AWS EC2节点上使用MESOS资源管理器运行我们的任务，每个节点的配置如下： RAM: 16GB, CPU cores: 4, SSD: 200GB 红移集群中有三个表： TABLE_NAME SCHEMA NUMBER_OF_ROWS table1 (table1Id, table2FkI

浏览 3提问于2017-03-21得票数 0

回答已采纳

5回答

如何使用scala在spark中创建SQLContext？

、、、

我正在使用sbt为SQLContext创建一个Scala程序。这是我的build.sbt： name := "sampleScalaProject" version := "1.0" scalaVersion := "2.11.7" //libraryDependencies += "org.apache.spark" %% "spark-core" % "2.5.2" libraryDependencies += "org.apache.spark" % "spark-

浏览 3提问于2015-12-21得票数 8

回答已采纳

1回答

对象不可序列化(类: org.apache.hadoop.io.LongWritable，值: 1166)

、

我试着这样做： private final String charset8859 = "ISO-8859-1"; private final String charsetUtf8 = "UTF-8"; private String partnerFile8859 = "src/test/resources/D10410.QUALSCSV"; public SparkSession getOrCreateSparkSession(){ SparkConf conf = new SparkConf().setAppName("Spa

浏览 1提问于2021-06-19得票数 0

1回答

SparkContext.setLogLevel(“调试”)在集群中不起作用

、、、、

我正在尝试使用sc.setLogLevel(“ERROR”)来控制我的Spark日志；似乎它在集群环境中不起作用。有人能帮忙吗？ public static JavaSparkContext getSparkContext(String appName, SparkConf conf) { SparkSession spark = getSparkSession(appName, conf); JavaSparkContext sc = new JavaSparkContext(spark.sparkContext()); sc.setLogLevel("WAR

浏览 2提问于2017-09-14得票数 1

回答已采纳

2回答

如何从HiveContext中获取JavaSparkContext

、、、

在一些火花代码中，我看到程序员使用这样的代码来创建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocation) .enableHiveSupport() .getOrCreate(); 但是我一直使用这样的代码来创建JavaSparkContext。 SparkConf spa

浏览 3提问于2017-10-18得票数 0

回答已采纳

1回答

提供空值的火花广播变量映射

、、、

我使用的是java8和Sparkv2.4.1。我试图使用广播变量Map进行查找，如下所示：输入数据： +-----+-----+-----+ |code1|code2|code3| +-----+-----+-----+ |1 |7 | 5 | |2 |7 | 4 | |3 |7 | 3 | |4 |7 | 2 | |5 |7 | 1 | +-----+-----+-----+ 预期产出： +-----+-----+-----+ |code1|code2|code3| +-----+-----+-----+ |

浏览 1提问于2020-09-22得票数 1

1回答

没有SQLContext的pyspark中的clearCache

、、、

考虑到SQLContext的pySpark documentation说“从Spark2.0开始，这将被SparkSession所取代。” 如何在不使用SQLContext的情况下从内存缓存中删除所有缓存表？例如，其中spark是SparkSession，sc是sparkContext from pyspark.sql import SQLContext SQLContext(sc, spark).clearCache()

浏览 20提问于2019-05-04得票数 3

回答已采纳

1回答

如何模拟sqlContext.read.parquet()？

、、、、

class Test{ override def execute(sqlContext: SQLContext) { val df: DataFrame = sqlContext.read.parquet(path) } 如何模拟sqlContext.read.parquet？需要从json读取并在调用此函数时返回该虚拟数据帧。 class XTest extends FunSuite with MockitoSugar { test("Test") { val sparkSession = SparkSession .builder() .master(&#

浏览 47提问于2020-11-03得票数 1

回答已采纳

1回答

使用SQLContext从火花放电中创建雪花表

、

我想要创建一个雪花表，如下所示： import pyspark.sql import SparkSession import pyspark.sql.context import SQLContext from pyspark import SparkContext sc = SparkContext.getOrCreate() sqlContext = SQLContext(sc) sqlContext.sql("create or replace table NEW_TABLE (id integer, desc varchar)") 我收到了这个错误

浏览 7提问于2022-04-28得票数 0

回答已采纳

2回答

spark java: java.lang.IllegalArgumentException: object不是声明类的实例

、

在Spark Java (local)中运行以下代码时，我得到错误： at Datahub.run(Datahub.java:96) at Datahub.main(Datahub.java:64) ***Caused by: java.lang.IllegalArgumentException: object is not an instance of declaring class*** at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 读取csv并将其保存为拼图格式的逻辑。 public clas

浏览 0提问于2017-08-28得票数 1

2回答

使用构建器创建火花会话？

、、

如何在Java中使用构建器创建sparkSession？我试过这样做： sparkSession = SparkSession.builder() .master("local[*]") .config(conf) .appName(appName) .getOrCreate(); 但我在"getOrCreate“中遇到了例外。是否有任何方法可以使用JavaSparkContext/ SparkContext创建火花会话？线程"main“java.lang.NoSuchMethodError: java.lang.NoSuch

浏览 5提问于2017-04-28得票数 1

回答已采纳

1回答

从kafka主题中启动流式数据，并写入外部路径中的文本文件

、、、

我想从kafka主题中读取数据，并按键值分组，然后写入文本文件中。 public static void main(String[] args) throws Exception { SparkSession spark=SparkSession .builder() .appName("Sparkconsumer") .master("local[*]") .getOrCreate(); SQLCont

浏览 0提问于2018-11-23得票数 2

2回答

EsHadoopIllegalArgumentException:无法检测ES版本Spark示例

、、、

我正在尝试运行简单的数据写入ElasticSearch示例。但是，我一直收到这样的错误： EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only 我对星火和ElasticSearch的依赖： scal

浏览 0提问于2018-05-08得票数 1

回答已采纳

2回答

使用Apache编写错误

、、

我是一个使用Spark的新手。我遵循了DataBricks：的在线指南我可以成功地获得到MySQL实例的连接并从中读取。但是，我一直从Spark中获得NoTableFound或NoDatabaseFound错误的变体。下面是我的整个测试类的样子： import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.SQLContext; import org.a

浏览 4提问于2017-05-01得票数 0

回答已采纳

1回答

我在创建SparkSession时获取IllegalArgumentException

、、

我在spark 2.1.0和python 2.7上使用pyspark和jupyter笔记本。我正在尝试使用下面的代码创建一个新的SparkSession； from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import SparkSession from pyspark.sql import SQLContext spark = SparkSession\ .builder\ .appName("Bank Service Classifier")\

浏览 4提问于2017-02-10得票数 2

1回答

使用java删除apache spark中的行

、、、、

需要删除数据集中的第二行我是apache spark的新手，有人能帮我解决吗？代码如下： public class DeleteRow { public static void main(String[] args) { System.setProperty("hadoop.home.dir", "C:\\winutils"); JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("JoinFunction

浏览 0提问于2017-01-24得票数 0

1回答

从JavaRDD<Status>到JavaRDD<String>的转换问题

、、、、

我试图将推特上的推特保存到MongoDb数据库中。我已经得到了RDD<Status>，我正在尝试用帮助ObjectMapper.But将这个转换为JSON格式--这个转换有一些问题( public class Main { //set system credentials for access to twitter private static void setTwitterOAuth() { System.setProperty("twitter4j.oauth.consumerKey", TwitterCredentials

浏览 0提问于2019-08-17得票数 0

回答已采纳

1回答

Cassandra Datastax和Java -建立连接的最佳方法

、、

我正在研究从我的Java到Cassandra连接的最佳方法，并找到了一些如何这样做的例子。我正在本地主机上做一些聊天应用程序(将允许创建新消息、更新消息或删除消息)，但我也想研究最佳实践。有人能帮我选择最好的解决方案吗？第一个例子是星火1.6： public static JavaSparkContext getCassandraConnector(){ SparkConf conf = new SparkConf(); conf.setAppName("Chat"); conf.set("spark.driver

浏览 2提问于2017-03-23得票数 0

回答已采纳

1回答

无法使用星火驱动程序从多个数据库加载

我正在开发spark模块，需要从多个源(数据库)加载集合，但无法从第二个db获得集合。数据库 DB1 L_coll1 DB2 L_coll2 逻辑码 String mst ="local[*]"; String host= "localhost"; String port = "27017"; String DB1 = "DB1"; String DB2 = "DB2"; SparkConf conf = new S

浏览 0提问于2019-04-16得票数 1

回答已采纳

1回答

Apache上下文dropDuplicates

、

我正在尝试使用Spark的1.5方法dropDuplicates().过滤DataFrame内容使用完全数据填充的表(我的意思是没有空单元格)会给出正确的结果，但是当我的CSV源包含空单元格(我将提供源文件)时-星火抛出ArrayIndexOutOfBoundsException。我做错了什么？我已经阅读了1.6.2版本的Spark和DataFrames教程，它没有详细描述DataFrame操作。我还在读“学习火花。闪电-快速大数据分析”一书，但是它是为Spark1.5编写的，我需要的操作不在这里描述。我很乐意得到任何一个链接到手册的解释。谢谢。 package data; impo

浏览 0提问于2016-08-01得票数 0

回答已采纳

1回答

如何修复Scala中的22: error: not found: value SparkSession？

、、

我是Spark的新手，我想将CSV文件读到Dataframe中。 Spark 1.3.0 / Scala 2.3.0 这就是我到目前为止所知道的： # Start Scala with CSV Package Module spark-shell --packages com.databricks:spark-csv_2.10:1.3.0 # Import Spark Classes import org.apache.spark.SparkContext import org.apache.spark.SparkConf import org.apache.spark.sql.SQLCon

浏览 1提问于2018-04-25得票数 0

1回答

SnappyData(集群中未显示表)

、、、

我用Java创建了一个用于快速数据的程序。我无法获取集群中的表名。我也不能理解日志文件。有什么提示吗？ public static void main( String[] args ) { SparkSession spark = SparkSession .builder() .appName("SparkApp") .master("local[*]") .getOrCreate(); JavaSparkContext jsc = new JavaSparkContext(spark.s

浏览 5提问于2017-04-07得票数 0

1回答

“‘RDD”对象没有属性“sparkSession”

、

以下是我的代码，我尝试导入所有内容，但仍然报告错误。 from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.sql import SQLContext import pyspark sc = SparkContext(appName="session1") a = [('Chris', 'Budweiser', 15), ('Chris', 'Becks', 5), ('Chris'

浏览 28提问于2021-09-23得票数 0

2回答

如何在Spark Java中遍历/迭代数据集？

、、、、

我正在尝试遍历数据集来执行一些字符串相似度计算，比如Jaro winkler或Cosine相似度。我将我的数据集转换为行列表，然后使用for语句遍历，这不是一种有效的spark方式。因此，我期待着在Spark中有更好的方法。 public class sample { public static void main(String[] args) { JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("Example").setMaster("local[*

浏览 0提问于2017-03-13得票数 7

回答已采纳

1回答

获取1000行csv，RDD Spark的最后5行

、、、

我有一个包含1000行数据的.csv文件，我试图编写一行代码，只显示最后5行数据。 private SparkSession spark; private JavaSparkContext sc; private JavaRDD<String> lines; private JavaRDD<PurchaseOrder> orders; public OrderProcessingRDDSparkApp(String ...args) throws IOException { spark = SparkSession.build

浏览 1提问于2022-02-19得票数 0

回答已采纳

2回答

从Spark Streaming中的字符串创建StructType

、、、

在Spark structured Streaming中，我想从STRING创建一个StructType。在下面的示例中，spark read方法只接受schema的"Struct Type“，我如何从字符串创建StructType。我想要将employeeSchema字符串转换为StructType。 public static void main(String[] args) throws AnalysisException { String master = "local[*]"; SparkSession sparkSession = Spa

浏览 15提问于2017-08-31得票数 1

1回答

可空字段在写入时更改

、、

下面的代码从拼花文件中读取星火DataFrame并写入另一个拼花文件。ArrayType DataType中的可空字段在将DataFrame写入新的Parquet文件后进行更改。代码： SparkConf sparkConf = new SparkConf(); String master = "local[2]"; sparkConf.setMaster(master); sparkConf.setAppName("Local Spark Test"); JavaSparkContext sparkContext =

浏览 3提问于2016-09-26得票数 3

回答已采纳

1回答

星系团模式下的星火提交读取application.conf

、

我有一个jar，它通过 object ConfigWordCount { def main(args: Array[String]) { // Load configuration into Settings class val spark: SparkSession = SparkSession.builder() .appName("Word Count")

浏览 0提问于2020-05-24得票数 0