在Scala Spark和PySpark之间传递sparkSession_在PySpark中，SparkSession和Databricks的Spark-CSV模块在导入CSV文件方面有什么不同？_如何使用Spark和Scala/PySpark从Amazon QLDB读取数据？ - 腾讯云开发者社区

scala、dataframe、apache-spark、pyspark

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。= SparkSession \.appName("PySpark using Scala ex

浏览 59提问于2019-10-01得票数 4

1回答

与Scala相比，使用groupBy的Pyspark聚合非常慢。

python、scala、apache-spark、pyspark

pyspark import SparkContext src = "linkage" return MatchedData(pieces[0], pieces[1], pieces[2:11], pieces[11]) 和Scala版本在26秒内完成，而Pytho

浏览 5提问于2017-01-25得票数 0

2回答

SqlContext导入和并行化火花中的错误

apache-spark、dataframe、pyspark、rdd

parallelize() missing 1 required positional argument: 'c'from pyspark.sql.typesimport *sqlContext = SQLContext(sc) schema = StructType([StructField

浏览 4提问于2018-03-19得票数 0

2回答

如何使用PySpark和SparkSession设置到配置单元的连接(如何添加用户名和密码)？

python、apache-spark、pyspark、hive、apache-spark-sql

我一直在尝试使用PySpark访问Hive中的表格，在阅读了其他一些帖子后，这是人们推荐的连接Hive的方式。但它不起作用。然后我意识到我可能必须传递我的用户名和密码，但我不知道如何做到这一点。那么，有没有办法在设置SparkSession时传递用户名和pw，或者还有什么问题呢？import sysfr

浏览 202提问于2020-01-27得票数 0

回答已采纳

1回答

使用py4j.protocol.Py4JJavaError时spark3崩溃

apache-spark、pyspark、amazon-emr、spark3

这是我的test_pyspark.py文件： from pyspark.sql import SparkSession at org.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession</e

浏览 51提问于2021-04-14得票数 0

1回答

Sparksession错误是关于hive的。

hadoop、apache-spark、hive、pyspark、spark-dataframe

：：java.lang.IllegalArgumentException:在实例化‘org.apache.spk.sql.hive.HiveSessionState’时出错:在org.apache.spark.sql.SparkSession.sessionState$lzycompute(SparkSession.scala:110) at org.apache.spark.sql.SparkSession.sessionState$lzycompu

浏览 0提问于2018-03-05得票数 0

回答已采纳

2回答

如何在星火应用程序启动后更改其名称？

apache-spark、pyspark

我在更新/重新配置一个名为“火花”的预定义星火上下文时遇到了问题返回应用程序名“Databricks Shell”，我想要更新它，我尝试使用：但是，这不会更新任何内容，因为当我再次运行时 spark.sparkContext._conf

浏览 3提问于2019-09-27得票数 2

回答已采纳

1回答

创建pyspark的spark* context py4j java网关对象*

apache-spark、pyspark、apache-spark-sql、py4j

我正在尝试将java数据帧转换为pyspark数据帧。为此，我在java进程中创建了一个数据帧(或行的数据集)，并在Java端启动了一个py4j.GatewayServer服务器进程。然后，在Python端，我创建了一个py4j.java_gateway.JavaGateway()客户机对象，并将其传递给pyspark的SparkContext构造函数，以便将其链接到已经启动的jvmclass TestJavaToPythonTransfer{

浏览 6提问于2021-03-25得票数 0

1回答

java.lang.NoSuchMethodError: org.apache.scapk.内在.日志.$init$

python、apache-spark、apache-kafka、spark-structured-streaming

我是新的火花，我想创建一个结构化的流为火花阅读和显示的信息卡夫卡主题。我正在用sample.py文件编写以下内容：from pyspark.sql.functions import explode:spark-sql-kafka-0-10_2.12:2.4.4 pyspark-shell' spark = SparkSession.builder.appName(&q

浏览 6提问于2020-04-16得票数 2

1回答

将JavaObject `scala.collection.Map<Object，RDD<?>>`转换为python字典

java、python、scala、apache-spark、pyspark

在pyspark中，调用getPersistentRDDs() Java sparkContext方法将返回scala.collection.Map<Object,RDD<?from pyspark.sql import SparkSession spark = SparkSession.builder.master('yarn').getOrCreat

浏览 37提问于2019-05-04得票数 1

回答已采纳

3回答

如何在不执行的情况下验证Spark* SQL表达式？*

apache-spark、apache-spark-sql

我想验证一下spark-sql查询在语法上是否正确，而不是在集群上实际运行该查询。实际的用例是，我正在尝试开发一个用户界面，它接受用户输入spark-sql查询，并且我应该能够验证所提供的查询在语法上是否正确。此外，如果在解析查询之后，我可以就spark最佳实践给出关于查询的任何建议。

浏览 2提问于2017-10-27得票数 9

2回答

用java代码和python代码创建的数据

apache-spark、pyspark、jupyter-notebook、py4j

我在java中有一个类，它构建了一些复杂的星火DataFrame。return dataframe;}b = sc.b.build()))VS#prints: pyspark.sql.dataframe.DataFrame我遇到的问题之一是，当我

浏览 0提问于2018-03-14得票数 1

回答已采纳

5回答

无法在Google上安装PySpark

pyspark、google-colaboratory

我试图使用下面给出的代码在Google上安装PySpark，但是得到了以下错误。tar: spark-2.3.2-bin-hadoop2.7.tgz:无法打开:没有这样的文件或目录此代码已成功运行一次。但是在重新启动笔记本之后，它会抛出这个错误。(此外，在笔记本重新启动后，我们是否每次都不需要安装PySpark？)!tar xvf火花-

浏览 0提问于2019-04-06得票数 5

回答已采纳

1回答

PySpark在CLI中工作，但在VS代码IDE中不工作

apache-spark、pyspark

我有Python3.10.8，PySpark 3.3.1和JDK 17 (根据Apache支持的网站)。当我在CLI中运行PySpark时，它正确地启动了SparkSession，但是在笔记本和CLI中的VS代码中都出现了一个错误"Exception: Java网关进程在发送端口号之前已退出“，更准确地说<init>(package.scala:1095) at org.apache.spark

浏览 7提问于2022-11-14得票数 0

1回答

无法在pyspark上运行查询

apache-spark、pyspark、apache-spark-sql

在SQL server上，我必须选择每年出现次数最多的月份，并按从高到低的顺序进行排序。GROUP BY year, month ORDER BY ROW_NUMBER() OVER(PARTITION BY year ORDER BY COUNT(day) DESC) limit 1 但是在pyspark$anonfun$ofRows$2(Dataset.scala:99) at org.apache.spark.sql.SparkSession.withActive(

浏览 16提问于2020-11-28得票数 1

回答已采纳

2回答

Windows火花错误java.lang.NoClassDefFoundError:无法初始化类org.apache.spark.storage.StorageUtils

pyspark

下载了Apache3.2.0(最新版本)以及hadoop文件17.0.1输入:from pyspark.sql import SparkSessionspark = SparkSession.builder.getOrCreate()df.sho

浏览 6提问于2021-10-23得票数 6

1回答

使用Azure Synapse Analytics中的pyspark如何创建多个笔记本可以使用的会话

apache-spark、session、azure-synapse

from pyspark.sql.window import Window谢谢@Sequinex和Bendemann在管道开始时添加了一个笔记本来设置会话；参见在我的流中设置837 env。'''python from pyspark</em

浏览 3提问于2021-04-20得票数 3

3回答

如何导入sparksession

apache-spark

如何创建sparksession？scala> import org.apache.spark.SparkConf scala> val conf = SparkSession.bu

浏览 128提问于2019-08-21得票数 5

1回答

如何在Databricks上使用Apache / Python将整数转换为日期

python、apache-spark、date、epoch

我觉得比较简单的问题。试图将整数列转换为时代时间(MM/DD/YYY)？有什么建议吗？

浏览 2提问于2021-08-02得票数 0

回答已采纳

1回答

zeppelin aws错误运行程序中的spark* python*

python、amazon-web-services、apache-spark、apache-zeppelin

我在zeppelin web service spark aws emr中尝试了有关python的示例代码，在运行此代码时发现错误，我期望的输出是我的s3存储中的文件中的字数 text_file = sc.textFile

浏览 0提问于2019-08-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云