文章/答案/技术大牛

发布

社区首页 >问答首页 >在None.org.apache.spark.api.java.JavaSparkContext错误地执行Win10安装时的火花

问在None.org.apache.spark.api.java.JavaSparkContext错误地执行Win10安装时的火花
EN

Stack Overflow用户

提问于 2021-12-05 11:42:24

回答 1查看 2.4K关注 0票数 2

最近，我一直在努力让Spark在我的Windows 10设备上运行，但没有成功。我只是想试一试Spark，并且能够遵循教程，因此我目前无法访问要连接的集群。为了安装Spark，我完成了以下步骤，基于本教程

我安装了Java并将其放置到C:\jdk中。文件夹中包含bin、conf、include、jmods、legal和lib文件夹。
我安装了Java运行时环境并将其放置到C:\jre中。这个文件夹中有bin、legal和lib文件夹。
我下载了这个文件夹并将winutils.exe放入C:\winutils\bin中。
我创建了一个HADOOP_HOME用户环境变量并将其设置为C:\winutils
我打开了Anaconda提示符，并通过conda install pyspark将conda install pyspark安装到我的基本环境中。
安装成功后，我打开一个新的提示并键入pyspark来验证安装。这应该会给火花欢迎屏幕。相反，我收到了以下长错误消息：

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
21/12/05 12:22:47 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
21/12/05 12:22:47 WARN SparkContext: Another SparkContext is being constructed (or threw an exception in its constructor). This may indicate an error, since only one SparkContext should be running in this JVM (see SPARK-2243). The other SparkContext was created at:
org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:77)
java.base/jdk.internal.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
java.base/java.lang.reflect.Constructor.newInstanceWithCaller(Constructor.java:499)
java.base/java.lang.reflect.Constructor.newInstance(Constructor.java:480)
py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:247)
py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
py4j.Gateway.invoke(Gateway.java:238)
py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80)
py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69)
py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
py4j.ClientServerConnection.run(ClientServerConnection.java:106)
java.base/java.lang.Thread.run(Thread.java:833)
C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\shell.py:42: UserWarning: Failed to initialize Spark session.
  warnings.warn("Failed to initialize Spark session.")
Traceback (most recent call last):
  File "C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\shell.py", line 38, in <module>
    spark = SparkSession._create_shell_session()  # type: ignore
  File "C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\sql\session.py", line 553, in _create_shell_session
    return SparkSession.builder.getOrCreate()
  File "C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\sql\session.py", line 228, in getOrCreate
    sc = SparkContext.getOrCreate(sparkConf)
  File "C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\context.py", line 392, in getOrCreate
    SparkContext(conf=conf or SparkConf())
  File "C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\context.py", line 146, in __init__
    self._do_init(master, appName, sparkHome, pyFiles, environment, batchSize, serializer,
  File "C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\context.py", line 209, in _do_init
    self._jsc = jsc or self._initialize_context(self._conf._jconf)
  File "C:\Spark\spark-3.2.0-bin-hadoop3.2\python\pyspark\context.py", line 329, in _initialize_context
    return self._jvm.JavaSparkContext(jconf)
  File "C:\Users\lazarea\Anaconda3\lib\site-packages\py4j\java_gateway.py", line 1573, in __call__
    return_value = get_return_value(
  File "C:\Users\lazarea\Anaconda3\lib\site-packages\py4j\protocol.py", line 326, in get_return_value
    raise Py4JJavaError(
py4j.protocol.Py4JJavaError: An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.lang.NoClassDefFoundError: Could not initialize class org.apache.spark.storage.StorageUtils$
        at org.apache.spark.storage.BlockManagerMasterEndpoint.<init>(BlockManagerMasterEndpoint.scala:110)
        at org.apache.spark.SparkEnv$.$anonfun$create$9(SparkEnv.scala:348)
        at org.apache.spark.SparkEnv$.registerOrLookupEndpoint$1(SparkEnv.scala:287)
        at org.apache.spark.SparkEnv$.create(SparkEnv.scala:336)
        at org.apache.spark.SparkEnv$.createDriverEnv(SparkEnv.scala:191)
        at org.apache.spark.SparkContext.createSparkEnv(SparkContext.scala:277)
        at org.apache.spark.SparkContext.<init>(SparkContext.scala:460)
        at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
        at java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
        at java.base/jdk.internal.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:77)
        at java.base/jdk.internal.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
        at java.base/java.lang.reflect.Constructor.newInstanceWithCaller(Constructor.java:499)
        at java.base/java.lang.reflect.Constructor.newInstance(Constructor.java:480)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:247)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
        at py4j.Gateway.invoke(Gateway.java:238)
        at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80)
        at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69)
        at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
        at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
        at java.base/java.lang.Thread.run(Thread.java:833)

我环顾四周，发现了类似的问题，并发现了这个问题。这有类似的错误消息。然而，所提供的解决方案(即将SPARK_LOCAL_IP用户环境变量设置为localhost )未能解决问题，在向Anaconda提示符键入pyspark时，相同的错误消息仍然存在。

备注1，这可能与此相关:在命令行输入pyspark时，不提供任何输出。相反，Windows默认打开Microsoft。

备注2：我尝试用直接编写代码，看看那边是否有更多提示。我运行了以下代码片段：

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('sampleApp').getOrCreate()

它返回了与上面的错误消息类似的错误消息，并提供了一些可能有用的更多信息：

An error occurred while calling None.org.apache.spark.api.java.JavaSparkContext.
: java.lang.IllegalAccessError: class org.apache.spark.storage.StorageUtils$
(in unnamed module @0x776b83cc) cannot access class sun.nio.ch.DirectBuffer
(in module java.base) because module java.base does not export sun.nio.ch
to unnamed module @0x776b83cc

备注3：当打开命令行并键入spark-shell时，会输出以下错误：

java.lang.IllegalAccessError: class org.apache.spark.storage.StorageUtils$ (in unnamed module @0x3c947bc5) cannot access class sun.nio.ch.DirectBuffer (in module java.base) because module java.base does not export sun.nio.ch to unnamed module @0x3c947bc5
  at org.apache.spark.storage.StorageUtils$.<init>(StorageUtils.scala:213)
  at org.apache.spark.storage.StorageUtils$.<clinit>(StorageUtils.scala)
  at org.apache.spark.storage.BlockManagerMasterEndpoint.<init>(BlockManagerMasterEndpoint.scala:110)
  at org.apache.spark.SparkEnv$.$anonfun$create$9(SparkEnv.scala:348)
  at org.apache.spark.SparkEnv$.registerOrLookupEndpoint$1(SparkEnv.scala:287)
  at org.apache.spark.SparkEnv$.create(SparkEnv.scala:336)
  at org.apache.spark.SparkEnv$.createDriverEnv(SparkEnv.scala:191)
  at org.apache.spark.SparkContext.createSparkEnv(SparkContext.scala:277)
  at org.apache.spark.SparkContext.<init>(SparkContext.scala:460)
  at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2690)
  at org.apache.spark.sql.SparkSession$Builder.$anonfun$getOrCreate$2(SparkSession.scala:949)
  at scala.Option.getOrElse(Option.scala:189)
  at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:943)
  at org.apache.spark.repl.Main$.createSparkSession(Main.scala:106)
  ... 55 elided
<console>:14: error: not found: value spark
       import spark.implicits._
              ^
<console>:14: error: not found: value spark
       import spark.sql
              ^

请帮助我成功发射火花，因为我不明白我可能错过了在这一点。

apache-spark

pyspark

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-12-05 14:44:29

最后，我成功了，所以让我分享我所学到的，以便将来参考，以防其他人以后也会在Apache安装上挣扎。在Windows 10计算机上安装Apache时，有三个关键方面。

确保安装了Java 8！我们中的许多人都陷入了下载现在默认的Java 17的陷阱，Apache不支持它。有一个选项可以在Java 8或Java 11之间选择，但基于讨论在这条线上，我得出结论，对于我的快速POC示例来说，Java11JDK和JRE不值得那么麻烦，因此我选择了Java8，JDK和JRE都可以轻松从Oracle网站下载。请注意，您选择的版本越晚，它就越安全，因此对于更严重的问题，我可能会选择Java 11。
将新安装的Java文件夹移动到C驱动器。为Java8JDK创建C:\jdk文件夹，为Java8JRE创建C:\jre文件夹。然后，就不需要一个JAVA_HOME环境变量了，因为它们都在C驱动器的底部。
使用了最新的稳定版本Spark!，该版本是从2021年10月开始发布的，目前在Apache网站上提供的3.2.0版本已经多次被报道在初始化Spark上下文时提供了这样和其他类似的问题。因此，我尝试回到以前的版本。具体来说，我下载了ApacheSparkVersion3.0.3，发布于2021年6月，并将SPARK_HOME环境变量指向新提取的文件夹：C:\Spark\spark-3.0.3-bin-hadoop2.7

经过所有这些修改后，我关闭了所有命令行窗口，打开了一个新窗口，运行了spark-shell，最后，我得到了对Spark欢迎屏幕的追捧：

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.3
      /_/

Using Scala version 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_301)

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70233918

复制

相似问题

问在None.org.apache.spark.api.java.JavaSparkContext错误地执行Win10安装时的火花
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在None.org.apache.spark.api.java.JavaSparkContext错误地执行Win10安装时的火花EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在None.org.apache.spark.api.java.JavaSparkContext错误地执行Win10安装时的火花
EN