我有一个PySpark代码/应用程序。运行它的最佳方法是什么(利用PySpark的最大功率),使用python interpreter还是使用spark-submit
因此,here的回答几乎是相似的,但并没有详细解释。我很想知道为什么?
任何帮助都是非常感谢的。提前谢谢。
发布于 2018-12-26 10:16:49
我假设当您说python解释器时,您所指的是pyspark。
您可以使用pySpark解释器,使用submit,甚至可以使用多种可用的记事本(木星/齐柏林)运行星火代码。
通常,当我们为了理解或探索的目的而学习或做一些非常基本的操作时,我们使用pySpark解释器。
这通常在您用pySpark编写了整个应用程序并打包到py文件中时使用,这样您就可以将整个代码提交给Spark集群执行。
稍微打个比方也许会有帮助。让我们以Unix命令为例。我们可以直接在命令提示符上执行shell命令,也可以创建shell脚本(.sh)来立即执行bunch指令。类似地,您也可以考虑pyspark解释器和submit实用程序,在pySpark解释器中,您可以执行单独的命令。但是,您可以将spark应用程序打包到py文件中,并使用submit实用程序执行。
希望这能有所帮助。
致以敬意,
奈拉杰
发布于 2019-01-06 01:14:19
在上运行作业将始终处于客户端模式。当你使用火花提交时,你可以在两种模式下执行它。即客户端或集群
https://stackoverflow.com/questions/53869398
复制相似问题