为了运行Scala spark作业和运行spark shell查询……我已经SSHing进入电子病历的主节点,现在负责管理云的团队不允许我通过SSH进入电子病历主节点。可以利用的替代模式有哪些?
发布于 2018-09-07 07:01:51
如果云团队乐于允许访问齐柏林飞艇,那么它就是你最好的选择。
%spark
解释器相当于在笔记本段落中运行的spark-shell
。
默认情况下,它还会导入spark.sql
、SparkContext
等重要内容,因此您不需要导入任何内容,只需运行代码即可:
%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()
val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()
(spark-shell
也可以做到这一点,但我用得还不够多,还不足以让我随手知道)
由于齐柏林飞艇实际上是在Spark Master节点上运行的,您甚至可以使用shell解释器%sh
访问主节点的操作系统,例如:
%sh
ls /
aws s3 cp s3://mybucket/myfile /
当然,您的访问权限取决于操作系统的权限。
请注意,一旦你杀死集群,你的笔记本也会消失!如果可能,请确保下载它。
https://stackoverflow.com/questions/52210621
复制相似问题