我有一个Scala应用程序,它在独立模式下使用Spark2.1。应用程序将运行2小时并完成。它应该每月运行一次。
我发现了几种结合Spark和Kubernetes的方法:
大多数文档描述了如何在Kubernetes上运行Spark集群。在Kubernetes上运行火种独立的方法是什么?
发布于 2017-06-27 23:46:36
对于Kubernetes上的独立火花,存在的两个典型示例是:
这些程序目前正在运行过时的Spark版本,需要更新到2.1,并很快更新到2.2。(减贫战略,欢迎:)。
https://github.com/apache-spark-on-k8s/spark分支并不是独立的模式,它的目标是使Spark能够直接在Kubernetes集群上启动。它最终将被合并为上游火花。文档,如果您想使用它,是这里。
到目前为止,如果您想使用Spark2.1,选项是:要么编译自己的映像,要么用apache-星星之火K8中的Spark发行版打包应用程序
发布于 2017-06-30 13:47:11
我首先尝试了一个最简单的想法:方法3:
构建我自己的应用程序的Docker映像,包括火花二进制:http://blog.madhukaraphatak.com/scaling-spark-with-kubernetes-part-5/
代码示例:https://github.com/phatak-dev/kubernetes-spark
效果很好。
发布于 2019-04-01 11:16:10
检查我的https://github.com/radanalyticsio/spark-operator
它在Kubernetes和OpenShift上部署了独立的星星之火,还支持K8s上的本地调度程序。默认星火版本为2.4.0
您可以在项目的自述文件中找到非常快速的启动,但是这里有一种使用操作符部署星火集群的方法:
# create operator
kubectl apply -f https://raw.githubusercontent.com/radanalyticsio/spark-operator/master/manifest/operator.yaml
# create cluster
cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: SparkCluster
metadata:
name: my-cluster
spec:
worker:
instances: "2"
EOFhttps://stackoverflow.com/questions/44764743
复制相似问题