运行Spark的EMR笔记本-如何从私有github分支安装其他库

文章/答案/技术大牛

发布

1回答

apache-spark、jupyter-notebook、amazon-emr

我想在EMR Notebook virtualenv中安装一个python库，就像在sc.install_pypi_package("arrow==0.14.0", "https://pypi.orgpython库并不是以pypi包的形式发布的，而是位于私有github存储库的自定义分支上。我如何才能参考git repo并为AWS

浏览 3提问于2020-01-01得票数 2

4回答

EMR笔记本安装附加库

bash、amazon-web-services、jupyter-notebook、libraries、amazon-emr

我有一个令人惊讶的困难的时间与更多的图书馆通过我的电子病历笔记本。EMR的AWS接口允许我创建木星笔记本并将它们附加到正在运行的集群中。我想在里面使用更多的库。SSHing进入机器并以ec2-user或root的形式手动安装不会使笔记本可以使用库，因为它显然使用livy用户。引导操作为hadoop安装<

浏览 0提问于2019-02-14得票数 16

2回答

Sagemaker Studio Pyspark示例失败

amazon-web-services、pyspark、jupyter-notebook、amazon-sagemaker

当我尝试在Sagemaker Studio中使用PySpark运行Sagemaker时，提供了一些示例 import os # See the SageMaker Spark Github repo under sagemaker-pyspark-sdk# to learn how to connect to a remote EMR cl

浏览 20提问于2021-01-18得票数 2

回答已采纳

1回答

用纱线客户端代替livy的Sagemaker笔记本到EMR火花源

python、pyspark、amazon-emr、amazon-sagemaker

我知道，关于如何通过SparkMagic预装的内核将Sagemaker笔记本连接到EMR集群上，有很好的教程，但是我们希望使用纱线-客户端模式(而不是livy )连接到集群，以便能够使用我们已经拥有的Sagemaker实例中的库和信任，这个想法是在巨大的数据集上运行python代码，获得摘要，并使用我们在sag产笔记本中已经拥有的大量python库和自定义内部库来完成摘要的

浏览 8提问于2022-06-13得票数 0

1回答

如何在电子病历上从S3桶中读取XML文件？

xml、amazon-web-services、pyspark、amazon-emr

我已将XML文件存储在S3桶中，并希望在输入以下内容后在EMR上读取它们： sqlContext.read.format("com.databricks.spark.xml").option("rowTag：：java.lang.ClassNotFoundException:未能找到数据源: com.databricks.spark.xml。请在找到包裹

浏览 0提问于2019-08-11得票数 0

2回答

如何从本地运行的Spark Shell连接到Spark EMR

apache-spark

我已经创建了一个Spark EMR集群。我希望在本地主机或EMR集群上执行作业。假设我在本地计算机上运行spark-shell，我如何告诉它连接到Spark EMR集群，要运行的确切配置选项和/或命令是什么？

浏览 2提问于2016-06-06得票数 5

3回答

AWS EMR火花1.0

amazon-web-services、apache-spark、emr

有没有办法强迫亚马逊EMR使用Spark1.0.1？当前可选择的版本停留在1.4.1。我在MLlib中使用交替的最小二乘实现，自v1.1以来，它们已经实现了加权正则化，并且出于特定的原因(研究研究)，我不希望这个实现，而是我试图访问他们在v1.0中实现的非加权正则化版本。我正在与Scala一起使用Zepplin笔记本，如果这有帮助的话。

浏览 5提问于2016-03-28得票数 0

回答已采纳

1回答

如何在电子病历笔记本中安装.jar依赖项？

pyspark、jupyter-notebook、dependencies、amazon-emr

我正在运行一个EMR笔记本(平台: AWS，笔记本: jupyter，内核: PySpark)。我需要安装一个.jar依赖项(sparkdl)来处理一些映像。使用火花-提交，我可以使用：使用本地笔记本，我可以使用-spark2.4-s_2.11')

浏览 3提问于2019-12-17得票数 4

1回答

从ECS码头集装箱运行EMR作业

amazon-emr、amazon-ecs

我已经将用python编写的ML作业代码包含到一个码头容器中，并能够使用Amazon作为码头服务运行。我想使用星星之火以分布式方式运行，并在亚马逊EMR.Can上部署，建立ECS和EMR之间的连接？

浏览 3提问于2017-05-25得票数 9

回答已采纳

4回答

安装SparkR

r、apache-spark、sparkr

我有最后一个版本的R-3.2.1。现在，在执行以下操作之后，我想在R上安装SparkR：我回来了：Warning in install.packages :我还在我的机器上安装了火

浏览 6提问于2015-07-02得票数 52

回答已采纳

1回答

在电子病历从设备上运行命令？

apache-spark、hadoop-yarn、emr、amazon-emr

我正在尝试使用pip install在所有从机器上更新正在运行的EMR集群。我该怎么做呢？我不能使用bootstrap步骤来完成它，因为它是一个长时间运行的EMR，我不能将其删除。EMR集群正在运行Spark & Yarn，所以我通常会使用spark slaves.sh，但我在主节点上找不到该脚本。是不是安装在我找不到的地方？或者有什么方法可以安

浏览 0提问于2016-12-01得票数 9

2回答

设置Jupyter Pyspark在EC2和EMR之间工作

amazon-web-services、apache-spark、amazon-ec2、pyspark、jupyter-notebook

我在EMR里运行了一个spark集群。我还有一台运行在第二台EC2机器上的jupyter笔记本电脑。我想通过jupyter在我的EC2实例上使用spark。我正在寻找有关如何配置spark以从EC2访问EMR集群的参考资料。搜索给我的只是关于如何在EMR或EC2上设置spark的</e

浏览 18提问于2017-06-28得票数 0

1回答

如何确保依赖于分支的推送目的地？

git、github

我将在GitHub上开源我的应用程序之一，并希望有以下工作流：将发现合并到prod分支→，将该分支推到向公众开放的GitHib公共存储库</em

浏览 0提问于2021-09-09得票数 1

1回答

EMR 6.1.0上的默认Python3内核不在我的集群上吗？

amazon-web-services、jupyter-notebook、amazon-emr

我注意到在将EMR笔记本附加到带有Hadoop、Spark和Livy的EMR 6.1.0集群上时，出现了一些奇怪的情况。您知道，我在主节点上安装的包在缺省的Python3内核中不可用，但在缺省的PySpark内核中可用。当我在PySpark内核上获得主机名时，我可以看到它与我的主节点的私有DNS名相匹配。然而，当我运行Python3或终端内核时

浏览 12提问于2020-09-18得票数 0

3回答

使用github特定分支的pip安装包

git、pip、branch

我遇到了一个非常奇怪的问题。我尝试从github分支通过pip安装一个包。我在过去已经做过很多次了，它总是有效的。pip install git+https...@my_branch 虽然这在我的本地机器上工作得很好，但当我尝试使用Windows远程机器和我的Ubuntu Vagrant box时，它却不起作用。它不使用my_branch安装包，而是安装主分支。

浏览 0提问于2017-01-06得票数 21

回答已采纳

2回答

您应该如何在Spark* EMR集群上运行jupyter笔记本*

amazon-web-services、apache-spark、amazon-s3、amazon-emr、spark-submit

编辑:这个问题是关于您应该如何定义python/jupyetr-notebook文件的参数，以便在EMR Amazon Spark Cluster上进行spark-submit ...我已经在Amazon AWS (EMR)上创建了Spark Yarn集群，有一个主服务器和3个从服务器。我在上面创建了一个jupyter笔记本(并且能够使用PySpark内核运行和查看输出)。我已经使用PuttY连接到集群(我

浏览 1提问于2020-07-10得票数 1

2回答

JupyterHub服务器无法在私有子网中运行的Terraformed EMR群集中启动

amazon-s3、terraform、amazon-emr、terraform-provider-aws、jupyterhub

我正在使用Terraform创建一个EMR集群(emr-5.24.0)，部署到一个私有子网，其中包括Spark、Hive和JupyterHub。我已经在部署中添加了额外的配置JSON，这应该会将Jupiter笔记本的持久性添加到S3中(而不是本地磁盘上)。整个架构包括一个连接到S3的VPC端点，并且我能够访问我试图将笔记本写入的存储桶。"s3.persistence.bucket": "

浏览 33提问于2019-06-26得票数 0

1回答

开始-火种，IPython笔记本与火花放电

python、hadoop、apache-spark、ipython-notebook、pyspark

我想了解如何设置一切，以便能够有一个iPython笔记本和火花放电工作。如果我错了，请告诉我，但我想我可以用这个：()aws emr create-cluster --name "Spark cluster" --release-labelemr-4.1.0 --applications Name=Spark --ec2-attributes

浏览 4提问于2015-10-23得票数 0

回答已采纳

1回答

EMR类路径冲突

amazon-web-services、apache-spark、amazon-emr

我正在运行一个带有fat阴影jar的EMR步骤(星火提交)，但是从EMR获取的旧版本库会导致NoSuchMethod异常。如何确保app jar中的</em

浏览 1提问于2021-05-18得票数 3

1回答

Spark内核笔记本之间的集群共享

amazon-web-services、apache-spark、jupyter-notebook、amazon-emr、amazon-sagemaker

我希望从概念上理解在Spark内核(如SparkMagic)上运行的几个Jupyter笔记本如何共享一个工作节点集群。如果用户A在计算单元中持续或缓存了一个大的RDD (无论是在磁盘上还是在内存中)，然后出去度周末，但没有停止他/她的笔记本，这是否会降低其他用户在用户A的笔记本运行时运行其作业的能力？也就是说，共享集群

浏览 20提问于2021-01-25得票数 1

点击加载更多