将文件本地保存在EMR群集上运行的jupyterhub笔记本中

、、、、

我正在使用Terraform创建一个EMR集群(emr-5.24.0)，部署到一个私有子网，其中包括Spark、Hive和JupyterHub。我已经在部署中添加了额外的配置JSON，这应该会将Jupiter笔记本的持久性添加到S3中(而不是本地磁盘上)。整个架构包括一个连接到S3的VPC端点，并且我能够访问我试图将笔记本写入的存储桶。调配群集

浏览 33提问于2019-06-26得票数 0

1回答

、、、、

在Amazon EMR上使用Jupyterhub应用程序接口(通过SSH隧道)时，默认文件资源管理器显示为/user/jovyan/tree。这是什么目录?如何将文件(比如matplotlib图)从笔记本中保存到本地空间？常见的把戏有 os.chdir(sys.path[0]) print(os.getcwd()) 显示/mnt/tmp，它实际上并不是本地</

浏览 20提问于2021-10-25得票数 1

3回答

Pyspark EMR笔记本-无法将文件保存到EMR环境

、、

我在电子病历上的Pyspark Notebook上工作，并使用toPandas()将pyspark数据帧转换为pandas数据帧。现在，我想使用以下代码将此数据帧保存到本地环境：但我一直收到权限错误： [Errno 13] Permission

浏览 9提问于2020-06-25得票数 2

1回答

在EMR上向木星/木星中心的PySpark内核添加库

、、

我试图在PySpark3中使用Matplotlib，JupyterHub (0.9.4)在AWS (5.20)上的码头上运行。在该JupyterHub上预装了4个内核: Python、PySpark、PySpark3和Spark。使用Python内核导入Matplotlib没有问题。一直想找个男的，但没有运气。谢谢和问候，艾维尔

浏览 0提问于2019-01-13得票数 2

回答已采纳

1回答

如何对多用户的JupyterHub进行压力/负载测试？

、、、、

我按照以下链接在AWS EMR集群上设置JupyterHub的教程操作：我已经启动并运行了集群，但现在我的问题是如何进行压力/负载测试？(例如，模拟100个用户同时在笔记本上运行)。在课堂环境中，我有大约30个用户挤到我的集群中运行笔记本练习，但当更多的人开始执行笔记本中的代码块时

浏览 0提问于2017-10-04得票数 0

1回答

在没有EMR的情况下运行本地DynamoDB spark作业

、、

我想在不使用EMR集群的情况下运行本地Dynamodb spark作业，该作业从一些表中读取数据并将其写入到parquet / CSV文件中。我没有找到任何支持这一点的火花发电机连接器，也许你有什么想法？我的代码示例：import org.apache.hadoop.dynamodb.read.DynamoDBIn

浏览 37提问于2018-09-05得票数 0

回答已采纳

1回答

嗨，当我创建EMR集群时。状态说明它正在创建，但是58分钟后，它抛出错误，表示Master - 1: Error provisioning instances。我正在跟踪AWS关于如何创建EMR集群的文档。https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html 在AWS上创建电子病历集群(从所附文件中获取的<

浏览 0提问于2022-01-15得票数 0

回答已采纳

1回答

有没有办法在EMR中加载install-interpreter.sh文件，以便加载第三方解释器？

、、

我正在运行一台Apache Zeppelin笔记本，我正在尝试将jdbc和/或postgres解释器加载到我的笔记本中，以便从Zeppelin写入postgres DB。加载新解释器的主要资源here告诉我运行下面的代码来获得其他解释器： ./bin/install-interpreter.sh --all 但是，当我在EMR终端中运行此命令时，我发现EMR</

浏览 4提问于2019-05-16得票数 0

4回答

EMR笔记本安装附加库

、、、、

我有一个令人惊讶的困难的时间与更多的图书馆通过我的电子病历笔记本。EMR的AWS接口允许我创建木星笔记本并将它们附加到正在运行的集群中。我想在里面使用更多的库。SSHing进入机器并以ec2-user或root的形式手动安装不会使笔记本可以使用库，因为它显然使用livy用户。引导操作为hadoop安装东西。我无法从笔记本

浏览 0提问于2019-02-14得票数 16

2回答

是否升级EMR集群？

、、

我在EMR上使用Spark、Zeppelin、Hue等配置了一个小的、长期运行的集群。我已经配置了色调用户，我在Zeppelin中有几个我正在使用的笔记本。一切都运行良好。但是，我运行的是emr-4.3.0，我想升级到emr-4.5.0映像。我不想重新创建集群，因为我需要重新配置所有应用程序，并弄清楚如何传输用户数据(保存的笔记本、色调保存<em

浏览 3提问于2016-04-12得票数 2

1回答

在创建AWS EMR之后，将更多的Python包/库安装到每个集群

、、、

我最近在JupyterHub上使用了Spark和JupyterHub。我知道在创建EMR之前，我可以将引导程序设置为在每个集群中设置环境，比如Python包/库。但是，如果我已经启动了EMR，那么如何在不重新启动EMR的情况下安装更多的Python包/库？我搜索并得到了一些答案，我可以通过木星中心的手机安装它。install_pypi_packages can only use

浏览 12提问于2020-05-22得票数 4

1回答

在所有spark executors和驱动程序上执行脚本或小函数，而不使用DataFrame或RDD

、、、、

我正在尝试使用Spark Structured Streaming从Kafka topic中读取数据。Kafka Broker启用了SSL。因此，我需要将私有CA证书安装/导入到spark驱动程序和执行器上的TrustStore文件中。s3中的这个spark脚本包含有关私有CA证书文件(.pem)所在位置(在单独的s3位置上)的信息。我查找了一些方法来做到这一点。我可以创建一个虚拟<em

浏览 6提问于2020-07-12得票数 0

1回答

用纱线客户端代替livy的Sagemaker笔记本到EMR火花源

、、、

我知道，关于如何通过SparkMagic预装的内核将Sagemaker笔记本连接到EMR集群上，有很好的教程，但是我们希望使用纱线-客户端模式(而不是livy )连接到集群，以便能够使用我们已经拥有的Sagemaker实例中的库和信任，这个想法是在巨大的数据集上运行python代码，获得摘要，并使用我们在sag产笔记本中已经拥有的大量python库和自定义内部库来

浏览 8提问于2022-06-13得票数 0

1回答

在重新创建EMR群集后保持HDFS状态

、、、

在重新创建emr群集后，是否可以将HDFS存储的状态保留在emr群集上？根据我的经验，所有存储在本地的文件都会丢失。是否可以选择使用已挂载的卷，例如EFS，并将EMR集群挂载到该文件挂载上？dfs.datanode.data.dir</name> <value>file:/&

浏览 12提问于2020-03-21得票数 0

2回答

如何在EMR中添加python火花步骤？

、

我正在尝试创建一个aws数据池任务，这将创建一个电子病历集群，并运行一个简单的wordcount.py火花程序。我使用了datapipeline定义，其中的步骤很简单，如下所示：现在，当我激活任务时，我会得

浏览 7提问于2016-06-21得票数 2

2回答

如何在远程星火库集群上运行本地Python脚本？

、、、、

我在一个木星笔记本上运行了一个本地Python脚本，它在我的机器上运行我的本地Spark集群上的作业：sqlCtx= pyspark.SQLContext(sc) 如何将此更改为连接字符串，以便在AWS中运行我的EMR集群<

浏览 0提问于2018-11-02得票数 0

回答已采纳

3回答

指定JupyterHub路径变量

、、

我正在安装jupyterhub。我成功地安装了jupyterhub，使用：npm install -g configurable-http-proxy"jupyterhub" is not recognized as an internal or external command我将C:\User

浏览 5提问于2017-01-03得票数 0

回答已采纳

1回答

如何篡改一个jupyer笔记本项目？

、、

我有一个由6个不同的木星笔记本和4个CSV文件组成的项目。我也希望我的同事们可以尝试使用这个项目，即使他们没有安装python，也可以使用另一个csv。是否可以通过创建该项目的对接者映像并让他们“播放”笔记本和数据来做到这一点？

浏览 0提问于2022-01-02得票数 3

回答已采纳

1回答

从ECS码头集装箱运行EMR作业

、

我已经将用python编写的ML作业代码包含到一个码头容器中，并能够使用Amazon作为码头服务运行。我想使用星星之火以分布式方式运行，并在亚马逊EMR.Can上部署，建立ECS和EMR之间的连接？

浏览 3提问于2017-05-25得票数 9

回答已采纳

1回答

无法使用群集模式在EMR上运行spark应用程序

、、、

我有一个spark应用程序，我正尝试在amazon EMR上运行它。但是我的应用程序失败了，或者进入运行模式，永远不会退出，同样的代码在2-3分钟内就可以在本地机器上运行。我怀疑我创建spark session的方式有问题，我的主会议如下所示 .master("local[2]") .appNamespar

浏览 1提问于2018-04-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

JupyterHub服务器无法在私有子网中运行的Terraformed EMR群集中启动