腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在电子病历
笔记本
中
安装.jar依赖项?
pyspark
、
jupyter-notebook
、
dependencies
、
amazon-emr
我正在
运行
一个
EMR
笔记本
(平台: AWS,
笔记本
: jupyter,
内核
:
PySpark
)。我需要安装一个.jar依赖项(sparkdl)来处理一些映像。
笔记本
上做同样
的
事情呢?但是
笔记本
似乎
无法
到达
存储
库…另外,我也不知道如何让它加载
S3
备用
桶
…上复制
的
文件
%%configure -f { "c
浏览 3
提问于2019-12-17
得票数 4
1
回答
AWS
emr
驱动缸
amazon-web-services
、
apache-spark
、
pyspark
、
amazon-emr
我正在通过以下方法尝试在
pyspark
笔记本
上使用AWS
EMR
5.29
中
的
外部驱动程序:{ "conf": {"spark.jars":"
s3
://bucket/spark-redshift_2.10-2.0.1.jar," "
s3
://bucket/min
浏览 3
提问于2021-02-26
得票数 1
回答已采纳
1
回答
将
文件
本地保存在
EMR
群集上
运行
的
jupyterhub
笔记本
中
python
、
pyspark
、
jupyter-notebook
、
amazon-emr
、
jupyterhub
在Amazon
EMR
上使用Jupyterhub应用程序接口(通过SSH隧道)时,默认
文件
资源管理器显示为/user/jovyan/tree。这是什么目录?如何将
文件
(比如matplotlib图)
从
笔记本
中保存到本地空间?常见
的
把戏有 os.chdir(sys.path[0]) print(os.getcwd()) 显示/mnt/tmp,它实际上并不是本地目录。
浏览 20
提问于2021-10-25
得票数 1
3
回答
Pyspark
EMR
笔记本
-
无法
将
文件
保存到
EMR
环境
pandas
、
pyspark
、
amazon-emr
我在电子病历上
的
Pyspark
Notebook上工作,并使用toPandas()将
pyspark
数据帧转换为pandas数据帧。
浏览 9
提问于2020-06-25
得票数 2
1
回答
有没有一种方法可以让别人在没有任何
下载
权限
的
情况下访问AWS
EMR
/Ec2机器?
amazon-web-services
我们没有通过
S3
授予任何人任何
下载
权限,但是仍然可以使用scp通过电子病历集群
下载
数据。 是否可以给某人集群dns,但确保他们可以使用集群
中
的
数据,而不是
下载
它?
浏览 2
提问于2017-04-04
得票数 0
回答已采纳
2
回答
从
pyspark
作业在
s3
存储
桶
中
动态创建
文件
夹
python-3.x
、
amazon-web-services
、
amazon-s3
、
pyspark
我正在将数据写入
s3
存储
桶
,并使用
pyspark
创建拼图
文件
。我
的
存储
桶
结构如下:子
文件
夹和表如果
文件
夹不存在,这两个
文件
夹应该在
运行
时创建,如果
文件
夹存在,拼图
文件
应该在
文件
夹表
中
。当我在本
浏览 2
提问于2020-12-03
得票数 0
1
回答
无法
从
运行
pyspark
内核
的
emr
笔记本
中
的
s3
存储
桶
下载
文件
amazon-s3
、
pyspark
、
jupyter-notebook
、
amazon-emr
我已经做了一个电子病历集群,有spark和其他一些工具,但当启动电子病历
笔记本
并尝试访问
s3
存储
桶
文件
时,我
无法
从
s3
下载
该
文件
获得许可被拒绝错误。所有默认角色都具有
s3
的
访问权限。 ?
浏览 22
提问于2020-06-27
得票数 2
回答已采纳
3
回答
Amazon和Hive:在将子目录加载到外部表时获得"java.io.IOException:而不是
文件
“异常
hadoop
、
amazon-web-services
、
amazon-s3
、
hive
、
emr
我在
s3
中
有一些日志数据,它们都在同一个
桶
中
,但是在不同
的
子目录下,例如:"
s3
://bucketname/2014/08/01/abc/file2.bz" "
s3
:/&
浏览 3
提问于2014-09-07
得票数 2
回答已采纳
1
回答
在
EMR
步骤中使用AWS
EMR
、python
pyspark
脚本
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
、
emr
我尝试在aws
emr
中
运行
一个非常简单
的
pyspark
脚本作为步骤,如下所示:sc = SparkContext()dd=df.select(df) write_to = "
s3</em
浏览 2
提问于2018-04-22
得票数 0
2
回答
如何将电子病历配置为通过用户访问Id和密钥
从
S3
存储
桶
中
读取
amazon-web-services
、
amazon-s3
、
amazon-iam
、
amazon-emr
有没有办法读取不在您
的
亚马逊网络服务账户
中
的
S3
存储
桶
,并且您不能承担访问它
的
角色-特别是在电子病历
中
。这在本地是有效
的
,但是当尝试在使用
EMR
的
EMR
上
运行
时,我
无法
使其工作,我总是得到403: com.amazon.ws.
emr
.hadoop.fs.shaded.com.amazonaws.services.s3,我
浏览 1
提问于2020-05-05
得票数 0
1
回答
将
文件
从
S3
存储
桶
读取到
PySpark
数据帧Boto3
apache-spark
、
amazon-s3
、
pyspark
、
boto3
如何将
S3
存储
桶
中
的
大量
文件
加载到单个
PySpark
数据帧
中
?我在一个
EMR
实例上
运行
。如果
文件
是本地
的
,我可以使用SparkContext textFile方法。但是当
文件
在
S3
上时,我如何使用boto3加载多个不同类型
的
文件
(CSV,JSON,...)转换成一个单独
的
数据帧进行处理?
浏览 0
提问于2018-05-29
得票数 3
回答已采纳
2
回答
JupyterHub服务器
无法
在私有子网
中
运行
的
Terraformed
EMR
群集中启动
amazon-s3
、
terraform
、
amazon-emr
、
terraform-provider-aws
、
jupyterhub
我已经在部署
中
添加了额外
的
配置JSON,这应该会将Jupiter
笔记本
的
持久性添加到
S3
中
(而不是本地磁盘上)。 整个架构包括一个连接到
S3
的
VPC端点,并且我能够访问我试图将
笔记本
写入
的
存储
桶
。调配群集后,JupyterHub服务器
无法
启动。 登录到主节点并尝试启动/重新启动jupyterhub
的
docker容器不会有任何帮助。&qu
浏览 33
提问于2019-06-26
得票数 0
1
回答
将
文件
从
s3
移动到电子病历并解压(Scala)
scala
、
amazon-web-services
、
apache-spark
、
amazon-s3
我在
S3
上有一个很大
的
.tar.gz
文件
,我想把它移动到
EMR
HDFS (或临时
S3
存储
桶
)并解压缩,这样我就可以读取里面的一些小
文件
了。我现在正在做
的
是有一个外壳脚本将
文件
从
S3
下载
到本地(使用AWS CLI),并让scala/spark作业在未压缩
的
下载
文件
上
运行
以生成一些结果
浏览 1
提问于2018-02-21
得票数 1
2
回答
您应该如何在Spark
EMR
集群上
运行
jupyter
笔记本
amazon-web-services
、
apache-spark
、
amazon-s3
、
amazon-emr
、
spark-submit
编辑:这个问题是关于您应该如何定义python/jupyetr-notebook
文件
的
参数,以便在
EMR
Amazon Spark Cluster上进行spark-submit ...我已经在Amazon AWS (
EMR
)上创建了Spark Yarn集群,有一个主服务器和3个
从
服务器。我在上面创建了一个jupyter
笔记本
(并且能够使用
PySpark
内核
运行
和查看输出)。我已经使用PuttY连接到集群(我猜是连接到主节点)
浏览 1
提问于2020-07-10
得票数 1
1
回答
电火花在AWS电子病历
中
的
应用
amazon-s3
、
pyspark
、
amazon-emr
我对
PySpark
和AWS都是新手。我得到了一个小项目,在这个项目中,我需要每小时清除大量
的
数据
文件
,并在此基础上构建聚合数据集。这些数据
文件
存储
在
S3
上,我可以利用Spark
中
的
一些基本功能(如filter和map)来派生聚合数据。为了节省出口成本,在执行了一些CBA分析之后,我决定创建一个
EMR
集群并进行pypark调用。这个概念使用由
S3
桶
中
创建
的
文
浏览 4
提问于2020-01-14
得票数 0
2
回答
如何
从
本地
运行
的
Spark Shell连接到Spark
EMR
apache-spark
我已经创建了一个Spark
EMR
集群。我希望在本地主机或
EMR
集群上执行作业。假设我在本地计算机上
运行
spark-shell,我如何告诉它连接到Spark
EMR
集群,要
运行
的确切配置选项和/或命令是什么?
浏览 2
提问于2016-06-06
得票数 5
1
回答
如何在不将压缩
文件
下载
到硬盘驱动器
的
情况下将数据集
从
压缩
文件
上载到
s3
桶
?
amazon-web-services
、
amazon-s3
问题:我需要
的
数据在一个网站
的
压缩
文件
中
,但是,压缩
文件
太大,
无法
下载
到我
的
笔记本
电脑上。 我认为如何解决这个问题:将压缩
文件
上传到
s3
桶
中
,而不
下载
笔记本
中
的
zip
文件
。目标:将zip
文件
放到
s3
桶
上,解压缩
s3
浏览 2
提问于2019-08-29
得票数 1
3
回答
如何
从
AWS
EMR
下载
齐柏林谱仪
笔记本
amazon-web-services
、
emr
、
apache-zeppelin
我正在
运行
一个预装
的
齐柏林飞艇沙箱在AWS
EMR
4.3与火花。 我已经在齐柏林飞艇上创建了一本
笔记本
(在
EMR
集群上),现在我想导出该
笔记本
,以便下次我旋转
EMR
集群时可以快速
运行
它。事实证明,齐柏林飞艇还不支持
笔记本
电脑
的
输出,因为 (?)这很好,因为很明显,如果您可以访问Zeppelin‘安装’
的
文件
夹,那么您可以保存包含
笔记本
的
文
浏览 6
提问于2016-03-03
得票数 2
3
回答
如何修复电火花
EMR
笔记本
- org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient :
无法
实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
的
错误
apache-spark
、
hadoop
、
pyspark
、
amazon-emr
、
hive-metastore
我试图使用spark.sql()或sqlContext.sql()方法在公共数据集中
运行
SQL查询(在这里,火花是我们启动
EMR
时可用
的
SparkSession对象
的
变量),该数据集使用安装了Hadoop、spark和Livy
的
EMR
笔记本
。这个星火
EMR
集群没有安装单独
的
Hive组件,我不打算使用它。我已经尝试寻找这个问题
的
各种原因,其中一个原因可能是电子病历
笔记本
可能没有创建metastore_
浏览 0
提问于2019-09-04
得票数 5
1
回答
AWS :设置
S3
桶
访问
的
hadoop凭据提供程序
amazon-web-services
、
hadoop
、
amazon-s3
、
pyspark
、
amazon-emr
我已经在AWS上建立了一个星火
EMR
集群(Hadoop2.8.5,Spark2.4.4)。我有一个
s3
桶
url,它是访问凭据。在设置了集群并附加了
笔记本
之后,我可以在使用以下方法设置hadoop配置之后,使用spark.read.parquet("s3n://...")
从
存储
桶
中
读取数据: sc.但是,我在许多文档中看到,这是不推荐
的
,因为它将密钥
存储
在日志
中
浏览 3
提问于2020-05-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
朴朴基于AWS EMR的数据沙盒平台演变
轻松构建 PyTorch 生成对抗网络(GAN)
“星”产品”XSKY发布 S3 Console,助力企业轻松玩转非结构化数据可视化管理
Komodo Health 公司如何在 EKS 与 EMR 6 上使用多租户 Notebook 平台建立自助服务分析方案
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券