腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(268)
视频
沙龙
0
回答
尝试
从
Spark
History
Server
的
k8s
部署
读取
S3
存储
桶
时
出现
HTTP400
apache-spark
、
amazon-s3
、
amazon-eks
我正在
尝试
按照以下说明在EKS上
部署
Spark
History
Server
: https://github.com/helm/charts/tree/master/stable/
spark
-
history
-
server
.我希望我
的
Spark
作业写入
S3
存储
桶
,并希望历史服务器<em
浏览 47
提问于2021-01-18
得票数 0
1
回答
emrfs同步和导入停滞且无法工作
apache-spark
、
hadoop
、
amazon-s3
、
amazon-emr
在使用
s3
源运行
spark
作业
时
,以及在运行emrfs sync或emrfs import
时
,我一直收到不稳定错误。它运行了一段时间(增加了10624 s3key),然后就卡住了。此外,
Spark
read不运行,并在等待几分钟后抛出不一致
的
错误/异常。你知道为什么会发生这种情况,以及如何避免这个问题吗?emrf
浏览 9
提问于2019-11-20
得票数 0
2
回答
每当文件落入
s3
存储
桶
时
,
Spark
都会
读取
新交付
的
文件
amazon-web-services
、
apache-spark
、
amazon-s3
当文件登陆到
s3
中
时
,我想使用
Spark
来
读取
文件。 我不想使用lambda函数,相反,我正在
尝试
寻找一些其他方法,每当较新
的
文件落入
s3
存储
桶
时
,都可以
从
亚马逊
s3
中
读取
文件。AWS是否向
Spark
提供任何此类事件通知?
浏览 1
提问于2020-04-21
得票数 0
2
回答
Spark
Thrift服务器用于暴露大文件?
java
、
memory
、
apache-spark
、
driver
、
thrift
尝试
查询一个170 MB
的
地块文件(
从
表中选择*)
时
,总是失败,
出现
Java Out Out Memory Exception (Java Heap Space)异常。即使有几个Executor/Worker和executors
的
任务也会成功完成(
从
Spark
UI
读取
)。最后,当JVM内存增加到25 GB,
Spark
Driver内存增加到21 GB
时
,查询可以成功完成!瓶颈似乎在驱动程
浏览 0
提问于2016-10-12
得票数 3
1
回答
在
Spark
Structured Streaming中未从
S3
提取新数据
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我正在
尝试
从
Spark
Structured Streaming中
的
S3
存储
桶
中
读取
数据。下面的代码用于获取现有数据。但是,当新数据添加到
存储
桶
中
时
,
Spark
不会选择这一点。val lines =
spark
.readStream.schema(schemaImp).format("com.databricks.
spark
.avro&
浏览 0
提问于2016-12-10
得票数 3
5
回答
spark
读取
S3
中
的
分区数据部分在冰川中
apache-spark
、
amazon-s3
、
partitioning
、
amazon-glacier
我在
S3
的
拼图中有一个按日期(dt)分区
的
数据集,其中最旧
的
日期
存储
在AWS Glacier中,以节省一些钱。例如,我们有..。/dt=2017-07-24/ [not in glacier]val from = "2017-07-15"val path = &
浏览 4
提问于2017-08-21
得票数 7
1
回答
如何获得访问
S3
桶
中对象
的
用户列表?
amazon-web-services
、
amazon-s3
、
access-log
、
amazon-cloudtrail
场景:我
的
客户端有80+
S3
存储
桶
,1000+应用程序正在他们
的
AWS帐户中运行。我想获得访问所有
S3
桶
中
的
对象
的
IAM用户/角色
的
列表。方法1:最初
尝试
从
CloudTrail Event
History
获取它,但没有成功。 从上面的映像中,您可以看到CloudTrail无法记录对象级别的日志记录。但是它捕获了通过帐户进行
的
所有管理
浏览 3
提问于2020-11-13
得票数 1
2
回答
java.io.IOException:不适用于方案:
s3
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
我正在
尝试
读取
s3
桶
中
的
数据,并且我正在使用jupyter笔记本。我已经在我
的
机器上安装了
Spark
,并通过导入findspark在jupyter中使用它findspark.init() 但是,当我试图
从
<
浏览 0
提问于2021-10-27
得票数 1
1
回答
shiny-
server
中
的
环境变量
amazon-web-services
、
amazon-s3
、
shiny
、
shiny-server
我正在
尝试
使用shiny-
server
部署
一个闪亮
的
应用程序。该应用程序使用AWS包
从
S3
存储
桶
中
读取
一些文件,这需要将凭据
存储
在环境变量或.Renviron文件中。 可以理解,。
浏览 0
提问于2016-09-07
得票数 1
1
回答
在Kubernetes上启动UI历史服务器?
apache-spark
、
kubernetes
只有当我去
的
时候我才能看到
Spark
。这个是可能
的
吗?
浏览 0
提问于2018-08-11
得票数 14
回答已采纳
1
回答
Spark
/Hadoop -无法使用服务器端加密保存到
s3
hadoop
、
encryption
、
amazon-s3
、
apache-spark
、
emr
我正在运行AWS EMR集群来运行
spark
作业。为了使用hadoop
存储
桶
,使用访问密钥、密钥、enableServerSideEncryption和用于加密
的
算法来设置
s3
配置。程序能够
从
s3
存储
桶
中
读取
,执行处理。但在
尝试
将结果保存到
s3
时
失败,这强制要求必须对数据进行加密。如果
存储
桶
允许未加密
的
数据,那
浏览 0
提问于2016-02-22
得票数 6
1
回答
使用
Spark
从
S3
读取
csv
时
出现
Py4JJavaError错误
amazon-web-services
、
csv
、
apache-spark
、
amazon-s3
我正在
尝试
用
Spark
从
亚马逊网络服务
的
S3
存储
桶
中
读取
CSV文件,目前正在通过Jupyter笔记本进行
读取
。在为
spark
设置亚马逊网络服务
S3
配置后,我在
尝试
读取
CSV
时
遇到以下错误: Py4JJavaError: An error occurred while calling SOMERANDOMNAME.csvXXXXXXXXXXX 我设
浏览 45
提问于2021-02-10
得票数 0
回答已采纳
2
回答
Spark
RDD.saveAsTextFile正在向
S3
写入空文件
amazon-s3
、
apache-spark
我正在
尝试
使用
Spark
1.6 (
spark
-1.6.0-bin-hadoop2.4.tgz)执行一个map-reduce作业,该作业
从
S3
读取
输入并向其中写入输出。我使用相同
的
存储
桶
来输出文件:outputRDD.saveAsTextFile(s3n://bucket/path/to/output/) 当我
的
输入非常小(< 100条记录)
时<
浏览 1
提问于2016-01-26
得票数 2
2
回答
如何获取亚马逊网络服务CodeDeploy日志并在BitBucket管道中显示它们
amazon-web-services
、
logging
、
aws-code-deploy
、
bitbucket-pipelines
当脚本在
部署
过程中失败
时
,我想从我
的
亚马逊EC2实例中获取CodeDeploy日志,然后在BitBucket管道中显示日志。有没有
从
CodeDeploy获取日志
的
接口?
浏览 0
提问于2019-12-13
得票数 4
2
回答
如何在Java中并行运行
spark
程序
java
、
apache-spark
、
parallel-processing
、
apache-spark-dataset
、
hadoop-partitioning
所以我有一个java应用程序,它有
spark
maven依赖项,在运行它
的
时候,它会在运行它
的
主机上启动
spark
server
。服务器实例有36个核心。我正在指定SparkSession实例,其中我并行地提到了内核
的
数量和其他配置属性,但是当我使用htop查看统计数据
时
,它似乎并没有使用所有的内核,而只使用了1个内核。.appName("my-
spark
") .config("
sp
浏览 6
提问于2018-10-06
得票数 0
3
回答
当对静态文件使用
s3
,boto,django-storage
时
,连接被同级重置
django
、
amazon-s3
、
static-files
、
django-storage
我正在
尝试
改用亚马逊
s3
来托管我们
的
django项目的静态文件。我用
的
是django,boto,django-storage和django-Compreser.当我在我
的
dev服务器上运行collect static
时
,我得到了错误我所有静态文件
的
大小都是74MB,看起来并不太大。这是完整
的
跟踪信息。 Traceback (most recent c
浏览 44
提问于2013-12-07
得票数 23
2
回答
JupyterHub服务器无法在私有子网中运行
的
Terraformed EMR群集中启动
amazon-s3
、
terraform
、
amazon-emr
、
terraform-provider-aws
、
jupyterhub
我正在使用Terraform创建一个EMR集群(emr-5.24.0),
部署
到一个私有子网,其中包括
Spark
、Hive和JupyterHub。我已经在
部署
中添加了额外
的
配置JSON,这应该会将Jupiter笔记本
的
持久性添加到
S3
中(而不是本地磁盘上)。 整个架构包括一个连接到
S3
的
VPC端点,并且我能够访问我试图将笔记本写入
的
存储
桶
。登录到主节点并
尝试
启动/重新启动j
浏览 33
提问于2019-06-26
得票数 0
2
回答
电子病历
Spark
无法将数据帧保存到
S3
scala
、
amazon-web-services
、
hadoop
、
apache-spark
、
amazon-s3
第一个策略包含允许所有
s3
权限
的
操作。 当EC2实例启动
时
,它们承担此IAM角色,并通过STS生成临时凭据。我做
的
第一件事是使用com.databricks.
spark
.redshift格式将表
从
我
的
Redshift集群
读取
到
Spark
Dataframe中,并使用与我对EMR JobFlowRole所做
的
相同
的
据我所知,这将在Redshift上运行一个UNLOAD命令,将其转储到我指定
的<
浏览 3
提问于2017-02-21
得票数 3
1
回答
wholeTextFile() API速度极慢,不可伸缩
apache-spark
、
amazon-s3
问题:我们使用wholeTextFile()接口
从
S3
读取
文件。但是由于下面提到
的
原因,这个API非常慢。问题是如何解决这个问题?以下是我们到目前为止
的
分析: 问题是我们正在使用
Spark
WholeTextFile API
读取
s3
文件。WholeTextFile接口分两步工作。第一步,driver/master
尝试
列出所有的
S3
文件,第二步是driver/master
尝试
拆分文
浏览 3
提问于2021-10-02
得票数 1
1
回答
Hadoop可以列出
s3
内容,但是
spark
-shell抛出了Hadoop
hadoop
、
amazon-web-services
、
amazon-s3
、
apache-spark
我
的
传奇故事还在继续-当ClassNotFoundException被抛出
时
,我在
尝试
访问
S3
或S3n
时
反复遇到错误。/hadoop/common文件夹中,现在可以在命令行上使用had
浏览 0
提问于2016-03-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于K8S构建Zeppelin大数据可视化分析工具
朴朴基于AWS EMR的数据沙盒平台演变
在首次发布三周之后,MLflow迎来了0.2版本
Apache Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战
浅谈云上攻防——Web应用托管服务中的元数据安全隐患
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券