腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(268)
视频
沙龙
0
回答
尝试
从
Spark
History
Server
的
k8s
部署
读取
S3
存储
桶
时
出现
HTTP400
apache-spark
、
amazon-s3
、
amazon-eks
我正在
尝试
按照以下说明在EKS上
部署
Spark
History
Server
: https://github.com/helm/charts/tree/master/stable/
spark
-
history
-
server
.我希望我
的
Spark
作业写入
S3
存储
桶
,并希望历史服务器<em
浏览 47
提问于2021-01-18
得票数 0
1
回答
emrfs同步和导入停滞且无法工作
apache-spark
、
hadoop
、
amazon-s3
、
amazon-emr
在使用
s3
源运行
spark
作业
时
,以及在运行emrfs sync或emrfs import
时
,我一直收到不稳定错误。它运行了一段时间(增加了10624 s3key),然后就卡住了。此外,
Spark
read不运行,并在等待几分钟后抛出不一致
的
错误/异常。你知道为什么会发生这种情况,以及如何避免这个问题吗?emrf
浏览 9
提问于2019-11-20
得票数 0
2
回答
每当文件落入
s3
存储
桶
时
,
Spark
都会
读取
新交付
的
文件
amazon-web-services
、
apache-spark
、
amazon-s3
当文件登陆到
s3
中
时
,我想使用
Spark
来
读取
文件。 我不想使用lambda函数,相反,我正在
尝试
寻找一些其他方法,每当较新
的
文件落入
s3
存储
桶
时
,都可以
从
亚马逊
s3
中
读取
文件。AWS是否向
Spark
提供任何此类事件通知?
浏览 1
提问于2020-04-21
得票数 0
2
回答
Spark
Thrift服务器用于暴露大文件?
java
、
memory
、
apache-spark
、
driver
、
thrift
尝试
查询一个170 MB
的
地块文件(
从
表中选择*)
时
,总是失败,
出现
Java Out Out Memory Exception (Java Heap Space)异常。即使有几个Executor/Worker和executors
的
任务也会成功完成(
从
Spark
UI
读取
)。最后,当JVM内存增加到25 GB,
Spark
Driver内存增加到21 GB
时
,查询可以成功完成!瓶颈似乎在驱动程
浏览 0
提问于2016-10-12
得票数 3
1
回答
在
Spark
Structured Streaming中未从
S3
提取新数据
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我正在
尝试
从
Spark
Structured Streaming中
的
S3
存储
桶
中
读取
数据。下面的代码用于获取现有数据。但是,当新数据添加到
存储
桶
中
时
,
Spark
不会选择这一点。val lines =
spark
.readStream.schema(schemaImp).format("com.databricks.
spark
.avro&
浏览 0
提问于2016-12-10
得票数 3
5
回答
spark
读取
S3
中
的
分区数据部分在冰川中
apache-spark
、
amazon-s3
、
partitioning
、
amazon-glacier
我在
S3
的
拼图中有一个按日期(dt)分区
的
数据集,其中最旧
的
日期
存储
在AWS Glacier中,以节省一些钱。例如,我们有..。/dt=2017-07-24/ [not in glacier]val from = "2017-07-15"val path = &
浏览 4
提问于2017-08-21
得票数 7
1
回答
如何获得访问
S3
桶
中对象
的
用户列表?
amazon-web-services
、
amazon-s3
、
access-log
、
amazon-cloudtrail
场景:我
的
客户端有80+
S3
存储
桶
,1000+应用程序正在他们
的
AWS帐户中运行。我想获得访问所有
S3
桶
中
的
对象
的
IAM用户/角色
的
列表。方法1:最初
尝试
从
CloudTrail Event
History
获取它,但没有成功。 从上面的映像中,您可以看到CloudTrail无法记录对象级别的日志记录。但是它捕获了通过帐户进行
的
所有管理
浏览 3
提问于2020-11-13
得票数 1
2
回答
java.io.IOException:不适用于方案:
s3
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
我正在
尝试
读取
s3
桶
中
的
数据,并且我正在使用jupyter笔记本。我已经在我
的
机器上安装了
Spark
,并通过导入findspark在jupyter中使用它findspark.init() 但是,当我试图
从
<
浏览 0
提问于2021-10-27
得票数 1
1
回答
shiny-
server
中
的
环境变量
amazon-web-services
、
amazon-s3
、
shiny
、
shiny-server
我正在
尝试
使用shiny-
server
部署
一个闪亮
的
应用程序。该应用程序使用AWS包
从
S3
存储
桶
中
读取
一些文件,这需要将凭据
存储
在环境变量或.Renviron文件中。 可以理解,。
浏览 0
提问于2016-09-07
得票数 1
1
回答
在Kubernetes上启动UI历史服务器?
apache-spark
、
kubernetes
只有当我去
的
时候我才能看到
Spark
。这个是可能
的
吗?
浏览 0
提问于2018-08-11
得票数 14
回答已采纳
1
回答
Spark
/Hadoop -无法使用服务器端加密保存到
s3
hadoop
、
encryption
、
amazon-s3
、
apache-spark
、
emr
我正在运行AWS EMR集群来运行
spark
作业。为了使用hadoop
存储
桶
,使用访问密钥、密钥、enableServerSideEncryption和用于加密
的
算法来设置
s3
配置。程序能够
从
s3
存储
桶
中
读取
,执行处理。但在
尝试
将结果保存到
s3
时
失败,这强制要求必须对数据进行加密。如果
存储
桶
允许未加密
的
数据,那
浏览 0
提问于2016-02-22
得票数 6
1
回答
使用
Spark
从
S3
读取
csv
时
出现
Py4JJavaError错误
amazon-web-services
、
csv
、
apache-spark
、
amazon-s3
我正在
尝试
用
Spark
从
亚马逊网络服务
的
S3
存储
桶
中
读取
CSV文件,目前正在通过Jupyter笔记本进行
读取
。在为
spark
设置亚马逊网络服务
S3
配置后,我在
尝试
读取
CSV
时
遇到以下错误: Py4JJavaError: An error occurred while calling SOMERANDOMNAME.csvXXXXXXXXXXX 我设
浏览 45
提问于2021-02-10
得票数 0
回答已采纳
2
回答
Spark
RDD.saveAsTextFile正在向
S3
写入空文件
amazon-s3
、
apache-spark
我正在
尝试
使用
Spark
1.6 (
spark
-1.6.0-bin-hadoop2.4.tgz)执行一个map-reduce作业,该作业
从
S3
读取
输入并向其中写入输出。我使用相同
的
存储
桶
来输出文件:outputRDD.saveAsTextFile(s3n://bucket/path/to/output/) 当我
的
输入非常小(< 100条记录)
时<
浏览 1
提问于2016-01-26
得票数 2
2
回答
如何获取亚马逊网络服务CodeDeploy日志并在BitBucket管道中显示它们
amazon-web-services
、
logging
、
aws-code-deploy
、
bitbucket-pipelines
当脚本在
部署
过程中失败
时
,我想从我
的
亚马逊EC2实例中获取CodeDeploy日志,然后在BitBucket管道中显示日志。有没有
从
CodeDeploy获取日志
的
接口?
浏览 0
提问于2019-12-13
得票数 4
2
回答
如何在Java中并行运行
spark
程序
java
、
apache-spark
、
parallel-processing
、
apache-spark-dataset
、
hadoop-partitioning
所以我有一个java应用程序,它有
spark
maven依赖项,在运行它
的
时候,它会在运行它
的
主机上启动
spark
server
。服务器实例有36个核心。我正在指定SparkSession实例,其中我并行地提到了内核
的
数量和其他配置属性,但是当我使用htop查看统计数据
时
,它似乎并没有使用所有的内核,而只使用了1个内核。.appName("my-
spark
") .config("
sp
浏览 6
提问于2018-10-06
得票数 0
3
回答
当对静态文件使用
s3
,boto,django-storage
时
,连接被同级重置
django
、
amazon-s3
、
static-files
、
django-storage
我正在
尝试
改用亚马逊
s3
来托管我们
的
django项目的静态文件。我用
的
是django,boto,django-storage和django-Compreser.当我在我
的
dev服务器上运行collect static
时
,我得到了错误我所有静态文件
的
大小都是74MB,看起来并不太大。这是完整
的
跟踪信息。 Traceback (most recent c
浏览 44
提问于2013-12-07
得票数 23
2
回答
JupyterHub服务器无法在私有子网中运行
的
Terraformed EMR群集中启动
amazon-s3
、
terraform
、
amazon-emr
、
terraform-provider-aws
、
jupyterhub
我正在使用Terraform创建一个EMR集群(emr-5.24.0),
部署
到一个私有子网,其中包括
Spark
、Hive和JupyterHub。我已经在
部署
中添加了额外
的
配置JSON,这应该会将Jupiter笔记本
的
持久性添加到
S3
中(而不是本地磁盘上)。 整个架构包括一个连接到
S3
的
VPC端点,并且我能够访问我试图将笔记本写入
的
存储
桶
。登录到主节点并
尝试
启动/重新启动j
浏览 33
提问于2019-06-26
得票数 0
2
回答
电子病历
Spark
无法将数据帧保存到
S3
scala
、
amazon-web-services
、
hadoop
、
apache-spark
、
amazon-s3
第一个策略包含允许所有
s3
权限
的
操作。 当EC2实例启动
时
,它们承担此IAM角色,并通过STS生成临时凭据。我做
的
第一件事是使用com.databricks.
spark
.redshift格式将表
从
我
的
Redshift集群
读取
到
Spark
Dataframe中,并使用与我对EMR JobFlowRole所做
的
相同
的
据我所知,这将在Redshift上运行一个UNLOAD命令,将其转储到我指定
的<
浏览 3
提问于2017-02-21
得票数 3
1
回答
wholeTextFile() API速度极慢,不可伸缩
apache-spark
、
amazon-s3
问题:我们使用wholeTextFile()接口
从
S3
读取
文件。但是由于下面提到
的
原因,这个API非常慢。问题是如何解决这个问题?以下是我们到目前为止
的
分析: 问题是我们正在使用
Spark
WholeTextFile API
读取
s3
文件。WholeTextFile接口分两步工作。第一步,driver/master
尝试
列出所有的
S3
文件,第二步是driver/master
尝试
拆分文
浏览 3
提问于2021-10-02
得票数 1
1
回答
Hadoop可以列出
s3
内容,但是
spark
-shell抛出了Hadoop
hadoop
、
amazon-web-services
、
amazon-s3
、
apache-spark
我
的
传奇故事还在继续-当ClassNotFoundException被抛出
时
,我在
尝试
访问
S3
或S3n
时
反复遇到错误。/hadoop/common文件夹中,现在可以在命令行上使用had
浏览 0
提问于2016-03-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
基于K8S构建Zeppelin大数据可视化分析工具
朴朴基于AWS EMR的数据沙盒平台演变
在首次发布三周之后,MLflow迎来了0.2版本
Apache Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战
浅谈云上攻防——Web应用托管服务中的元数据安全隐患
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券