腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1798)
视频
沙龙
1
回答
追
加到
拼图
文件
的
EMR
Spark
步骤
正在
覆盖
拼图
文件
、
、
、
在使用Python 3.6
的
Amazon
EMR
集群(1个主服务器,2个节点)上运行
Spark
2.4.2 我
正在
读取亚马逊s3中
的
对象,以
拼图
格式压缩它们,并将它们添加(附加)到现有的
拼图
数据存储中。当我在pyspark shell中运行我
的
代码时,我能够读取/压缩对象并将新
的
拼图
文件
添
加到
现有的
拼图
文件
中,并且,当我对
拼图<
浏览 17
提问于2019-07-10
得票数 1
回答已采纳
1
回答
S3DistCp可以合并.snappy.paruqet
文件
吗?
、
、
S3DistCp是否可以将多个由火花应用程序存储为.snappy.parquet输出
的
文件
合并为一个
文件
,并使结果
文件
可由配置单元读取?
浏览 2
提问于2017-06-02
得票数 2
2
回答
实例类型默认分区差异
、
、
、
我
的
理解是,
spark
会根据
文件
的
大小,或者如果它是许多
拼图
文件
的
并集,部分
的
数量,来选择分区
的
“默认”数量。然而,在读入一组大
的
拼图
文件
时,我发现具有单个d2.2xlarge
的
EMR
集群
的
默认分区数是~1200。然而,在2个r3.8xlarge
的
集群中,我得到了大约4700
的
默认分区。<em
浏览 1
提问于2017-08-08
得票数 0
1
回答
如何获得
文件
/
文件
创建
的
火花df.write?
、
、
、
我需要捕获作为df.write.parquet("s3://bkt/folder", mode="append")命令
的
结果创建
的
拼图
文件
。 我在AWS
EMR
pyspark上运行这个。我可以使用awswrangler和wr.s3.to_parquet()来实现这一点,但这并不真正适合我
的
EMR
spark
用例。 有这样
的
功能吗?我想要s3://
浏览 16
提问于2021-05-05
得票数 0
2
回答
EMR
6.x上S3A
的
S3Guard和
拼图
魔术提交程序
、
、
我们使用
的
是带有
Spark
2.3.0和S3Guard
的
cdh5.13。在
EMR
5.x / 6.x上使用相同
的
资源运行相同
的
作业后,我们
的
性能下降了5-20倍。根据
的
默认提交者(从5.20开始)对S3A不好。我们测试了
EMR
-5.15.1,并获得了与Hadoop上相同
的
结果。at java.net.URLClassLoader.findClass(URLClassLoader.java:382) 我<em
浏览 0
提问于2020-11-25
得票数 0
2
回答
用Apache
Spark
Notebook
覆盖
Bluemix对象存储中
的
拼图
文件
、
、
、
、
我
正在
运行
Spark
Notebook,将DataFrame保存为Bluemix对象存储中
的
拼图
文件
。df = sqlContext.sql("SELECT * FROM table") df.write.parquet("swift://my-container.
sp
浏览 0
提问于2016-05-12
得票数 0
2
回答
如何使用
Spark
Streaming更新
拼图
文件
?
、
、
我
正在
使用
spark
streaming来创建实时数据管道。我
正在
从Kafka获取实时数据,并使用
Spark
处理这些数据。因为这个表需要频
浏览 18
提问于2019-11-03
得票数 0
1
回答
如何使用Amazon
EMR
集群上
的
Spark
连接到红移数据
、
我有一个
正在
运行
的
Amazon
EMR
集群。/aws/redshift/jdbc/RedshiftJDBC41-1.2.7.1003.jar现在,我想使用此jar连接到我
的
spark
-shell我是这么做
的
-val sqlContext = new SQLContext(sc) val df
浏览 4
提问于2018-09-12
得票数 4
1
回答
写入parquet而不是CSV时,数据链路写入失败
、
、
、
) { "Effect": "
浏览 9
提问于2021-07-07
得票数 1
回答已采纳
2
回答
使用s3-dist-cp合并拼接
文件
、
、
我想知道是否可以使用s3-dist-cp工具来合并
拼图
文件
(快速压缩)。我尝试了"--groupBy“和"--targetSize”选项,它确实将小
文件
合并为更大
的
文件
。但我无法在
Spark
或AWS Athena中阅读它们。任何帮助都是非常感谢
的
。
浏览 5
提问于2017-12-16
得票数 4
1
回答
根据地块
文件
创建配置单元表并加载数据
、
、
、
、
我发现很难将镶木镶嵌
文件
加载到hive表中。我
正在
使用Amazon
EMR
集群和
spark
进行数据处理。但是我需要读取输出
的
拼图
文件
来验证我
的
转换。我有如下模式
的
拼图
文件
: |-- ATTR_YEAR: long (nullable = true) | |-cdAccState: string (nullab
浏览 0
提问于2017-09-11
得票数 1
2
回答
是有一个大
的
拼图
文件
好,还是有许多小
的
拼图
文件
更好?
、
、
据我所知,hdfs会将
文件
分成类似64mb
的
块。我们有流式传输
的
数据,我们可以将它们存储到大型
文件
或中型
文件
中。列式
文件
存储
的
最佳大小是多少?如果我可以将
文件
存储到最小列为64mb
的
位置,是否会比拥有1 1gb
的
文件
节省任何计算时间?
浏览 1
提问于2017-03-21
得票数 25
回答已采纳
1
回答
用户代理解析器(ua- parser )减慢
EMR
上
的
Spark
、
、
、
、
我在我
的
UDF中使用来解析用户代理信息。我注意到,与没有解析器
的
作业相比,这些作业非常慢。Parser.default奇怪
的
是,当我提交作业作为
EMR
步骤
时,它很慢,但当我在Zeppelin或
Spark
shell中运行相同
的
代码时,它工作得很好。我将数据写入
拼图</e
浏览 0
提问于2019-12-03
得票数 0
1
回答
spark
如何获取读取拼花面板
文件
的
任务数?
、
、
我在s3存储桶上
的
相同目录下有271个
拼图
小
文件
(9KB/
文件
)。所以,我试图理解
spark
在读取这些
文件
时是如何获得任务数量
的
?集群是aws
EMR
5.29,我
的
sparkConf有--num-executors 2和--executor-cores 2 当我运行
spark
.read.parquet("s3://bucket/path").rdd.get
浏览 4
提问于2020-05-01
得票数 0
回答已采纳
1
回答
如何使用
Spark
Core API读取
拼图
文件
?
、
、
如何使用
Spark
Core API读取
拼图
文件
? 我知道使用
Spark
SQL有一些读取
拼图
文件
的
方法。但是我们不能在我们
的
项目中使用
Spark
SQL。我
正在
使用Java来实现
Spark
Job。
浏览 2
提问于2015-09-02
得票数 6
1
回答
pyspark with Hive,append将添
加到
现有分区并复制数据
、
、
我目前
正在
使用adwords api,我必须处理1天、7天和30天
的
数据。因此,
spark
任务是基本
的
,加载csv并将其写入带有分区
的
parquet中: df.write .format("parquet") .partitionBy,7天和30天将在某个时间点(通过1天前)处理完已经处理过
的
数据,因此在我
的
分区table/customer_id/date/
浏览 18
提问于2019-09-18
得票数 2
回答已采纳
2
回答
无法使用pyarrow从目录中读取
拼图
文件
、
我使用pyarrow(0.12.1)从s3读取
拼图
对象s3 = s3fs.S3FileSystem()当我将一个
文件<
浏览 22
提问于2019-11-09
得票数 1
2
回答
覆盖
拼图
文件
在
spark
中抛出异常
、
、
、
我
正在
尝试从hdfs位置读取
拼图
文件
,做一些转换并
覆盖
相同位置
的
文件
。我必须在相同
的
位置
覆盖
文件
,因为我必须多次运行相同
的
代码。下面是我写
的
代码 val df =
spark
.read.option("header", "true").option("inferSchema", "true").parq
浏览 0
提问于2018-09-04
得票数 1
1
回答
任务
的
自动化哪个是envolve
的
?
、
、
、
我
正在
创建数十个
拼图
拼图
,垫
文件
和提交这些下载网站每天,为什么?-为了反向链接
的
目的。在提交之前,我需要完成这些
文件
,其中一个
文件
夹包含:.exe
文件
--使用
拼图
拼图
创建者
拼图
创建器创建
的
拼图
拼图
--解决图像--使用PADGen创建
的
拼图
.xml
文件
的
jpg(来自第二个链接)
浏览 2
提问于2011-08-24
得票数 0
1
回答
使用R sparklyr将多个
Spark
镶木
文件
加载到
Spark
表中?
、
、
我
正在
尝试使用R sparklyr将多个
拼图
文件
加载到一个
Spark
表中。附加
的
代码显示了我是如何做到这一点
的
。
spark
_load_data <- function(db_conn, test_period) library(DBI) overwrite <- TRUE"pcidata" pq_path <- paste0("s3://<path&
浏览 0
提问于2019-08-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
多图片怎么拼接?这些方法了解过吗
多图片拼图怎么操作?这个方法不要错过
拼图照片怎么拼图?分享一个拼图好方法
这里有你想要的方法
照片拼图怎么拼多张?让我来告诉大家
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券