腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4751)
视频
沙龙
1
回答
使用
HDFS
或S3运行
Spark
应用程序
amazon-s3
、
apache-spark
、
hdfs
在我的
spark
应用程序中,我只想访问一个
大文件
,并将计算分布在EC2上的许多节点上。使用S3中的sc.textFile()函数加载文件对我来说非常方便。但是,我可以花一些精力将数据加载到
HDFS
,然后从那里
读取
数据。 我的问题是,
HDFS
的性能会更好吗?我的代码涉及
spark
partitions(mapPartitions transforamtion),所以我的初始文件
系统
是什么真的很重要吗?
浏览 2
提问于2015-11-08
得票数 1
1
回答
S3并行读写性能?
apache-spark
、
hadoop
、
amazon-s3
、
parallel-processing
考虑一个场景,其中
Spark
(或任何其他Hadoop框架)从S3
读取
一个
大文件
(比如1TB)。多个火花执行器如何从S3并行
读取
非常大的文件。在
HDFS
中,这个非常大的文件将分布在多个节点上,每个节点都有一个数据块。在对象存储中,我假定整个文件将位于单个节点(忽略副本)。这将大大降低
读取
吞吐量/性能。类似地,
HDFS
中的
大文件
写入也应该比S3快得多,因为
HDFS
中的写入将分布在多个主机上,而所有数据都必须通过S3中的一个主机
浏览 2
提问于2019-01-15
得票数 12
回答已采纳
3
回答
如何将
HDFS
小文件合并为一个
大文件
?
bash
、
scala
、
apache-spark
、
hdfs
我有从Kafka流生成的小文件的数量,所以我喜欢合并小文件到一个单一的文件,但这种合并是基于日期,即原始文件夹可能有以前的文件数量,但我只喜欢合并给定的日期文件到一个单一的文件。
浏览 9
提问于2018-07-26
得票数 0
1
回答
在
HDFS
中存储1000个1 1GB的文件和1个1000 1GB的文件以供
Spark
进一步使用的区别是什么?如果有的话,哪一个更好?为什么?
apache-spark
、
hdfs
我简单地使用
Spark
将数据从Mongo传输到
HDFS
,按某个字段对其进行分区,以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“,或者以某种方式划分一个由我的作业写入到每个文件夹的
大文件
,或者我应该只在每个文件夹中写入一个文件。我知道
HDFS
块的概念,
HDFS
会把
大文件
分成块等等。我想知道
读取
1个
大文件
和1000个不是很大(但仍然比块大得多)的文件之间是否有区别。代码示例: import
浏览 17
提问于2020-11-09
得票数 1
1
回答
将文件指向hadoop集群
scala
、
apache-spark
、
bigdata
我希望在运行
spark
时将文件指向Hadoop集群。我所拥有的是,我可以将星火上下文指向hadoop集群,但是由于它指向集群,所以不能在
spark
中访问数据。
浏览 1
提问于2015-11-25
得票数 0
回答已采纳
1
回答
是否允许通过合并或重新分区来合并
HDFS
中的小文件(但合并后会很大)?
apache-spark
、
hadoop
、
pyspark
、
apache-spark-sql
、
hdfs
我正在使用
HDFS
-接收器-连接器来使用Kafka的数据进入
HDFS
。这个目录是按日期创建的;所以我想通过每天的批处理将许多小文件合并到一个
大文件
中是很棒的。(我预计
HDFS
将自动将一个
大文件
分割成块大小。)我知道有很多答案说我们可以使用
spark
的coalesce(1)或repartiti
浏览 7
提问于2022-03-22
得票数 0
回答已采纳
3
回答
Hadoop :为什么在RecordReader实现中使用FileSplit
hadoop
在Hadoop中,考虑一个
大文件
已经加载到
hdfs
文件
系统
的场景,使用
hdfs
dfs put或
hdfs
dfs CopyFromLocal命令,
大文件
将被拆分成块(64MB)。在这种情况下,当需要创建customRecordReader来
读取
bigfile时,请解释使用FileSplit的原因,因为bigfile在文件加载过程中已经被拆分,并且以拆分的块的形式存在。
浏览 3
提问于2014-12-31
得票数 0
1
回答
工人没有足够的记忆
apache-spark
check your cluster UI to ensure that workers are registered and have sufficient memory
spark
/bin/
spark
-submit --master $
SPARK
_MASTER_URL --executor-memory 8g --driver-memory 8g --name "Test-Task我的设置如下: SparkConf conf = new SparkConf().set(&quo
浏览 1
提问于2015-02-23
得票数 0
回答已采纳
1
回答
在hadoop文件
系统
上使用pyspark读写2D图像
hadoop
、
apache-spark
、
sequencefile
、
pyspark
我希望能够在
hdfs
文件
系统
上读写图像,并利用
hdfs
本地性。 作为xml文件存储的基本附加信息。我想在
hdfs
文件
系统
上创建一个归档文件,并使用
spark
来分析归档文件。现在,为了能够充分利用
spark
+
hdfs
结构,我很难找到在
hdfs
文件
系统
上存储数据的最佳方法。我不能是第一个需要通过
spark
读取
hdfs<
浏览 0
提问于2015-02-25
得票数 7
3
回答
Spark
local vs
hdfs
permormance
performance
、
hadoop
、
apache-spark
我在同一台机器上有一个
Spark
集群和一个
Hdfs
。我已经在每台机器的本地文件
系统
和
hdfs
分布式文件
系统
上复制了一个大约3G字节的文本文件。为什么?我所期望的结果正好相反。/
spark
/python/') sys.path.inser
浏览 0
提问于2016-01-13
得票数 5
3
回答
HDFS
和
Spark
:编写文件并从另一个程序重用它的最佳方式
apache-spark
、
hadoop
、
hdfs
我在
HDFS
中保存了一些来自
Spark
应用程序的结果,文件名为part-r-0000X (X= 0,1等)。而且,因为我想将整个内容连接到一个文件中,所以我使用以下命令:前面的命令在一个bash脚本中使用,该脚本将输出目录(保存问题是,我需要在另一个
Spark
程序中使用结果文件,该程序需要将合并后的文件作为
HDFS
的输入。因此,我将其保存为本地,然后将其上传到
HDFS
。我想到了另一种选择,那就是用这种方式从
浏览 12
提问于2018-07-21
得票数 1
回答已采纳
1
回答
如何从Scala代码中
读取
HDFS
文件
scala
、
hadoop
我是Scala和
HDFS
的新手:import scala.io.source deffor (line <- Source.fromLine(args(0)).getLine()) }在争论中,我已经通过了
hdfs
浏览 1
提问于2017-07-23
得票数 3
1
回答
星星团- hadoop上的读/写
hadoop
、
apache-spark
、
elasticsearch
、
hadoop-yarn
我想从hadoop
读取
数据,在火花上进行处理,并在hadoop和弹性搜索上提取结果。我几乎没有工作节点来做这件事。 星星之火独立集群是否足够?还是我需要使hadoop集群使用纱线或mesos?
浏览 1
提问于2017-02-21
得票数 2
回答已采纳
1
回答
spark
.eventLog.dir和
spark
.history.fs.logDirectory有什么区别?
apache-spark
在
Spark
中,事件日志目录和历史服务器日志目录有什么区别?
spark
.eventLog.dir
hdfs
:///var/log/
spark
/apps
spark
.history.fs.logDirectory
hdfs
:///var/log/
spark
/apps
浏览 3
提问于2015-08-14
得票数 18
1
回答
如何使用
spark
和ElasticSearch从/写入不同的elasticsearch集群?
apache-spark
、
elasticsearch
、
hdfs
、
elasticsearch-hadoop
、
distributed-filesystem
原始标题:除了
HDFS
之外,还有哪些DFS可以激发支持(并且是重新组合的)?我很高兴地使用了
spark
和elasticsearch (与elasticsearch-hadoop驱动程序)和几个巨大的集群。目前,无法将ES数据从集群中
读取
到RDD中,并使用
spark
+ elasticsearch-hadoop将RDD写入另一个RDD中,因为这将涉及从RDD中交换SparkContext。然而,这里出现了一个问题:然后我需要一个DFS(分布式文件
系统
)来在我整个星火集群中共享
大文件
。最流行
浏览 9
提问于2015-03-12
得票数 6
回答已采纳
2
回答
CSV解析嵌套引号
csv
、
apache-spark
、
apache-commons
我试图用apache
读取
器解析一个相当复杂的CSV,它在内部依赖apache ()。 我尝试了quoteMode和escape的不同组合,但是无法让它工作,例如防止异常。
浏览 4
提问于2016-03-16
得票数 2
回答已采纳
2
回答
在hadoop中保存和访问表状数据结构
hadoop
、
data-structures
、
mapreduce
、
hdfs
、
bigdata
我想用MapReduce编程在
HDFS
中保存和访问一个类似于数据结构的表。此DS的一部分如下图所示。此DS有数万列和数百行,所有节点都应该可以访问它。谢谢。
浏览 2
提问于2016-10-04
得票数 0
1
回答
Spark
从本地
读取
文件并在
hdfs
中写入
apache-spark
我在本地
系统
中有一个文件。我想在本地使用
Spark
读取
它,然后使用相同的
spark
程序在
HDFS
中写入它,这可能吗?
浏览 46
提问于2020-04-29
得票数 0
回答已采纳
1
回答
Spark
作业将写入本地文件
系统
还是从本地文件
系统
读取
?
apache-spark
、
distributed-computing
、
bigdata
对于
Spark
作业,它的输入和输出都在
HDFS
中。然而,我想知道,在执行
Spark
作业的过程中,是否有任何东西需要写入本地文件
系统
或从本地文件
系统
读取
?
浏览 3
提问于2017-08-30
得票数 0
2
回答
星星之火:无法从
HDFS
加载拼板文件,直到将它们“放入”
hdfs
中。
scala
、
apache-spark
、
hdfs
、
parquet
、
webhdfs
如果我使用scp将文件复制到安装了
HDFS
客户端的目标计算机上,然后"
hdfs
将该文件放入“
HDFS
中,那么
spark
可以正确地
读取
该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到
HDFS
,则在尝试
读取
parquet文件时从
Spark
获得以下错误: df = "/usr/hdp/current/
spark
2-如果我将两个文件( scp上传的一个
浏览 0
提问于2018-12-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
关于Hadoop,你该知道的
小白都能看懂,大白话告诉你Hadoop架构原理
兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理石杉的架构笔记
大数据 HDFS 小文件处理方案
Spark-2
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券