HDFS & Spark -重写大文件的一部分

、

如何重写部分大文件(1TB以上)？我将数据存储在拼图文件中，它们按最大块大小拆分。有没有可能更新一些记录并只重写那些块而不重写。

浏览 17提问于2019-01-14得票数 0

2回答

CSV解析嵌套引号

、、

我试图用apache读取器解析一个相当复杂的CSV，它在内部依赖apache ()。我知道sed可以用来预处理数据.然而，如果集成到星火中是很好的，例如，如果不需要进一步的预处理。我没有找到指定正则表达式

浏览 4提问于2016-03-16得票数 2

回答已采纳

1回答

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

、

我简单地使用Spark将数据从Mongo传输到HDFS，按某个字段对其进行分区，以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“，或者以某种方式划分一个由我的作业写入到每个文件夹的大文件，或者我应该只在每个文件夹中写入一个文件。我知道HDFS块的概念，HDFS会把大文件分成块等等。我想知道读取1个大文件和1000个不是很大(但仍然比块

浏览 17提问于2020-11-09得票数 1

3回答

如何将HDFS小文件合并为一个大文件？

、、、

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。有什么建议吗？

浏览 9提问于2018-07-26得票数 0

1回答

工人没有足够的记忆

check your cluster UI to ensure that workers are registered and have sufficient memoryspark/bin/spark-submit --master $SPARK_MASTER_URL --executor-memory 8g --driver-memory 8g --name "Test-Task我的设置如下： SparkConf conf = new SparkConf()

浏览 1提问于2015-02-23得票数 0

回答已采纳

1回答

在AWS中重命名和移动星火输出文件需要非常长的时间

、、、

我有一个火花作业，我有一个巨大的文件输出300 gb到S3。我的要求是重命名所有的部分文件，然后我们必须移动到最后的文件夹。我做了研究，但没有找到解决方案，在火花作业本身，我可以重命名我的火花输出文件。这对我来说太令人沮丧了。不管怎样，我能让这个过程更快吗？问题是在火花作业之后，这个过程只在核心节点上运行，所以需要很长

浏览 2提问于2018-04-11得票数 0

2回答

如何使用Spark从HDFS读取文件？

、、

我已经构建了一个使用Apache的推荐系统，它的数据集存储在我的项目文件夹中，现在我需要从HDFS访问这些文件。SparkContext context = new SparkContext(new SparkConf().setAppName("spark-ml").setMaster("local")

浏览 0提问于2019-06-15得票数 2

回答已采纳

1回答

S3并行读写性能？

、、、

考虑一个场景，其中Spark (或任何其他Hadoop框架)从S3读取一个大文件(比如1TB)。多个火花执行器如何从S3并行读取非常大的文件。在HDFS中，这个非常大的文件将分布在多个节点上，每个节点都有一个数据块。在对象存储中，我假定整个文件将位于单个节点(忽略副本)。这将大大降低读取吞吐量/性能。类似地，HDFS中的大文件写入也应该比S3快得多，因为HDFS中的写入将分布在多个主机上，而所有数据都必须通

浏览 2提问于2019-01-15得票数 12

回答已采纳

1回答

使用HDFS或S3运行Spark应用程序

、、

在我的spark应用程序中，我只想访问一个大文件，并将计算分布在EC2上的许多节点上。使用S3中的sc.textFile()函数加载文件对我来说非常方便。但是，我可以花一些精力将数据加载到HDFS，然后从那里读取数据。我的问题是，HDFS的性能会更好吗？我的代码涉及spark partitions(mapPartitions transforamt

浏览 2提问于2015-11-08得票数 1

1回答

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

、、、、

我正在使用HDFS -接收器-连接器来使用Kafka的数据进入HDFS。这个目录是按日期创建的；所以我想通过每天的批处理将许多小文件合并到一个大文件中是很棒的。(我预计HDFS将自动将一个大文件<

浏览 7提问于2022-03-22得票数 0

回答已采纳

1回答

星星之火:在2个文件上读取迭代

、、、

我需要一些关于Spark+Java编程的帮助。这是我的问题：a = read.A; //Read record from Awhile( a !Output in some way else

浏览 3提问于2014-11-17得票数 1

回答已采纳

2回答

“错误:在运行submit或org.apache.spark.deploy.yarn.ExecutorLauncher”时无法找到或加载主类PySpark

、、、

所有VM都是从Bitnami Hadoop堆栈VirtualBox图像构建的spark-submit --class org.apache.spark.examples.SparkPi我已尝试/核实了以下各点：已在我的fileSPARK_DIST_CLASSPATH中设置了HADOOP_HOME、SPARK_HOME和HADOOP_CONF_DIR，并且在spark-e

浏览 5提问于2022-07-25得票数 0

3回答

属性spark.yarn.jars -如何处理它？

现在我明白了'spark‘需要集群上可用的火花jar文件，如果我什么都不做，那么每次运行我的程序时，它都会将数百个jar文件从$SPARK_HOME复制到每个节点(在我的例子中，它只是一个节点)。spark.yarn.jars hdfs://sanjeevd.br:9000//user/spark/share/lib 要使Spark运行时jars从纱线侧

浏览 1提问于2016-12-13得票数 24

回答已采纳

2回答

在亚马逊EC2上使用HDFS和Apache Spark

、、、、

我使用spark EC2脚本设置了spark集群。我设置了集群，现在正在尝试将一个文件放到HDFS上，这样我就可以让我的集群工作了。JavaRDD<String> rdd = sc.textFile(&quo

浏览 1提问于2015-06-08得票数 0

4回答

在Spark中使用Dataframe编写SQL

、、、

我是Spark世界的新手。我目前正在迁移我的应用程序的摄取代码，其中包括在HDFS中摄取数据，在HDFS中使用原始数据和应用层，并执行CDC(变更数据捕获)，这是目前在Hive查询中编写的，并通过Oozie执行。这需要迁移到Spark应用程序(当前版本1.6)中。代码的另一部分稍后将迁移。在spark中，我可以直接从Hive中的表创建数据格式，只需按原样执行查询(如sqlConte

浏览 1提问于2017-08-01得票数 43

回答已采纳

1回答

非结构化文件的火花提取与转换

、

我在本地目录中有一个包含许多销售文本文件的文件夹。79.50A0009 Product9 100 134.30基于上述两个文件，它将合并为一个文件在HDFS。我使用Spark</e

浏览 2提问于2017-02-28得票数 0

回答已采纳

1回答

当部署在纱线中时，Apache如何处理系统故障？

、、

先决条件案例与问题我知

浏览 2提问于2014-07-15得票数 8

回答已采纳

1回答

火花:在向HDFS写入大文件时不允许自抑制。

我正在使用spark为HDFS编写一个大文件。基本上，我所做的是连接3个大文件，然后使用toJSON()将结果数据转换为json，然后使用saveAsTextFile将其保存到HDFS。最后要写入的文件大约为4TB。应用程序运行得很慢(正如我所期望的那样？)6小时后，它抛出了一个例外java.lang.IllegalArgumentException:自抑制不允许。详细的故障原因将从监视页面复制到下面： Job aborted due

浏览 0提问于2015-12-21得票数 1

回答已采纳

1回答

在上调用`cache‘是否消除了以后对Hive/HDFS的调用？

、、

我们有一个spark应用程序，它从存储在HDFS中的parquet文件上构建的HMS表中读取使用spark的数据。spark应用程序运行在单独的hadoop环境上。我们使用委托令牌来允许spark应用程序对Kerberized /HDFS进行身份验证。我们不能也不应该使用键标签直接验证spark应用程序。由于委托令牌过期，经过一段时间后，我们的spark

浏览 7提问于2022-01-10得票数 0

2回答

Apache如何分割大文件的数据

、、

我有一个600 Petabytes大小的大文件，我想通过Spark来处理。文件可以存储在HDFS中。但是我认为125 PB对于分区来说太大了，所以我的想法也是正确的。隔断。PS:，我刚从Apache Spark开始。所以，如果这是

浏览 1提问于2018-07-27得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

CSV解析嵌套引号

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

如何将HDFS小文件合并为一个大文件？

工人没有足够的记忆

在AWS中重命名和移动星火输出文件需要非常长的时间

如何使用Spark从HDFS读取文件？

S3并行读写性能？

使用HDFS或S3运行Spark应用程序

是否允许通过合并或重新分区来合并HDFS中的小文件(但合并后会很大)？

星星之火:在2个文件上读取迭代

“错误:在运行submit或org.apache.spark.deploy.yarn.ExecutorLauncher”时无法找到或加载主类PySpark

属性spark.yarn.jars -如何处理它？

在亚马逊EC2上使用HDFS和Apache Spark

在Spark中使用Dataframe编写SQL

非结构化文件的火花提取与转换

当部署在纱线中时，Apache如何处理系统故障？

火花:在向HDFS写入大文件时不允许自抑制。

在上调用`cache‘是否消除了以后对Hive/HDFS的调用？

Apache如何分割大文件的数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐