如何将zip文件的内容分配给Spark中的每个任务？

文章/答案/技术大牛

发布

1回答

、、、

因此，我有一个应用程序，其中有多个压缩文件位于HDFS目录中。我想创建一个RDD，其中每个任务都处理一个zip文件的内容。此时，我使用HDFS客户端库从文件名创建了一个RDD，并在每个任务中读取了一个zip文件的内容。但是，我不想这样做，而是让一个任务自动分配zip

浏览 6提问于2017-01-16得票数 1

回答已采纳

1回答

如何将唯一的整数键分配给Apache Spark Java应用程序中的每个Apache Spark Executor？

、、

我需要为spark应用程序中的每个spark executor分配一个唯一的整数id。我需要从在executor上运行的任务中检索executor id。执行器id将与其它数据元素(时间戳、mac地址等)一起用于生成唯一的64位密钥。如何将唯一的整数键分配给Apache Spark Java应用程序中的

浏览 27提问于2018-01-18得票数 0

回答已采纳

1回答

如何将分区分配给星火中的任务

、

假设我正在从一个S3文件夹读取100个文件。每个文件的大小为10 MB。当我执行df = spark.read.parquet(s3 path)时，文件(或者更确切地说是分区)是如何跨任务分发的？例如，在本例中，df将有100个分区，如果spark有10个任务用于将该文件夹的内容读取到数据框架中，那么分区是如何

浏览 3提问于2019-12-09得票数 2

回答已采纳

1回答

星火中每个任务的CPU数

、、

我不太理解spark.task.cpus参数。在我看来，“任务”似乎对应于执行器中的“线程”或“进程”(如果您愿意的话)。假设我将"spark.task.cpus“设置为2。我在部署/executor/Executor.scala中查看launchTask()函数，这里没有任何“每个任务的cpus数量”的概念。那么，Spark最终如何将多个cpu<em

浏览 0提问于2016-04-17得票数 24

回答已采纳

1回答

在SparkStreaming中火花推测生效后，不将任务分配给exectuor

、

我有一个从kafka读取消息的SparkStreaming应用程序，所有的任务流程数据都是process_local的。当任务在executor 0中挂起时，推测会生效，并在其他executor中重新运行任务(见下图)但我发现在推理生效后，没有任务分配给执行器0，数据局部性由process_local变为any，这导致调度任务的时间更长 executor丢失i

浏览 0提问于2018-12-29得票数 0

1回答

Dataproc群集属性(核心、内存和memoryOverhead)设置

、、

--scopes 'https://www.googleapis.com/auth/cloud-platform' \spark:spark.default.parallelism=512,\spark

浏览 39提问于2020-06-15得票数 2

回答已采纳

1回答

增加Spark* workers内核*

我已经在主机和2个工人上安装了Spark。每个worker的原始核心数是8。当我启动主机时，worker可以正常工作，没有任何问题，但问题是在Spark GUI中每个worker只分配了2个核心。亲切地，我怎样才能增加每个工人工作的8个核心的核心数量？

浏览 8提问于2019-12-05得票数 2

回答已采纳

1回答

我正在尝试使用下面的自动化来打包我的PySpark代码，以便在之后使用spark-submit来运行它： https://bytes.grubhub.com/managing-dependencies-and-artifacts-in-pyspark-7641aa89ddb7 https://github.com/alekseyig/spark-submit-deps 由于我的pip版本可能比作者的版本高，因此我需要对setup.py进

浏览 9提问于2019-12-18得票数 0

5回答

如何在Apache Spark中读取包含多个文件的zip

、、

我有一个包含多个文本文件的压缩文件。我想读取每个文件，并构建一个包含每个文件内容的RDD列表。val test = sc.textFile("/Volumes/work/data/kaggle/dato/test/5.zip") 将只是整个文件，但如何迭代通过每个内容

浏览 0提问于2015-08-19得票数 8

1回答

为什么每个星火任务没有使用所有分配的核心？

、、、、

假设我每个执行器有36个核心，每个节点有一个执行器，每个节点有3个节点，每个节点有48个可用的核心。我注意到的基本要点是，当我将每个任务设置为使用一个核心(默认)时，我对工作人员的CPU利用率约为70%，每个执行器将同时执行36个任务(正如我所预期的)。但是，当我将配置更改为每个任务有6个核心(--conf spark.task

浏览 0提问于2018-01-04得票数 2

回答已采纳

1回答

spark何时以及如何在执行器上分发分区

、

spark如何将分区分配给executor。当我在spark shell中使用1个驱动程序和5个执行器运行以下代码行时：重新分区后，10个分区仍然位于原来的两

浏览 1提问于2016-12-07得票数 5

2回答

火花执行器上的并发任务

、

是什么决定了在一个火花执行器上可以同时运行多少个任务？也许是某种线程池和共享内存资源？这是否意味着在执行程序中使用的代码应该始终是线程安全的？

浏览 3提问于2016-11-05得票数 1

回答已采纳

1回答

PySpark安全列类型转换

、

如果我将一个列强制转换为不同的类型，那么任何无法强制转换的数据都会被静默转换为NULL： df = sc.parallelize([('a', '1'), ('b', 'NAN'), ('c', 'foo

浏览 4提问于2017-09-29得票数 0

1回答

如何从磁盘加载spark-nlp预训练模型

、、、、

我从spark-nlp GitGub 下载了一个包含预先训练好的NerCRFModel的.zip文件。zip包含三个文件夹: embeddings、fields和metadata。如何将其加载到Scala NerCrfModel中以便使用？我是否必须将其放入HDFS或启动Spark Shell的主机？我如何引用它？

浏览 2提问于2018-08-29得票数 3

2回答

火花中每个核的线程数

、

我只想澄清一些在火花中使用线程时让我感到困惑的事情。每个核心只能运行一个线程，或者至少一个任务槽与对应，一个内核和一个核心，而不是线程。本地模式的情况是一个例外。它使用可用线程来模拟集群模式下可用的任务槽。

浏览 3提问于2017-08-04得票数 3

回答已采纳

1回答

以独立模式提交多个spark应用程序

、、、、

我使用4种不同的语言(R，python，java，scala)编写了4种spark应用程序(从文本文件中查找wordcount )。./wordcount.py.=4./bin/

浏览 0提问于2017-06-15得票数 0

1回答

在Spark中读取HDFS时的任务数

ORC格式的非格式化表格中有200个文件。每个文件都在170KB.The左右，总大小约为33MB。想知道为什么spark阶段读表生成7个任务。该作业被分配给一个具有5个核心的执行器。

浏览 43提问于2021-09-02得票数 4

回答已采纳

1回答

spark读取HDFS中zip文件的内容

、、、

我正在尝试从zip文件中读取数据val f = sc.wholeTextFiles("hdfs://")有没有可能做到这一点

浏览 26提问于2018-08-24得票数 1

回答已采纳

1回答

如何在写入Cassandra时控制Spark任务的数量

、、

在mesos上使用spark与kafka和cassandra ( spark- cassandra -connector)结合使用spark-streaming我正在听一个kafka主题，然后使用.saveToCassandra插入到cassandra中我有60个CPU分配给spark (30个spark节点和5个cassandra节点)，我正在尝试遵循apache spark的建议“一般来说，我们建议集群中<em

浏览 0提问于2015-09-17得票数 1

1回答

HadoopPartition的位置

、、

我在一个csv文件中有一个数据集，它在HDFS中占用两个数据块，并在两个节点A和B上进行复制。每个节点都有该数据集的副本。当Spark开始处理数据时，我已经看到了Spark如何将数据集加载为输入的两种方式。它要么将整个数据集加载到一个节点上的内存中并在其上执行大多数任务，要么将数据集加载到两个节点中并将任务分散到这两个节点上(基于我在历史服务器上观察到的内

浏览 1提问于2015-07-04得票数 0

点击加载更多