在spark中循环加载文件

文章/答案/技术大牛

发布

2回答

、、

我在一个具有相同.txt扩展名的目录中有n个文件，我想在一个循环中加载它们，然后为每个文件创建单独的dataframes。我读过，但在我的例子中，我的所有文件都有相同的扩展名，我想一个接一个地迭代它们，并为每个文件生成dataframe。我从计算目录中的文件开始，代码如下 sc.wholeTextFiles("/path/to/dir/*.txt").cou

浏览 3提问于2018-08-07得票数 0

回答已采纳

1回答

如何在for循环中分别处理多个拼图文件？

、

我有多个镶木面板文件(大约1000个)。我需要加载它们中的每一个，处理它并将结果保存到Hive表中。我有一个for循环，但它似乎只能处理2或5个文件，但不能处理1000个文件，因为似乎Spark试图同时加载它们，我需要在同一个Spark会话中单独执行。我尝试使用for循环，然后使用for each，并使用了unpersist()，但都失败了。加载文件</e

浏览 11提问于2019-02-10得票数 1

回答已采纳

1回答

使用Hive表迭代Spark数据帧

、、、、

我有一个非常大的csv文件，所以我使用spark并将其加载到spark数据帧中。for index, row in locations.iterrows(): color="#0A8A9F",fill=True).ad

浏览 27提问于2018-05-30得票数 0

1回答

我有一个具有8 GB内存的测试节点，在该节点上，我仅将10MB的数据(来自csv文件)加载到Cassandra(在同一个节点上)。我正在尝试使用spark(在同一节点上运行)来处理这些数据。请注意，对于SPARK_MEM，我分配了1 GB的内存，SPARK_WORKER_MEMORY也分配了同样的内存。分配任何额外的内存量都会导致spark抛出一个“检查所有的工作进程是否都已注册并且有足够的内存错误”，这通常表示Spark</

浏览 0提问于2014-08-20得票数 2

1回答

在spark* executors上找不到Apache Phoenix JDBC驱动程序*

、、

我正在通过胖客户端连接到apache phoenix，并且已经提供了phoenix-client.jar to --files，但是executor仍然无法找到驱动程序。

浏览 19提问于2019-08-04得票数 0

1回答

使用Apache Spark和AWS从每日CSV文件生成月度数据

、、、

我的CSV文件具有相同的列和一百万个匹配的ID，用于2018年的每一天。每一列都有5列，不包括ID。我想按月连接文件，这样每个月的文件都有5列*天数，因此1月份将有155个名称为Day1-Col1，Day1-Col2...第31天-Col5。这是我可以用Apache Spark做的事情吗？我选择Spark是因为我想将数据放入AWS Athena数据集中，而AWS Glue似乎可以通过Spark SQL查询来实现这一点。我想我们会先把CSV转换成拼图文件，然后生成一个每

浏览 18提问于2019-09-17得票数 0

回答已采纳

1回答

spark-defaults.conf中的spark.{driver，executor}.memory和spark-env.sh中的SPARK_WORKER_MEMORY有什么区别？

我计划在Spark上做一个实验。有两个配置文件: spark-defaults.conf和spark-env.sh我应该控制哪一个来调整内存容量？(我在<

浏览 6提问于2017-01-18得票数 1

1回答

为什么当我运行一个通过maven阴影插件制作的uber jar时，Submit会导致NoSuchMethodError？

、、、、

(SparkApplication.scala:52) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:929)pom.xml文件<

浏览 9提问于2022-05-10得票数 0

回答已采纳

1回答

ec2上的sparkr :确保工作人员已注册并拥有足够的内存

、、

我使用发行版附带的spark ec2脚本在ec2上设置了spark(spark 1.4.0)集群。它可以在主程序和一个从服务器上正常启动，我可以在上检查状态。现在，我想在集群上运行sparkR，它在主服务器和从服务器上的本地模式下运行良好：在Myscript.R中，我有以下几行：#Initialize Spark context sc <- sparkR

浏览 1提问于2015-07-16得票数 0

回答已采纳

1回答

Spark-SQL :如何将TSV或CSV文件读入dataframe并应用自定义模式？

、、、

我在使用制表符分隔值(TSV)和逗号分隔值(CSV)文件时使用Spark 2.0。我希望将数据加载到Spark-SQL数据帧中，在读取文件时，我希望完全控制模式。我不希望Spark从文件中的数据中猜测模式。如何将TSV或CSV文件加载到Spark SQL Dataframe中，并对其应用模式？

浏览 2提问于2017-04-20得票数 6

2回答

将大量CSV文件转换为拼花文件

、、

我有大量的CSV文件，需要转换为拼花文件，使用火种。一个CSV就是一个Parquet。000.csv002.csv000.parquet002.parquetfor each_csv in same_folder: df.write.parquet(output_fold

浏览 4提问于2020-06-04得票数 0

1回答

R中的spark-warehouse错误

、

我已经在我的Windows10 PC上安装了spark spark-2.0.0-bin-hadoop2.7，并且我想在R中使用SparkR包。:114) at org.apache.spark.sql.catalyst.catalog.SessionCatalog.<init>(Ses

浏览 1提问于2016-10-18得票数 0

3回答

Spark version-info.properties不在jenkins中

、、、、

当我将它作为java应用程序运行时，它是可以的，但是当我在Jenkins中运行插件时，它会显示一个错误，即：星星之核库通过一个名为package.java的类通过以下代码搜索该文件");

浏览 5提问于2017-03-12得票数 5

1回答

如何将python代码转换为Spark兼容代码(pyspark)？

、、、

我有一个火花源代码，可以提取出所需的名称从text.This代码给我的结果，但需要很多时间来处理我的大数据，因为它的一部分是更多的pythonic.Request你的帮助，以更多的火花源的方式，以提高效率(新的spark

浏览 2提问于2016-04-15得票数 1

1回答

跨集群分布分区

、、、、

在apache spark中，允许从许多不同的源加载数据集。根据我的理解，spark集群的计算节点可以不同于hadoop用来存储数据的节点(对吗？)更重要的是，我们甚至可以加载本地文件到spark作业中。主要问题来了:即使我们在hdfs和spark上使用相同的计算机，在创建RDD的过程中，spark是否总是会对所有数据进行混洗？或者spa

浏览 0提问于2018-05-08得票数 0

1回答

如果有在加载阶段拥有'maxRecordsPerFile‘的好方法，就会产生火花

、、

我已经按存储在s3上的空间列(四键)数据进行了分区。假设将150个分区中的5000个文件加载到我的spark应用程序中时，我希望将数据分解为15,000个分区，但我希望保留已存在的分区。当然，这方面有很多工作要做，但可能会有一些优雅的解决方案，比如Spark在保存阶段： preExportRdd.toDF .option("maxRecordsPerFile",maxCountInPartition

浏览 48提问于2020-03-25得票数 1

2回答

Apache :当增加内核数量时无法提高执行时间

、、、

这样做的目的是调用一个名为wordcount.py的脚本(如下所示)来计算大型文本文件中的字数。作者建议从互联网上抓取Iliad，并将其连接到一个名为iliad100.txt的文件中。iliad.mb.txt当使用4核(local[4])而不是单个核心(local[1])在本地机器上运行脚本时/spark-2.3.1-bin-hadoop2.7

浏览 3提问于2020-07-29得票数 1

回答已采纳

1回答

将数据集从spark中的网站加载到rdd

、、

我用tar.gz文件从pyspark的网站加载数据集。dataset=spark.sparkContext.textFile('https://www.example/example.tar.gz') ( url只是一个例子)和dataset.collect

浏览 9提问于2019-11-16得票数 0

回答已采纳

1回答

Pyspark数据分布

、、

我有1000个csv文件，这些文件将使用spark中可用的映射功能进行并行处理。我在集群中连接了两个桌面，并且我使用pyspark shell进行计算。我将csv文件的名称传递给map函数，该函数根据名称访问文件。但是，我需要将文件复制到从服务器，以使进程正常工作。这意味着另一个系统上必须有所有csv文件的副本。在避免数据传输延迟的同时，请推荐一种替代存储。我还尝试将这些文件存储

浏览 1提问于2015-06-18得票数 0

1回答

使用scala从web上的csv文件读取数据

、

我在网上有一个很大的csv文件“https://drive.google.com/file/d/1_8*/view”(差不多100MB大小) 是否可以直接从上面提到的URL读取文件并将数据加载到scaladataframe中。如果是，则需要您的帮助才能将其加载到我的系统中致以敬意，

浏览 14提问于2020-04-23得票数 0

回答已采纳

点击加载更多