使用apache spark加载一个非常大的csv文件

、

我需要使用Apache Spark加载巨大的csv文件。到目前为止，我使用Apache Spark的read方法加载了不同的文件。我没有遇到任何问题。然而，文件大小并不大，大约是100兆字节。现在我收到了一些可伸缩性问题，比如：“如果文件不适合驱动程序的内存，会发生什么？” spar

浏览 41提问于2019-04-30得票数 0

2回答

Spark SQL -如何将DataFrame写入文本文件？

、

我正在使用Spark SQL读拼图和写拼图文件。但在某些情况下，我需要将DataFrame编写为文本文件，而不是Json或Parquet。是否支持任何默认方法，或者我必须将该DataFrame转换为RDD，然后使用saveAsTextFile()方法？

浏览 1提问于2016-03-15得票数 11

回答已采纳

3回答

spark-shell中未加载CSV格式

、、、、

使用spark 1.6，我尝试了以下代码：它导致了这个错误 error: not found: value <e

浏览 6提问于2020-04-29得票数 1

1回答

如何使用Spark和winutils访问windows中的文件？

我正在使用winutils运行windows上的星星之火。在spark中，试图加载一个csv文件，但它写的是Path does not exist，也就是说，我在E:/data.csv位置有一个文件。我正在执行： scala> val df = spark.read.option("header","true").cs

浏览 1提问于2019-05-20得票数 0

1回答

根据scala中的数据类型映射每个列

、、、

sc = new SparkContext("local[*]", "TotalSpentByCustomer") 获取误差值reduceByKey不是org.apache.spark.rdd.RDD(Int，Int，Float

浏览 7提问于2022-01-17得票数 0

3回答

无法在spark2.2中使用SQLContext对象创建数据格式

、、、

我在Microsoft 7上使用spark 2.2 version。我希望在一个变量中加载csv文件，以便稍后执行与SQL相关的操作，但无法这样做。我引用了链接中接受的答案，但没有用。下面是创建SparkContext对象和SQLContext对象的步骤：import org.apache.sp

浏览 4提问于2017-12-25得票数 2

回答已采纳

1回答

R:使用spark合并两个csv文件

、

我有两个非常大的csv文件，我正在使用spark和R。我的第一个文件是这样上传的：在处理完第一个文件后，我得到了以下变量：具有以下变量的第二个cs

浏览 0提问于2019-11-04得票数 1

1回答

我将相同的方法应用于spark* scala中的多个数据帧，如何将其并行化？*

、

我目前正在遍历我的所有数据帧，并在它们上运行本质上相同的查询/过滤器。有没有一种方法可以更有效地并行运行？以下是示例代码...for (db <- list_of_dbs) .format("csv") .option("inferSchema","true")

浏览 18提问于2020-08-28得票数 0

1回答

将csv读入包含时间列的hdfs将不起作用

、

我想将一个带有时间列的csv读入hadoop，在hadoop中，时间列将作为字符串读入。val spark: SparkSession = SparkSession.builder(

浏览 0提问于2019-07-25得票数 0

2回答

如何以自定义格式加载带有时间戳的CSV？

、、、

我在csv文件中有一个时间戳字段，我使用spark库将其加载到dataframe中。同一段代码在我的本地机器上使用Spark2.0版本，但在Azure Hortonworks HDP 3.5和3.6上抛出一个错误。我已经检查过了，Azure HDInsight 3.5也在使用相同的Spark版本，所以我不认为这是火花版本的问题。(Univocit

浏览 3提问于2017-04-06得票数 9

1回答

如何在Spark3.x中初始化SparkSession

、

我一直在学习Spark&Scala，并在IntelliJ中设置了一个环境。我以前一直使用SparkContext成功地初始化我的Spark实例，使用以下代码：val sc = new SparkContext("local[*]", "SparkTest") 当我尝试加载.csv数据时，我发现的</e

浏览 9提问于2022-06-23得票数 0

回答已采纳

1回答

从AWS向aws EMR集群提交spark作业

、、、、

我正在尝试从命令行aws中正确地向我的aws集群添加一个火花步骤。我有一个大的数据集(数千个.csv文件)，我需要阅读和分析。我有一个python脚本，看起来类似于：import pandas as pdsqlContext = SQLContext(sc) df = sqlContext.read.format(&q

浏览 2提问于2018-06-04得票数 0

14回答

火花加载CSV文件作为DataFrame？

、、、、

我想在spark中读取CSV，并将它转换为DataFrame，然后用df.registerTempTable("table_name")存储在HDFS中。我试过：我发现的错误： at parq

浏览 33提问于2015-04-17得票数 164

回答已采纳

1回答

在基于目录的spark加载中避免“路径不存在”

、

我使用通配符从一个目录加载多个文件，如下所示- val df: DataFrame = spark.read .option("delimiter", ",") .load(inputPath + "/*.csv*") 这在大多数情况下都很好

浏览 41提问于2020-08-27得票数 0

回答已采纳

1回答

如何在dataframe scala中读取列之间包含空格的csv文件？

、、、

已尝试加载列之间包含空格的csv文件。20200101 00000020200630 000000IMMEDIATE 1600 20200630 000000 使用的示例脚本： import org.apache.spark.sql.{SQLContext, SparkSession} import org.apache.spark.{SparkC

浏览 27提问于2020-08-26得票数 0

1回答

为什么Spark在读取文本文件时将RDD ID增加2而不是1？

、、

在使用spark-shell时，我注意到了一些有趣的事情，我很好奇为什么会发生这种情况。我使用基本语法将一个文本文件加载到Spark中，然后简单地重复这个命令。REPL的产出如下：myreviews: org.apache.spark.rdd.RDD[St

浏览 0提问于2018-11-29得票数 0

回答已采纳

2回答

读取csv函数时出错

、

在google计算集群中，我正在尝试使用sparklyr包将csv文件读取到strudio中。配置如下：install.packages("sparklyr") spark_install(version = "1.6.2") Sys.setenv(SPARK_HOME="/usr/

浏览 1提问于2017-04-05得票数 0

1回答

在scala中使用函数时得到错误类型不匹配

、、

import org.apache.spark.sql.{SparkSession, DataFrame}{ val spark = SparkSession.builder("inferschema","true").option("header","true").csv("o

浏览 1提问于2021-12-09得票数 0

1回答

Spark2.2.0-加载一个特定的文件列表

、

我想将一个特定的文件列表加载到Spark中。我创建了一个UDF，它过滤了文件列表，因此我获得了一个带有我想要加载的文件的Seq<String>。我正在尝试使用org.apache.spark.sql.DatasetString)org.apache.spark.sql.DataFr

浏览 0提问于2018-05-01得票数 2

回答已采纳

2回答

将大量CSV文件转换为拼花文件

、、

我有大量的CSV文件，需要转换为拼花文件，使用火种。一个CSV就是一个Parquet。000.csv002.csv000.parquet002.parquetfor each_csv</

浏览 4提问于2020-06-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark SQL -如何将DataFrame写入文本文件？

spark-shell中未加载CSV格式

如何使用Spark和winutils访问windows中的文件？

根据scala中的数据类型映射每个列

无法在spark2.2中使用SQLContext对象创建数据格式

R:使用spark合并两个csv文件

我将相同的方法应用于spark* scala中的多个数据帧，如何将其并行化？*

将csv读入包含时间列的hdfs将不起作用

如何以自定义格式加载带有时间戳的CSV？

如何在Spark3.x中初始化SparkSession

从AWS向aws EMR集群提交spark作业

火花加载CSV文件作为DataFrame？

在基于目录的spark加载中避免“路径不存在”

如何在dataframe scala中读取列之间包含空格的csv文件？

为什么Spark在读取文本文件时将RDD ID增加2而不是1？

读取csv函数时出错

在scala中使用函数时得到错误类型不匹配

Spark2.2.0-加载一个特定的文件列表

将大量CSV文件转换为拼花文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐