如何在Spark中读取数据集内的地图

因此，假设我有一个100 GB内存的集群供spark使用。我得到了一个2000 GB的数据集，并希望对此数据集运行一个迭代应用程序。200次迭代。我的问题是，当使用.cache()时，spark是否会将第一个100 GB保留在内存中，并在自动读取下一个100 GB之前执行200次迭代？当在内存限制内工作时，spark的优势是非常明显的，但当使用更

浏览 1提问于2015-07-09得票数 2

1回答

Spark与Hive的区别

、、

你能帮我理解星火SQl和蜂巢的区别吗？

浏览 2提问于2017-06-03得票数 1

1回答

在JSON情况下，当模式推理留给Spark时，Spark为什么输出nullable = true？

、、、

当没有指定模式并将其推断留给Spark时，Spark为什么会显示nullable = true？// shows nullable = true for fields which are present in all JSON records. spark.read.json("s3://s3path但我无法理解背后的原因。PS:我的目标是为一个大型JSON数据集(< 100 in )推断模式，并想看看Sp

浏览 0提问于2020-04-25得票数 2

回答已采纳

2回答

在Parquet中使用嵌套数据类型有什么好处？

、、、

在Parquet文件格式中使用嵌套数据类型会带来任何性能上的好处吗？AFAIK Parquet文件通常是专门为查询服务(如Athena )创建的，因此创建这些文件的过程可以简单地平缓值--从而允许更容易地查询、简化模式，并保留每列的列统计信息。使用嵌套数据类型(如struct )有什么好处？

浏览 0提问于2018-03-25得票数 3

回答已采纳

1回答

“格式()”在火花放电中加载数据时做什么

、

我开始使用spark，通常在从云中加载数据时，我会看到以下代码我的问题如下:这里我们似乎有两个数据集:一个是com.da

浏览 0提问于2017-03-06得票数 0

1回答

写入和读回时火花缺失列

、、

我正在创建一个数据集，并将其以目录结构( s3 )的形式写入${BasePath}/y=2107/m=11/d=16/中，${BasePath}/y=2107/m=11/d=16/格式为parquet格式在创建当前数据并将其写入s3之后，我需要在最后10天内读取这些数据。我能做到这有两种方法，第一种方法:将当前的日数据写入s3，

浏览 1提问于2017-11-16得票数 0

1回答

在java连接器中读取的mongodb中不工作的分区

、、、

我试图使用MongoDb火花连接器读取数据，并希望对键上的数据集进行分区，从mongoD独立实例中读取数据集。我看了一下 of mongoDb spark，它提到了各种分区类。我试图使用MongoSamplePartitioner类，但它只在一个分区上读取。MongoPaginateByCountPartitioner类，也可以将分区划分为固定的66个分区。我需要使用通过地

浏览 10提问于2020-10-07得票数 1

1回答

在scala中，有没有办法禁止用'，‘分隔csv文件，而只用'，’分隔csv文件

、、

我正在使用scala读取csv文件来填充数据集，并且我面临着分隔符问题，这是由于我的一些字段中包含'，‘。数据如A、B、C(temp、temp1、temp3)、D、E 这是针对spark Dataset的，在spark dataset中，我尝试读取文件，然后将其映射到dataset模式，但似乎不起作用。我观察到了实际分隔符是'，‘的区别，它不应

浏览 0提问于2019-05-01得票数 0

2回答

OpenMapTiles服务器-如何更新数据？

我已经安装了OpenMapTiles地图服务器。分步设置适用于导入数据，并且一切工作如视频中所示。如何在不删除当前数据集的情况下更改当前数据集？我尝试从下载数据，但收到一条消息，告诉我数据必须直接下载到OpenMapTiles地图服务器中。

浏览 1提问于2018-02-04得票数 0

2回答

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

、、、、

我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据，并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是，我如何使用输入数据帧(kafka)中的数据，作为cassandra中的"where“参数"select”，而不会出现以下错误： Exception in thread "main&q

浏览 25提问于2021-05-23得票数 0

回答已采纳

1回答

读取csv文件的multiLine选项不适用于具有新行闪烁2.3和闪烁2.2的记录。

、、、

我正在尝试使用pyspark读取器读取dat文件，它包含换行符("\n")作为数据的一部分。Spark无法将此文件读入单个列，而只能将其视为新行。spark.read.csv(file_path, schema=schema, sep=delimiter,multiLine=True) 数据就是这样的。这里$是CRLF的换行符，如vim所示。如何在火花放电中<e

浏览 0提问于2018-04-01得票数 1

回答已采纳

2回答

如何在spark中使用scala过滤Rdd中的数据并将其保存为文本文件

、、

我有两个TSV格式的数据集。我想在spark scala中读取两个TSV文件并执行分析。文件1具有Aug数据，而文件2具有Sep数据。如何在spark中使用scala读取两个tsv文件并将输出保存到另一个tsv文件。我想在RRD和RRD上使用交集操作下面是两种TSV文件格式。文件1 ? 文件2 ? 输出文件应该具有在这两个月中都被访问的App_Name。输出文件<

浏览 49提问于2020-04-27得票数 0

1回答

Spark 3中的自适应查询执行

、、、、

我刚刚了解了Spark3.0引入的新的适应性查询执行(AQE)。在AQE决定切换到广播模式之前，第1和第2阶段已经完全完成(包括地图侧的洗牌)。我的问题是:既然这两个数据集已经被写入磁盘以进行洗牌(地图侧洗牌)，那么切换到广播上不是太晚了吗？这种切换在大多数情况下会比继续进行减缩侧洗牌更有效吗？

浏览 4提问于2020-06-26得票数 5

回答已采纳

2回答

在火花壳中使用avro时的NoClassDefFoundError

、、

我可以看到，shell在创建DataFrame对象时识别模式，但是如果我对数据执行任何操作，它总是在尝试实例化NoClassDefFoundError时抛出AvroWrapper。我尝试将avro-mapred-1.8.0.jar添加到集群的$HDFS_USER/lib目录中，甚至在启动shell时使用-jar选项将其包括在内。这两个选项都不起作用。如有任何建议，将不胜感激。下面是示例代码：scala> import com.

浏览 1提问于2016-06-10得票数 1

回答已采纳

1回答

如何使用Pyspark从mongodb中仅提取特定行？

、、、

我正在从mongodb集合中提取数据，并使用Spark python代码将其写入bigquery表。但我只想提取满足条件的文档(如sql查询中的where条件)。我发现的一种方法是读取dataframe中的整个数据，并对该dataframe使用过滤器，如下所示： df2 = df.filter(df['date'] < '12-03-2020 10:12:40&#

浏览 1提问于2021-02-18得票数 0

2回答

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？

、

如何在Spark Structured Streaming中读取Kafka和查询外部存储，如Cassandra？我从Kafka获得消息流，我想对它应用Map操作，对于每个键，我想查询像Cassandra这样的数据存储，并获得该键的更多信息，并在流上应用进一步的操作。我如何使用Spark Structured Streaming 2.2.0来做到这一点？

浏览 2提问于2017-09-07得票数 1

1回答

用于大型csv文件的sparklyr

、、

我正在尝试使用sparklyr加载一个包含一百万行和1000列的数据集。我在工作中的一个非常大的集群上运行Spark。尽管如此，数据的规模似乎太大了。我尝试了两种不同的方法：1) -将路径放入hdfs - spark_read_csv(spark_context，.csv ) 2) -将cs

浏览 2提问于2017-05-30得票数 0

7回答

如何将Parquet文件读入Pandas DataFrame？

、、、、

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在内存中阅读的少量数据--在笔记本电脑上使用一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地文件系统上，要么在S3中。我不想分拆和配置其他服务，如<

浏览 22提问于2015-11-19得票数 146

回答已采纳

点击加载更多