PySpark正在写入大型单个拼图文件，而不是分区文件

PySpark是一个用于大规模数据处理的Python库，它提供了对Apache Spark的API封装。在处理大型数据集时，PySpark可以帮助我们高效地进行数据处理和分析。

在PySpark中，数据可以以分区文件的形式进行存储，也可以以单个拼图文件的形式进行存储。下面是对这两种存储方式的解释：

分区文件：在分区文件的存储方式下，数据会被划分为多个分区，每个分区都是一个独立的文件。这种方式可以提高数据的读取和处理效率，因为可以并行地处理每个分区。分区文件适用于大规模数据集的处理，特别是在需要按照某个列或条件进行过滤、聚合或排序时。
单个拼图文件：在单个拼图文件的存储方式下，所有的数据都被写入到一个文件中。这种方式适用于数据量较小的情况，或者在需要将数据导出到其他系统或工具时。

对于正在写入大型单个拼图文件的情况，可能存在以下原因或考虑：

数据量较小：如果数据量相对较小，将所有数据写入一个文件可能更加方便和高效。
数据导出需求：如果需要将数据导出到其他系统或工具进行处理，单个拼图文件可能更容易处理和传输。

然而，需要注意的是，将大型数据集写入单个拼图文件可能会导致以下问题：

内存压力：写入大型文件可能会占用较多的内存资源，特别是在数据量非常大的情况下。
数据处理效率：在后续的数据处理过程中，如果需要对数据进行分区、过滤或聚合等操作，可能会受到单个文件的限制，无法充分发挥分布式计算的优势。

因此，在实际应用中，我们需要根据具体的需求和场景来选择适合的存储方式。如果数据量较大或需要进行复杂的数据处理操作，建议使用分区文件的方式进行存储和处理。如果数据量较小或需要导出数据到其他系统，可以考虑使用单个拼图文件的方式。

腾讯云提供了一系列与大数据处理相关的产品和服务，例如腾讯云数据仓库（Tencent Cloud Data Warehouse，CDW）和腾讯云数据湖（Tencent Cloud Data Lake，CDL）。这些产品可以帮助用户高效地存储和处理大规模数据集，提供了分布式计算和存储的能力。

参考链接：

Azure数据库中在日期范围间读取拼花文件的有效方法

azure-data-lake、databricks、azure-databricks

我想知道下面的伪代码是否是从PySpark()读取存储在Azure数据湖中的日期范围之间的多个拼花文件的有效方法。注意:拼花文件没有按日期进行分区。我使用uat/EntityName/2019/01/01/EntityName_2019_01_01_HHMMSS.parquet惯例在ADL中存储数据，正如Nathan在书“大数据”( Big )中所建议的，稍微做了修改(使用2019年而不是year=2019)。使用*通配符读取所有数据： df = spark.read.parquet(uat/EntityName/*/*/*/*) 添加列FileTimestamp，该列使用字符串操作从En

浏览 1提问于2019-02-28得票数 1

回答已采纳

2回答

天蓝色水滴存储与天蓝色数据湖存储的区别

azure-data-lake、azure-blob-storage

对于像我这样的用户来说，这似乎是一种困惑，因为azure blob存储和蔚蓝数据湖存储有什么主要区别，在哪个用户情况下，azure blob存储比蔚蓝数据湖存储更适合，反之亦然？谢谢。

浏览 9提问于2020-04-05得票数 4

回答已采纳

1回答

在内存受限设置中运行Spark

apache-spark、apache-spark-sql

我对在内存非常有限的环境中运行Spark的任何提示/技巧或配置选项都很感兴趣。对于可用内存较小的部署，最重要的注意事项是什么？

浏览 1提问于2019-07-19得票数 1

1回答

星火的地图和减少操作是不同于Hadoop减少的吗?如果是，那么怎么做？

apache-spark、pyspark、hadoop2

我正在浏览星火文件，发现了下面的一行 Hadoop MapReduce并没有直接与星火的地图和缩减操作相关 1.请您帮助我理解星火图减少与hadoop地图减少有何不同吗？ RDD是如何在火花中工作的？它总是像蜂巢一样将代码转换成mapreduce吗？

浏览 0提问于2018-11-14得票数 1

1回答

Spark，显示非零内存存储号，即使我不保存数据

apache-spark、apache-spark-2.0

我的星火应用程序在内存存储中显示非零的数量，即使我不使用持久化或缓存。即使我不使用持久化/高速缓存，是否会触发缓存我的数据？

浏览 0提问于2019-10-07得票数 1

回答已采纳

9回答

如何快速入门Kafka消息队列？

消息队列 CMQ 版、消息队列 CKafka 版

最近经常听到这个名词，但是不知道如何入门，我看到腾讯云也有相关的产品Ckafka产品，所以来问问~

浏览 4973提问于2018-09-14

9回答

腾讯云时序数据库 CTSDB VS 传统时序数据库？

数据库、sql

很多公司已经开始持续收集、分析数据，用于异常处理、趋势预测、精准营销、风险控制等场景，希望利用数据的潜在价值，提高公司盈利能力和竞争力。那么腾讯云时序数据库 CTSDB VS 传统时序数据库，腾讯云时序数据库有没有什么进步？

浏览 1712提问于2018-09-26

1回答

雪花不扣除拼花中的按列分区

snowflake-cloud-data-platform、parquet

我有一个关于雪花的新功能-Infer模式表函数的问题。推断模式函数在拼图文件上执行得非常好，并返回正确的数据类型。但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。在DataFrames中，分区文件夹名和值被读取为最后一列；在Snowflake推断模式中，有没有办法实现同样的结果？示例： @GregPavlik -输入为结构化拼图格式。当地块文件存储在没有分区的S3中时，模式是完全派生出来的。示例：{ "AGMT_GID"：1714844883，"AGMT_TRANS_GID"：640481290，"

浏览 0提问于2021-10-21得票数 5

1回答

将大数据插入云扳手表

mysql、node.js、database、google-cloud-platform、google-cloud-spanner

我想将大量数据插入到Google的云扳手表中。这就是我对node.js应用程序所做的事情，但是它停止了，因为txt文件太大了(几乎2GB)。 1.加载txt文件 2.逐行阅读 3.将行划分为“x”。 4.构建数据对象 5.将数据插入云扳手表 Mysql支持用.sql文件插入数据。云扳手也支持某种方式吗？

浏览 5提问于2017-02-20得票数 0

回答已采纳

2回答

数据湖中时间戳csv外部表中的临时缓慢变化尺寸物化

snowflake-cloud-data-platform、data-warehouse、external-tables、delta-lake、dbt

问题主要问题如何在短期内从每日提取的文件夹中实现缓慢更改的维度类型2，其中每个csv都是从源系统中提取的表的一个完整提取部分？理据我们正在设计临时数据仓库，作为最终用户的数据集市，这些数据仓库可以在没有后果的情况下被分解和烧毁。这要求我们在一个湖泊/blob/桶中拥有所有数据。我们每天都要摘录，因为：我们无法可靠地提取更改集(原因超出了我们的控制范围)，我们想用“最少”的可能数据来维护一个数据湖。质疑问题有没有一种解决方案可以给我一个特定日期的状态，而不仅仅是“最新”状态？存在主义问题我是不是完全倒着想这件事，还有更简单的方法来做到这一点

浏览 4提问于2020-09-17得票数 0

回答已采纳

3回答

Azure游戏记分板

database、azure、storage、azure-storage、azure-data-lake

您能给我推荐一种在Azure云上存储游戏分数的替代解决方案吗？我正在寻找一个管理的，廉价运行和易于伸缩的存储选项。输入数据：{ "player": 1, "score": 10 } (分数可能已经计算过了，不需要汇总)。应该有一个选项可以进行两种类型的查询：在记分板上得到球员的位置。获得位置(球员和得分)之间的位置X和Y。在写入过程中，应用程序不能告诉玩家在记分板中的位置--后端数据库解决方案应该提供这些信息，或者数据布局应该允许快速计算所有玩家之间的位置。非实时精度是可以接受的。目前的后端技术选择: Azure (.NET核心)、存

浏览 6提问于2017-03-27得票数 2

回答已采纳

3回答

每天更新云中20-30亿行数据集中的1亿行

amazon-web-services、bigdata

这是一个和时间一样古老的故事。企业希望获取数十亿行(20-30亿)，将它们从Oracle流式传输到云(在我们的案例中是AWS)。到目前一切尚好。然后他们想要在云中处理它们，在这里仍然可以。然后，他们希望每天更新大约5%(称为1.25亿)的行的子集，并再次处理数据。我不是说这是不合理的，我只是不确定解决这个问题的最有效的方法。对于一些背景，我是一名高级全栈开发人员，有丰富的AWS和巨型数据集工作经验，但绝不是大数据专家。此外，如今云中的大数据选择如此之多，很难知道从哪里开始。所以，问题是：是否有针对此用例而构建的产品(最好是在AWS中)？由于它是以每天为基础的，我们将需要能够有效地(快

浏览 13提问于2021-10-22得票数 0

2回答

将数据添加到存储在磁盘上的Spark/Parquet数据

apache-spark、pyspark、apache-spark-sql、parquet、pyspark-sql

我所处的情况类似于。这个问题没有得到满意的回答。此外，我需要处理的数据较少(每天大约1G )。我的情况:我有一定数量的数据(~500克)已经可以作为地板(即“存储格式”，这是商定的)，我得到定期的增量更新。我希望能够处理ETL部分以及分析部分之后。为了能够有效地对某些“中间数据产品”进行更新，我看到三个选项：使用附加模式保存，在创建所有数据产品之前保持diff数据集。使用附加模式保存，添加额外的列upload_timestamp 将每个更新保存到一个单独的文件夹，例如： part_001 +- various_files.parquet +- part_002 + +- v

浏览 0提问于2017-04-10得票数 2

回答已采纳

2回答

将数据池与已删除的记录同步

apache-spark、hadoop、cassandra、hdfs、data-lake

我正在建设的数据湖，以集成多个数据源的高级分析。在开始时，我选择HDFS作为数据湖存储。但是我有一个更新和删除数据源的要求，我必须与数据湖同步。要理解Data的不可变性质，我将考虑数据源中的LastModifiedDate，以检测该记录是否已更新，并将该记录插入数据湖中具有当前日期。这样做的目的是用最大值(日期)选择记录。但是，我无法理解我将检测删除的记录从来源和我将做什么与数据湖？我应该使用诸如Cassandra之类的其他数据存储并执行delete命令吗？恐怕它会失去不可改变的财产。你能建议我在这种情况下的良好做法吗？

浏览 2提问于2018-04-06得票数 1

1回答

GCP节点中没有启动新SparkSession的资源

python、apache-spark、pyspark、google-cloud-dataproc、namenode

我正在处理一个用例，在这个用例中，我必须处理大量数据(多个表)，并试图将其作为批处理作业提交给Dataproc集群(PySpark)。我的代码看起来像这样 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import SparkSession def readconfig(): #code to read a yaml file def func(filename, tabname): sc = SparkContext("local",

浏览 4提问于2020-06-20得票数 1

1回答

通过spark更快地从blob存储读取数据

azure、apache-spark、pyspark

我目前有一个由4个工作节点和2个头节点组成的spark集群。我在blob存储中有一个1.5 GB的CSV文件，我可以从其中一个头节点访问它。我发现使用PySpark加载并缓存这些数据需要相当长的时间。有没有更快加载数据的方法？我的一个想法是加载数据，然后将数据划分为k个(节点数)不同的段，并将它们保存回blob作为拼图文件。这样，我可以并行加载数据集的不同部分，然后合并...然而，我不确定是否所有的数据都只是加载在头节点上，然后当计算发生时，它会分布到其他机器上。如果是后者，那么分区将是无用的。如果能帮上忙，我们将不胜感激。谢谢。

浏览 0提问于2016-11-26得票数 1

1回答

Snowpipe问题- Azure数据湖存储

snowflake-cloud-data-platform

我们遇到了一个问题，在文件完全写入azure数据湖存储之前，snowpipe可能就已经开始摄取文件了。然后，它抛出一个错误-解析拼图文件时出错:无效:拼图文件大小为0字节。以下是一些统计数据，显示该文件在13:59:56完全写入，snowflake在13:59:47通知。 PIPE_RECEIVED_TIME - 2021-08-06 13:59:47.613 -0700 LAST_LOAD_TIME - 2021-08-06 14:00:05.859 -0700 ADLS文件上次修改时间- 13:59:56 有没有人遇到过这个问题，或者有什么解决这个问题的建议？

浏览 11提问于2021-08-09得票数 0

4回答

我可以使用本地计算机上的Apache处理100 GB的数据吗？

python、apache-spark、hadoop、pyspark

我有大约100 GB的用户数据，希望在我的笔记本上使用Apache进行处理，我已经安装了Hadoop和Spark，为了进行测试，我将一个大约9GB的文件上传到HDFS，并使用pyspak访问和查询它。当我查询特定用户的数据时，测试文件总共有113959238条记录/行，例如 select * from table where userid=???? 检索该用户的记录大约需要6分钟，如果我在整个文件上运行，则需要很长时间。我要对这些数据进行的分析是:提取一个用户的记录，对其进行一些操作，然后对文件中的所有用户进行第二个用户的数据处理等等。用户查询的数据不会太多，因此可以加载到内存中，操作可以

浏览 8提问于2020-02-26得票数 4

1回答

流分析:基于消息有效负载的动态输出路径

azure、azure-storage、azure-stream-analytics、azure-data-lake、azure-iot-hub

我正在开发一种IoT分析解决方案，它使用在Azure IoT集线器上触发的Avro格式的消息，并且(希望)使用将消息存储在数据湖和blob存储中。一个关键的要求是Avro容器在存储中必须与提交给IoT集线器时完全相同，这样才能使下游用户受益。在Stream中，我遇到了一个限制，即对单个文件创建的粒度控制。当设置一个新的输出流路径时，我只能在路径前缀中提供日期/日和小时，结果是每小时有一个文件，而不是每个收到的消息都有一个文件。客户需要对每个设备分别使用blob容器，对于每个事件需要单独的blob容器。类似地，Data需求至少规定了一个由设备描述的正常命名约定，并为每个事件提供了单独的文件。

浏览 1提问于2016-12-20得票数 2

回答已采纳

3回答

云数据库怎么选？

请描述您的问题标题：年底大酬宾-腾讯云地址：https://cloud.tencent.com/act/bargin?utm_source=portal?utm_medium=recommend&utm_campaign=sms&utm_term=1204#cdb_hot 浏览器信息 Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0

浏览 888提问于2017-12-18

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark正在写入大型单个拼图文件，而不是分区文件

相关·内容

Azure数据库中在日期范围间读取拼花文件的有效方法

天蓝色水滴存储与天蓝色数据湖存储的区别

在内存受限设置中运行Spark

星火的地图和减少操作是不同于Hadoop减少的吗?如果是，那么怎么做？

Spark，显示非零内存存储号，即使我不保存数据

如何快速入门Kafka消息队列？

腾讯云时序数据库 CTSDB VS 传统时序数据库？

雪花不扣除拼花中的按列分区

将大数据插入云扳手表

数据湖中时间戳csv外部表中的临时缓慢变化尺寸物化

Azure游戏记分板

每天更新云中20-30亿行数据集中的1亿行

将数据添加到存储在磁盘上的Spark/Parquet数据

将数据池与已删除的记录同步

GCP节点中没有启动新SparkSession的资源

通过spark更快地从blob存储读取数据

Snowpipe问题- Azure数据湖存储

我可以使用本地计算机上的Apache处理100 GB的数据吗？

流分析:基于消息有效负载的动态输出路径

云数据库怎么选？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐