如何逐行加载拼图文件

、、、、

可以使用生成器打开拼图文件并逐行迭代吗？这是为了避免将整个拼图文件加载到内存中。该文件的内容是pandas DataFrame。

浏览 0提问于2018-06-08得票数 5

1回答

、

为了节省笔记本电脑上的空间，我通过dask保存了一个相当大的数据集作为拼图文件。想知道是否有一种方法可以逐行读取镶木地板文件。谢谢你的帮助。

浏览 12提问于2019-03-28得票数 0

回答已采纳

3回答

我在从parquet文件加载dask数据帧时遇到了问题。基本上，我将拼图文件存储到类别中:飞机名称(AIRCRAFT=name_aircraft)、序号(一个数字，用于标识飞机的每个任务: PROGRESSIVE=number)、年、月和日。当我尝试将拼接文件读取到dask数据框中时，我成功地过滤了年份窗口和逐行窗口，但仅选择了一些飞机失败。这里报告了我用来读取拼图文件的函数 ddf = dd.read_parquet(path, engine=&qu

浏览 47提问于2021-06-22得票数 0

3回答

如何将本地拼图文件加载到GPDB中？

我做了一个GPDB集群(5.18.0)，并希望将一些本地拼图文件加载到GPDB中。如何获得它？据我所知，gpload只支持普通文件和cvs文件加载。有没有什么办法，即使是被弃用的也可以做到呢？

浏览 44提问于2019-05-17得票数 1

1回答

如何使用通过Apache Drill inside Hive创建的Parquet文件

、、、

Apache Drill有一个很好的功能，可以从许多传入的数据集中制作拼图文件，但似乎没有太多关于如何在以后使用这些拼图文件的信息-特别是在Hive中。有没有办法让Hive使用这些"1__0.parquet“等文件？也许可以创建一个表并从拼图文件中加载数据，或者创建一个表并以某种方式将这些拼图文件放在hdfs中，以便Hive读取它？

浏览 0提问于2017-01-13得票数 0

2回答

spark写入拼花面板文件。如何指定行组大小？

、、、

我正在努力寻找如何在Spark API中指定拼图文件写入器的行组大小。

浏览 5提问于2017-10-25得票数 1

1回答

为什么在BigQuery表中加载后，地块文件中的数据与源数据不匹配

、、

在我加载拼图文件从谷歌存储到BigQuery表。预览tap中的数据(在Bigquery中)与源数据不同。但是模式是正确的。 ?

浏览 7提问于2019-05-17得票数 1

2回答

Spark文件格式转义\n正在加载CSV

、、

我正在使用spark读取CSV管道分隔的数据文件。这是有资格引用的。一个文本块中有一个/n，它会导致读取损坏。我不明白的是，它是引用限定文本，所以它肯定应该跳过它！？行本身是CR+LN分隔的。我该如何解决这个问题呢？我可以在extract上清除它们，但对我来说似乎不是那么优雅。这就是我用来加载数据的代码val df = spark.read .schema

浏览 2提问于2018-08-10得票数 0

回答已采纳

1回答

如何从.Thrift文件的结构对象创建struct

、、、

我试过了val toDF = temp.toDF() 有什么方法可以消除这个错误吗？？

浏览 48提问于2018-08-14得票数 0

3回答

如何从文件中读取多行文件并将其拆分为php中的数组

我有一个文件，里面有：vali 154667$array[0][0]=ali $array[1][

浏览 3提问于2014-08-03得票数 1

回答已采纳

5回答

需要更少的拼花面板文件

、、、、

rdd.toDF.write.mode(SaveMode.Append).partitionBy("Some Column").parquet(output_path) 然而，在每个分区下，有太多的拼图文件，而且每个文件的大小都很小，这会使我下面的步骤加载所有的拼图文件变得非常慢。有没有更好的方法，在每个分区下，创建更少的拼图文件，并增加单个拼图文件的大小？

浏览 6提问于2016-08-31得票数 2

1回答

以拼图格式存储Spark数据帧时数据丢失

、、

我有一个csv数据文件，可以加载到pyspark中：我在拼图中重新存储了我的数据帧：然后，我加载拼图数据： df = spark.read.parquet为什么我丢失了

浏览 7提问于2020-05-06得票数 0

1回答

AWS雅典娜-合并小拼图文件或离开它们？

、、

我有很多小拼图文件是通过AWS胶水读取到雅典娜的。我知道小的拼图文件(每个35k左右，因为日志输出它们的方式)并不理想，但是一旦它们被读取到数据目录中，它还重要吗？换句话说，在加载到Athena之前，我是否应该将所有小拼图文件合并到更理想大小的文件中？

浏览 14提问于2021-03-27得票数 1

回答已采纳

1回答

jupyter中的read_parquet抛出“无效的拼图文件.损坏的页脚”错误

、、

我在jupyter笔记本中加载了一个来自AWS S3的最新更新的拼图文件。每次更新拼图文件中的数据后，我都会得到一个“无效的拼图文件。损坏的页脚”。错误。每次更新拼图文件后，都会显示错误。pd.read_parquet(location, engine = 'pyarrow')我希望在不需要重启内核的情况下，获得包含更新后的拼图

浏览 53提问于2019-07-24得票数 0

1回答

Spark Structured Streaming写入到parquet会创建如此多的文件

、、

我使用结构化流传输从kafka加载消息，做一些聚集，然后写到parquet文件。问题是，仅为来自kafka的100条消息创建了如此多的拼图文件(800个文件)。checkpointLocation", "c:\\bigdata\\checkpoints")使用spark加载其中一个拼图文件时，显示为空 +-----

浏览 5提问于2017-02-21得票数 5

3回答

Pandas :从拼图文件中读取前n行？

、、

我有一个拼图文件，我想将文件中的第一个n行读取到pandas数据框中。或者，我可以读取完整的拼图文件并过滤前n行，但这将需要更多的计算，这是我想要避免的。有没有办法做到这一点？

浏览 0提问于2018-12-31得票数 27

回答已采纳

1回答

如何在拼图文件上创建配置单元表

在拼图文件上创建蜂窝表时遇到的问题。有没有人能帮我一下？我已经阅读了很多文章并遵循了指南，但无法在Hive Table中加载拼图文件。

浏览 8提问于2017-12-30得票数 2

1回答

比较pandas在从拼图加载数据框后的日期

、

我有以下代码，可以从一个拼图文件加载一个pandas数据帧。拼图文件有一个名为the_date的列，我正在尝试创建一个按日期过滤的新数据帧。从拼图加载数据帧后，是否需要进行任何类型的日期转换？会出什么问题呢？

浏览 18提问于2021-07-14得票数 0

回答已采纳

2回答

将过大而无法装入内存的CSV文件保存到parquet文件中

、、

我有一个CSV文件太大，无法放入内存。我想将其另存为拼图文件，并使用现有工具在本地进行分析，但将来可以将其移动到Spark集群，并使用Spark进行分析。有没有办法在不将文件移动到Spark集群的情况下逐行执行此操作？我正在寻找一个不涉及使用Spark的纯python解决方案。

浏览 4提问于2018-01-26得票数 1

1回答

具有Snappy压缩功能的Parquet格式的红移复制命令

、、、、

或者，我将拼图格式转换为纯文本，并使用Pig脚本将snappy编解码器更改为gzip。目前有没有一种方法可以直接将数据从地块文件加载到Redshift？

浏览 2提问于2016-03-10得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在python中使用生成器循环运行大型拼图文件？