Pandas to parquet不是放入文件系统，而是在变量中获取结果文件的内容

python、pandas、parquet、pyarrow

有几种方法可以实现从熊猫到拼花地板的转换。例如pyarrow.Table.from_pandas或dataframe.to_parquet。它们的共同点是，它们都以参数的形式获取应该存储df.parquet的filePath。我需要将编写的拼图文件的内容放到一个变量中，但我还没有看到这一点。我主要想要和pandas.to_cs

浏览 65提问于2019-02-13得票数 3

回答已采纳

1回答

两个拼花文件可以比较吗？

python、diff、parquet

我找不到一个开源工具或库来比较两个拼板文件。假设我没有忽视显而易见的事实，这有技术上的原因吗？我正在使用Python语言。谢谢。

浏览 0提问于2018-04-28得票数 3

回答已采纳

1回答

使用Dask从google云存储读取拼图文件

python、google-cloud-storage、parquet、dask、pyarrow

我试着用Dask从谷歌的桶里读和写。使用一组csv文件可以工作，但不方便(速度较慢，无法压缩，无法只读取某些列)，所以我尝试使用apache parquet格式。= dd.from_pandas(pandas_df, npartitions=2)但当我试着把它读回来read_again_df = dd.read_par

浏览 0提问于2018-09-24得票数 1

回答已采纳

2回答

使用Spark处理比群集更大的数据集

apache-spark、apache-spark-sql、large-data、parquet

我在由5个节点组成的Spark2.3集群上，每个节点都有12 of的可用内存，我正在尝试使用大约130 of的Parquet数据集，在此之上我创建了一个分区的外部Hive表。假设我想知道数据集中的记录数量。我最初的猜测是，Spark将按分区读取数据分区，聚合当前分区以获取记录计数，将结果传递给驱动程序，然后删除该分区以读取下一个分区。然而，要么这不是它的工作方式(而是</e

浏览 0提问于2018-12-05得票数 0

回答已采纳

1回答

与合并的地板文件的Impala表的性能问题

apache-spark、hadoop、parquet、impala、pyarrow

这里，我让python实用程序使用Pyarrow库为单个数据集创建多个parquet文件，因为数据集的大小在一天内是很大的。这里的拼花文件包含10K的拼板行组，在每个分割的拼花文件中，最后我们将分裂的文件组合成一个文件来创建一个大的单一的拼花文件。这里，我创建了两个Impal

浏览 0提问于2019-01-28得票数 0

回答已采纳

2回答

解压缩到一个变量

php、zip、pclzip

我需要处理压缩文件的内容，但我不能更改将托管我的程序的服务器上的权限。这意味着我无法将zip文件下载到服务器，因此我需要将文件内容读取到一个变量中，而不是将其写入文件系统。是否可以获取此类变量的字符串内容，并将解压缩后的内容放入新

浏览 0提问于2013-05-01得票数 2

1回答

如何防止使用pandas.DataFrame将拼花文件写入CSV文件时的表格格式？

python、csv、dataframe、parquet

我使用pyarrow.parquet读取了一个parquet文件，该文件是spark的输出。输出由一些行组成，每一行有两对:一个字和一个向量(每行是一个word2vec对)。文件中写入结果时，我得到了以下结果： word1 "-0.10812066 0.04352815 0.00529436 -0.0492562 -0.0974493533 0.275364409 -0.06501597每个矢量在特定<e

浏览 0提问于2019-04-29得票数 0

回答已采纳

4回答

可以分块读取拼图文件吗？

parquet

例如，pandas的read_csv有一个chunk_size参数，它允许read_csv在CSV文件上返回一个迭代器，这样我们就可以分块读取它。拼图格式以块的形式存储数据，但是没有像read_csv这样的有文档记录的方法来读入块。有没有办法以块的形式读取拼图文件？

浏览 3提问于2019-11-29得票数 8

2回答

将PySpark数据记录到MLFlow伪制品中

python、pyspark、mlflow

我目前正在为dbfs编写一个MLFlow工件，但是我使用的是下面的代码. temp = tempfile.NamedTemporaryFile(prefix="*****", suffix=".csv"

浏览 5提问于2020-11-10得票数 1

6回答

读取文件夹中的多个拼板文件，并使用python写入单个csv文件

pandas、csv、parquet

我是python的新手，我有一个场景，其中有多个按顺序排列的带有文件名的parquet文件。示例:文件夹中的par_file1、par_file2、par_file3等多达100个文件。我需要读取从file1开始的这些拼板文件，并将其写入单个csv文件。在编写file1内容之后，file2内容应该附加到相同的c

浏览 10提问于2018-08-05得票数 21

回答已采纳

1回答

并行化GZip文件处理火花

python、hadoop、apache-spark、gzip、pyspark

我有一个巨大的GZip文件列表，需要转换为Parquet。由于GZip的压缩特性，无法对一个文件进行并行化。我可以并行化文件<

浏览 0提问于2016-02-15得票数 3

1回答

将具有选定列的多个拼花文件读入一个Pandas数据文件

python、pandas、pyarrow

我试图读取多个与选定的列到一个Pandas数据文件。这意味着拼板文件不能共享所有的列。我试图将一个filter()参数添加到pd.read_parquet()中，但似乎它在多个文件读取中不起作用。from pathlib import Pathf

浏览 4提问于2021-12-13得票数 1

1回答

如何检查在Dask上调用compute是否安全？

python、pandas、dataframe、dask

目前，我的PC在尝试计算整个列(4 4GB~1.25亿行)的log1p时冻结，当我运行以下命令：s = df_train.unit_sales.map_partitions

浏览 0提问于2018-03-25得票数 2

1回答

从内存中的数据库二进制列(postgresql)读取文件，而无需在文件系统中保存和打开文件

python、database、python-3.x、io

我使用的是Python 3.4。我在我的postgresql数据库中有一个二进制列，其中包含一些文件，我需要从数据库中检索并读取它……问题是，为了让它工作，我首先必须(1)用'wb‘在文件系统中打开一个新文件，(2)写二进制列的内容，然后(3)用'rb’读()文件系统文件。我想跳过这整个过程...我只是想从数据库中获取

浏览 0提问于2015-06-19得票数 0

1回答

dataframe连接和重新分区大文件，用于时间序列和相关性。

python、dataframe、concatenation、dask

我们可能在较低的时间(例如48小时、1小时、月等)重新采样。在长达11年的时间里，把这些关联想象成11年。数据目前在11个单独的拼花文件中(每年一个)，从11个.txt文件中单独生成Pandas。熊猫没有对任何这些文件进行分区。在内存中，这些拼花文件中的每一个都加载了大约20 In的内存。预期的</e

浏览 29提问于2022-06-20得票数 1

1回答

将文本文件数据导入数据库

php、mysql

>任何帮助都是非常感谢的。西蒙我这样做的原因是产品描述都

浏览 0提问于2012-10-30得票数 0

回答已采纳

1回答

如何将拼接字节对象作为zipfile写入磁盘

python、pandas、zip、byte、parquet

我从一个pandas数据帧开始，我想将它保存为一个压缩的拼图文件，所有这些都保存在内存中，而不需要在磁盘上执行中间步骤。我有以下几点：df.to_parquet(bytes_buffer)感谢您的帮助:)

浏览 0提问于2020-03-20得票数 1

1回答

在加载多个拼花文件时保留dask数据分区

python、dataframe、dask、fastparquet

我有一些以时间为索引的数据帧中的时间序列数据。索引被排序，数据存储在多个拼花文件中，每个文件中有一天的数据。我使用dask 2.9.1在我的实际数据中，我有一个拼花

浏览 1提问于2020-01-02得票数 1

回答已采纳

1回答

使用Azure数据工厂获取分区数据的上次修改日期

azure-blob-storage、azure-data-factory、last-modified

我最终尝试获取在过去24小时内修改过的分区(即DATE_ID=20211004)的名称。我尝试过使用Get Metadata活动，但它似乎只迭代分区文件夹，而不是分区文件夹中的文件。我需要获取文件夹中已分区文件的最后修改日期，但我不确定如何做到这一点。.snappy.parquet |-|-committed_123456789

浏览 7提问于2021-10-05得票数 0

1回答

在使用Dask pivot_table之后，我丢失了索引列

python、dask

在我使用pivot_table作为Dataframe并将数据保存到Parquet文件后，我正在松散索引列。("1.parq",ddf)这就产生了一个错误：有人能帮我把“索引”列的表保存到Parquet文件中</em

浏览 4提问于2017-03-06得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

两个拼花文件可以比较吗？

使用Dask从google云存储读取拼图文件

使用Spark处理比群集更大的数据集

与合并的地板文件的Impala表的性能问题

解压缩到一个变量

如何防止使用pandas.DataFrame将拼花文件写入CSV文件时的表格格式？

可以分块读取拼图文件吗？

将PySpark数据记录到MLFlow伪制品中

读取文件夹中的多个拼板文件，并使用python写入单个csv文件

并行化GZip文件处理火花

将具有选定列的多个拼花文件读入一个Pandas数据文件

如何检查在Dask上调用compute是否安全？

从内存中的数据库二进制列(postgresql)读取文件，而无需在文件系统中保存和打开文件

dataframe连接和重新分区大文件，用于时间序列和相关性。

将文本文件数据导入数据库

如何将拼接字节对象作为zipfile写入磁盘

在加载多个拼花文件时保留dask数据分区

使用Azure数据工厂获取分区数据的上次修改日期

在使用Dask pivot_table之后，我丢失了索引列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐