在python中将包含具有二维数组的列的pandas数据帧保存为parquet文件。_如何将包含一列数组的Dask数据帧写入到parquet文件_如何使用pandas在python中将每N个值的列表拆分成数据帧的列和行 - 腾讯云开发者社区

python、arrays、pandas、parquet

我正在尝试使用pd.to_parquet(df)将一个熊猫数据帧保存到一个拼图文件中。df是一个包含多列的数据帧，其中一列在每一行中都填充有2d数组。当我这样做的时候，我收到了一个来自pyarrow的错误，报告说只支持一维阵列。我用谷歌搜索了一下，似乎没有解决方案。我只是想确认，实际上没有解决方案，我必须以某种方式用一维数组来表

浏览 51提问于2019-05-23得票数 1

回答已采纳

1回答

Dask无法使用连接的数据写入拼图

pandas、dask、parquet

我正在尝试做以下几件事：使用pandas读取.dat文件，将其转换为dask数据帧，并将其连接到我从拼图文件中读取的另一个dask数据帧，然后输出到新的拼图文件。当我在python脚本中这样做时，脚本完成了，但是整个组合文件并没有被写出来(我知道因为它的大小- CSV是140MB，parquet文件大约是1

浏览 26提问于2020-06-13得票数 1

1回答

在一列(时间戳和字符串)中，将数据帧存储为具有混合数据类型的块。

python、pandas、parquet、pyarrow

我想存储一个熊猫数据帧作为Parquet文件。但我发现了一个错误：import pandas

浏览 2提问于2022-06-29得票数 -1

2回答

如何从hadoopish文件夹加载拼花文件

java、python、apache-spark、apache-spark-sql、pyspark-sql

如果我用Java以这种方式保存数据帧，.：.然后就会以一种草率的方式保存它(一个包含大量文件的文件夹)。是否可以将数据帧保存为单个文件？我试过collect()，但没有用。如果这是不可能的，那么我的问题是如何更改Python

浏览 4提问于2017-05-21得票数 0

回答已采纳

1回答

使用PyArrow从多个文件中读取已分区的宗地数据集，然后根据文件名添加分区键

python、parquet、pyarrow、apache-arrow

我有一堆parquet文件，每个文件都包含我的数据集的一个子集。假设文件名为data-N.parquet，其中N是一个整数。我可以全部读取它们，然后将其转换为pandas数据帧： files = glob.glob("data-**.parquet") files,metadata_nth

浏览 48提问于2021-09-29得票数 1

回答已采纳

0回答

将带有timedeltas的pandas数据帧写入parquet

python、pandas、parquet、pyarrow

我似乎不能通过pyarrow将包含timedeltas的pandas数据帧写到拼图文件中。Pyarrow随后会因此抛出错误。这是pand

浏览 0提问于2018-07-14得票数 9

回答已采纳

1回答

拼图格式-拆分不同文件中的列

apache-spark、bigdata、parquet

在拼图文档上明确提到，该设计支持将元数据和数据拆分到不同的文件中，还包括不同列组可以存储在不同文件中的可能性。然而，我找不到任何关于如何实现这一点的说明。在我的用例中，我想将元数据存储在一个文件中，将列1-100数据存储在一个文件中，将101-200<em

浏览 11提问于2021-02-17得票数 2

1回答

关于在PySpark中写入拼图的问题

csv、pyspark、parquet

在PySpark中将csv文件转换为parquet时遇到问题。当转换相同模式的多个文件时，它们不具有相同的模式，因为有时数字字符串将被读取为浮点型，其他字符串将被读取为整数，等等。列的顺序似乎也有问题。似乎当编写具有相同列的数据帧时，但是以不同的顺序排列以拼接，那么这些拼接就不能被加载到相同的

浏览 23提问于2021-01-20得票数 0

3回答

从大熊猫中加载BigQuery表DataFrames

python、pandas、google-cloud-platform、google-bigquery、parquet

我正在尝试使用官方的python客户机库将一个相对较大的pandas dataframe df加载到Google BigQuery表table_ref中。到目前为止，我已经尝试了两种不同的方法：client = bigquery.Client()2)将数据存储保存到位于uri parquet_uri

浏览 12提问于2020-03-29得票数 5

回答已采纳

1回答

为什么分区的拼板文件占用更大的磁盘空间？

python、parquet、pyarrow

我正在学习使用python和py箭头的拼图文件。在压缩和最小化磁盘空间方面，拼花是很棒的。我的数据集是190 3MB的csv文件，当保存为snappy-compressed parquet文件时，该文件以单个3MB文件结束。但是，当我将数据集保存为分区文件时，它们的大小加起来

浏览 17提问于2019-10-13得票数 4

回答已采纳

2回答

如何在pandas* dataframe中使用列表作为值？*

python、csv、numpy、pandas、dataframe

我有一个数据帧，它要求列的子集具有具有多个值的条目。下面是一个包含“runtime”列的dataframe，其中包含程序在各种条件下的运行时： df = [{"condition": "a", "runtimes": [1,1.5,2]}, {"condition": "b&

浏览 0提问于2014-11-08得票数 8

回答已采纳

1回答

pyarrow.parquet.write_to_dataset()在使用partition_cols时非常慢

python、pyarrow

我正在玩地板文件，以了解它们是否适合我的目的。为此，我从csv文件加载数据集，并将其保存为拼花数据集：import pyarrow as pa但是，当我尝试编写这样的分区拼花数据集时， pq.write_to_dataset(df_table, root_path='my.parquet', partitio

浏览 2提问于2019-11-19得票数 1

回答已采纳

1回答

如何从TensorFlow/OpenCV对象检测检测到的每个对象触发JSON或pd Dataframe报告

python、dataframe、tensorflow、opencv、object-recognition

我正在构建一个python应用程序，它使用AI来扫描OpenCV的实时提要，并跟踪带或不带面具的人。我想问，是否有一种好方法可以为提要中跟踪的每个唯一实体发送唯一的数据帧，以便在数据库中创建每个人进入帧时被跟踪的程序性条目，以及他们是否戴着口罩。有什么建议吗？

浏览 15提问于2021-04-26得票数 0

2回答

pandas python中没有名为read_csv的属性

python、csv、pandas、dataset、attributeerror

我是机器学习的新手，正在使用Python中的pandas创建一个数据集。我查阅了一个教程，只是在尝试创建数据帧的基本代码，但我一直得到以下回溯：我在Excel 13中将csv文件保存为csv(逗号分隔以下是我的代码： import pandas

浏览 11提问于2015-08-01得票数 9

2回答

提高在拼图文件中重写时间戳的性能

python、pandas、amazon-s3、parquet、pyarrow

由于我的数据消费者的一些限制，我需要“重写”一些拼图文件，以将纳秒精度的时间戳转换为毫秒精度的时间戳。我已经实现了这一点，它是有效的，但我对它并不完全满意。import pandas as pd f's3://{bucket}/{key}', engine='pyarrowoutputBu

浏览 38提问于2019-06-04得票数 1

2回答

将Dask DataFrame存储为泡菜

python、pandas、dataframe、dask

= dd.read_csv('matrix.txt', header=None)有没有办法将这个DataFrame保存为一个泡菜

浏览 9提问于2018-01-30得票数 3

回答已采纳

2回答

公共数据结构与DataFrame

python、dataframe、structure

据我所知，最常见的数据结构是：StacksLinked listsHash TablesGraph Data structures DataFrameDataFrame是一个单独的数据结构，还是上面列出的一些数据的突变？

浏览 7提问于2017-09-22得票数 0

回答已采纳

2回答

将日期列与NAT(null)从pandas保存到parquet

python-3.x、pandas、parquet、amazon-athena、pyarrow

我需要将可为空的整型日期值('YYYYMMDD')读取到pandas，然后将此pandas数据帧保存为Date32Day格式，以便Athena Glue Crawler分类器将该列识别为日期。下面的代码不允许我将列保存到pandas中的parquet： import pandas as pd dates = [None, "20200710"

浏览 32提问于2020-07-14得票数 3

2回答

如何在Python3.6中读取/转换包含用Python2.7编写的pandas数据帧的HDF文件？

python、python-3.x、python-2.7、pandas

我用Python2.7编写了一个dataframe，但现在我需要在Python3.6中打开它，反之亦然(我想比较两个版本编写的两个dataframe)。如果我在Python3.6中使用pandas打开由Python2.7生成的HDF文件，则会产生以下错误：UnicodeDecodeError: 'ascii' codec can't decode byte0xde in position 1: ordin

浏览 25提问于2018-03-05得票数 1

回答已采纳

1回答

pyarrow读取gzipped拼图文件时的内存使用率极高

pandas、parquet、pyarrow

我有一组gzipped拼图文件，大约有210列，我正在将其中的大约100列加载到pandas数据框架中。当文件大小约为1MB(约50行)时，它工作得很好且速度非常快；python3进程消耗的内存小于500MB。然而，当文件大于1.5MB (70+行)时，它开始消耗9-10 GB的内存，而不加载数据帧。如果我只指定2-3列，它就能够从“大”

浏览 15提问于2019-09-06得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云