腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
python
中将
包含
具有
二维
数组
的
列
的
pandas
数据
帧
保存为
parquet
文件
。
python
、
arrays
、
pandas
、
parquet
我正在尝试使用pd.to_
parquet
(df)将一个熊猫
数据
帧
保存到一个拼图
文件
中。df是一个
包含
多
列
的
数据
帧
,其中一
列
在
每一行中都填充有2d
数组
。当我这样做
的
时候,我收到了一个来自pyarrow
的
错误,报告说只支持一维阵列。我用谷歌搜索了一下,似乎没有解决方案。我只是想确认,实际上没有解决方案,我必须以某种方式用一维
数组
来表
浏览 51
提问于2019-05-23
得票数 1
回答已采纳
1
回答
Dask无法使用连接
的
数据
写入拼图
pandas
、
dask
、
parquet
我正在尝试做以下几件事: 使用
pandas
读取.dat
文件
,将其转换为dask
数据
帧
,并将其连接到我从拼图
文件
中读取
的
另一个dask
数据
帧
,然后输出到新
的
拼图
文件
。当我
在
python
脚本中这样做时,脚本完成了,但是整个组合
文件
并没有被写出来(我知道因为它
的
大小- CSV是140MB,
parquet
文件
大约是1
浏览 26
提问于2020-06-13
得票数 1
1
回答
在
一
列
(时间戳和字符串)中,将
数据
帧
存储为
具有
混合
数据
类型
的
块。
python
、
pandas
、
parquet
、
pyarrow
我想存储一个熊猫
数据
帧
作为
Parquet
文件
。但我发现了一个错误:import
pandas
浏览 2
提问于2022-06-29
得票数 -1
2
回答
如何从hadoopish
文件
夹加载拼花
文件
java
、
python
、
apache-spark
、
apache-spark-sql
、
pyspark-sql
如果我用Java以这种方式保存
数据
帧
,.:.然后就会以一种草率
的
方式保存它(一个
包含
大量
文件
的
文件
夹)。是否可以将
数据
帧
保存为
单个
文件
?我试过collect(),但没有用。如果这是不可能
的
,那么我
的
问题是如何更改
Python
浏览 4
提问于2017-05-21
得票数 0
回答已采纳
1
回答
使用PyArrow从多个
文件
中读取已分区
的
宗地
数据
集,然后根据
文件
名添加分区键
python
、
parquet
、
pyarrow
、
apache-arrow
我有一堆
parquet
文件
,每个
文件
都
包含
我
的
数据
集
的
一个子集。假设
文件
名为data-N.
parquet
,其中N是一个整数。我可以全部读取它们,然后将其转换为
pandas
数据
帧
: files = glob.glob("data-**.
parquet
") files,metadata_nth
浏览 48
提问于2021-09-29
得票数 1
回答已采纳
0
回答
将带有timedeltas
的
pandas
数据
帧
写入
parquet
python
、
pandas
、
parquet
、
pyarrow
我似乎不能通过pyarrow将
包含
timedeltas
的
pandas
数据
帧
写到拼图
文件
中。Pyarrow随后会因此抛出错误。这是
pand
浏览 0
提问于2018-07-14
得票数 9
回答已采纳
1
回答
拼图格式-拆分不同
文件
中
的
列
apache-spark
、
bigdata
、
parquet
在
拼图文档上明确提到,该设计支持将元
数据
和
数据
拆分到不同
的
文件
中,还包括不同
列
组可以存储
在
不同
文件
中
的
可能性。 然而,我找不到任何关于如何实现这一点
的
说明。
在
我
的
用例中,我想将元
数据
存储
在
一个
文件
中,将
列
1-100
数据
存储
在
一个
文件
中,将101-200<em
浏览 11
提问于2021-02-17
得票数 2
1
回答
关于
在
PySpark中写入拼图
的
问题
csv
、
pyspark
、
parquet
在
PySpark
中将
csv
文件
转换为
parquet
时遇到问题。当转换相同模式
的
多个
文件
时,它们不
具有
相同
的
模式,因为有时数字字符串将被读取为浮点型,其他字符串将被读取为整数,等等。
列
的
顺序似乎也有问题。似乎当编写
具有
相同
列
的
数据
帧
时,但是以不同
的
顺序排列以拼接,那么这些拼接就不能被加载到相同
的
浏览 23
提问于2021-01-20
得票数 0
3
回答
从大熊猫中加载BigQuery表DataFrames
python
、
pandas
、
google-cloud-platform
、
google-bigquery
、
parquet
我正在尝试使用官方
的
python
客户机库将一个相对较大
的
pandas
dataframe df加载到Google BigQuery表table_ref中。到目前为止,我已经尝试了两种不同
的
方法:client = bigquery.Client()2)将
数据
存储保存到位于uri
parquet
_uri
浏览 12
提问于2020-03-29
得票数 5
回答已采纳
1
回答
为什么分区
的
拼板
文件
占用更大
的
磁盘空间?
python
、
parquet
、
pyarrow
我正在学习使用
python
和py箭头
的
拼图
文件
。
在
压缩和最小化磁盘空间方面,拼花是很棒
的
。我
的
数据
集是190 3MB
的
csv
文件
,当
保存为
snappy-compressed
parquet
文件
时,该
文件
以单个3MB
文件
结束。但是,当我将
数据
集
保存为
分区
文件
时,它们
的
大小加起来
浏览 17
提问于2019-10-13
得票数 4
回答已采纳
2
回答
如何在
pandas
dataframe中使用列表作为值?
python
、
csv
、
numpy
、
pandas
、
dataframe
我有一个
数据
帧
,它要求
列
的
子集
具有
具有
多个值
的
条目。下面是一个
包含
“runtime”
列
的
dataframe,其中
包含
程序
在
各种条件下
的
运行时: df = [{"condition": "a", "runtimes": [1,1.5,2]}, {"condition": "b&
浏览 0
提问于2014-11-08
得票数 8
回答已采纳
1
回答
pyarrow.
parquet
.write_to_dataset()
在
使用partition_cols时非常慢
python
、
pyarrow
我正在玩地板
文件
,以了解它们是否适合我
的
目的。为此,我从csv
文件
加载
数据
集,并将其
保存为
拼花
数据
集:import pyarrow as pa但是,当我尝试编写这样
的
分区拼花
数据
集时, pq.write_to_dataset(df_table, root_path='my.
parquet
', partitio
浏览 2
提问于2019-11-19
得票数 1
回答已采纳
1
回答
如何从TensorFlow/OpenCV对象检测检测到
的
每个对象触发JSON或pd Dataframe报告
python
、
dataframe
、
tensorflow
、
opencv
、
object-recognition
我正在构建一个
python
应用程序,它使用AI来扫描OpenCV
的
实时提要,并跟踪带或不带面具的人。我想问,是否有一种好方法可以为提要中跟踪
的
每个唯一实体发送唯一
的
数据
帧
,以便在
数据
库中创建每个人进入
帧
时被跟踪
的
程序性条目,以及他们是否戴着口罩。 有什么建议吗?
浏览 15
提问于2021-04-26
得票数 0
2
回答
pandas
python
中没有名为read_csv
的
属性
python
、
csv
、
pandas
、
dataset
、
attributeerror
我是机器学习
的
新手,正在使用
Python
中
的
pandas
创建一个
数据
集。我查阅了一个教程,只是
在
尝试创建
数据
帧
的
基本代码,但我一直得到以下回溯:我
在
Excel 13
中将
csv
文件
保存为
csv(逗号分隔以下是我
的
代码: import
pandas
浏览 11
提问于2015-08-01
得票数 9
2
回答
提高
在
拼图
文件
中重写时间戳
的
性能
python
、
pandas
、
amazon-s3
、
parquet
、
pyarrow
由于我
的
数据
消费者
的
一些限制,我需要“重写”一些拼图
文件
,以将纳秒精度
的
时间戳转换为毫秒精度
的
时间戳。 我已经实现了这一点,它是有效
的
,但我对它并不完全满意。import
pandas
as pd f's3://{bucket}/{key}', engine='pyarrowoutputBu
浏览 38
提问于2019-06-04
得票数 1
2
回答
将Dask DataFrame存储为泡菜
python
、
pandas
、
dataframe
、
dask
= dd.read_csv('matrix.txt', header=None)有没有办法将这个DataFrame
保存为
一个泡菜
浏览 9
提问于2018-01-30
得票数 3
回答已采纳
2
回答
公共
数据
结构与DataFrame
python
、
dataframe
、
structure
据我所知,最常见
的
数据
结构是:StacksLinked listsHash TablesGraph Data structures DataFrameDataFrame是一个单独
的
数据
结构,还是上面列出
的
一些
数据
的
突变?
浏览 7
提问于2017-09-22
得票数 0
回答已采纳
2
回答
将日期
列
与NAT(null)从
pandas
保存到
parquet
python-3.x
、
pandas
、
parquet
、
amazon-athena
、
pyarrow
我需要将可为空
的
整型日期值('YYYYMMDD')读取到
pandas
,然后将此
pandas
数据
帧
保存为
Date32Day格式,以便Athena Glue Crawler分类器将该
列
识别为日期。下面的代码不允许我将
列
保存到
pandas
中
的
parquet
: import
pandas
as pd dates = [None, "20200710"
浏览 32
提问于2020-07-14
得票数 3
2
回答
如何在
Python
3.6中读取/转换
包含
用
Python
2.7编写
的
pandas
数据
帧
的
HDF
文件
?
python
、
python-3.x
、
python-2.7
、
pandas
我用
Python
2.7编写了一个dataframe,但现在我需要在
Python
3.6中打开它,反之亦然(我想比较两个版本编写
的
两个dataframe)。如果我
在
Python
3.6中使用
pandas
打开由
Python
2.7生成
的
HDF
文件
,则会产生以下错误:UnicodeDecodeError: 'ascii' codec can't decode byte0xde in position 1: ordin
浏览 25
提问于2018-03-05
得票数 1
回答已采纳
1
回答
pyarrow读取gzipped拼图
文件
时
的
内存使用率极高
pandas
、
parquet
、
pyarrow
我有一组gzipped拼图
文件
,大约有210
列
,我正在将其中
的
大约100
列
加载到
pandas
数据
框架中。当
文件
大小约为1MB(约50行)时,它工作得很好且速度非常快;
python
3进程消耗
的
内存小于500MB。然而,当
文件
大于1.5MB (70+行)时,它开始消耗9-10 GB
的
内存,而不加载
数据
帧
。如果我只指定2-3
列
,它就能够从“大”
浏览 15
提问于2019-09-06
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
这样做能让你的 pandas 循环加快 71803 倍
12种高效Numpy&Pandas使用技巧!
pandas系列学习(五):数据连接
Python数据分析常见库介绍之Pandas
10个Pandas的另类数据处理技巧
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券