腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
是否
可以
使用
Dask
和
Fastparquet
阅读器
手动
读取
分区
的
拼图
数据
集
?
python
、
amazon-s3
、
dask
、
parquet
、
fastparquet
我创建了一个按如下方式
分区
的
拼图
数据
集
: 2019-taxi-trips/ - data.parquet -此
分区
方案是
手动
生成
的
,因此目录树中
的
任何位置都没有_metadata文件。 现在我想将此
数据
集
读取
到
Dask
中。当
数据</em
浏览 21
提问于2020-10-08
得票数 1
回答已采纳
2
回答
为什么在
dask
中计算带索引
的
拼图
文件
的
形状会如此缓慢?
dask
、
parquet
、
fastparquet
我已经从位于同一文件夹中
的
多个
拼图
文件中创建了一个
拼图
文件。每个文件对应一个
分区
。# `data_paths` contains the list of all the Parquet data files
fastparquet
浏览 39
提问于2019-11-25
得票数 3
回答已采纳
1
回答
dask
.dataframe.read_parquet耗时太长
python-3.x
、
dask
我试着这样读s3上
的
拼图
:times = dd.read_parquet"profile_name": bucket_profile, engine='pyarrow',仅创建
dask
数据
帧就需要很长时间
浏览 2
提问于2019-05-14
得票数 3
3
回答
如何在
Dask
read_parquet函数中过滤不同
分区
python
、
pandas
、
dask
、
parquet
我在从parquet文件加载
dask
数据
帧时遇到了问题。当我尝试将拼接文件
读取
到
dask
数据
框中时,我成功地过滤了年份窗口
和
逐行窗口,但仅选择了一些飞机失败。这里报告了我用来
读取
拼图
文件
的
函数 ddf = dd.read_parquet(path, engine="pyarrow", index=False, filters=filters) 其中path是文件,或者,例如,不在同一范围窗口中
的
不
浏览 47
提问于2021-06-22
得票数 0
1
回答
直到
dask
2.2.0 read_parquet过滤器参数似乎不再与pyarrow引擎一起工作
dask
、
parquet
、
pyarrow
当我将
dask
从2.1.0升级到2.2.0 (或2.3.0)时,下面的代码改变了它
的
行为,并像以前一样停止过滤
拼图
文件。这只是一个附加
的
pyarrow引擎(快速拼接引擎仍然
可以
正常过滤)。我在
Dask
2.2.0
和
2.3.0上尝试了pyarrow 0.13.1,0.14.0
和
0.14.1,但没有成功。import
dask
.dataframe as dd dd.read_parquet(directory, engine='
浏览 12
提问于2019-08-28
得票数 0
1
回答
如何
使用
dask
/
dask
-cudf将单个大型
拼图
文件读入多个
分区
?
dask
、
cudf
我正在尝试
使用
dask
_cudf/
dask
读取
单个大
的
parquet文件(size > gpu_size),但它当前正在将其
读取
到单个
分区
中,我猜测这是从文档字符串推断出
的
预期行为:
dask
.dataframe.read_parquetstorage_options=None, engine='auto', gather_statistics=None, **kwargs): Read
浏览 18
提问于2019-10-18
得票数 3
回答已采纳
1
回答
dask
read_parquet方法
的
过滤给出了不需要
的
结果
python
、
dataframe
、
filtering
、
dask
、
fastparquet
我正在尝试
使用
dask
read_parquet方法
和
filters kwarg
读取
拼图
文件。然而,有时它不会根据给定
的
条件进行过滤。示例:
使用
dates列创建和保存
数据
框架import numpy as np ddf =
浏览 0
提问于2018-07-09
得票数 8
回答已采纳
4
回答
可以
分块
读取
拼图
文件吗?
parquet
例如,pandas
的
read_csv有一个chunk_size参数,它允许read_csv在CSV文件上返回一个迭代器,这样我们就
可以
分块
读取
它。
拼图
格式以块
的
形式存储
数据
,但是没有像read_csv这样
的
有文档记录
的
方法来读入块。 有没有办法以块
的
形式
读取
拼图
文件?
浏览 3
提问于2019-11-29
得票数 8
1
回答
Dask
在保存到镶木地板时
使用
所有内存
dask
、
dask-dataframe
我在
使用
dask
时遇到了问题。与熊猫相比,它非常慢,特别是在
读取
高达40G
的
大型
数据
集
时。经过一些额外
的
处理后,
数据
集
增长到大约计算列,其中主要是计算(这是相当慢
的
,特别是当我像这样调用float64:output = df[["date", "permno"]].compute(scheduler='threading')时) 我认为我
可以</em
浏览 3
提问于2021-09-21
得票数 0
1
回答
选择子集后将其转换为pandas时,
Dask
dataframe内存不足
python
、
python-3.x
、
pandas
、
dataframe
、
dask
所以我有一个包含160M记录
和
240列
的
拼图
文件。因此,我
使用
dask
在python中
使用
EMR CLuster m5.12xlarge加载它。import
dask
.dataframe as dd 现在我需要其中一列
的
值计数
和
归一化值计数:请注意,这里
浏览 1
提问于2021-09-23
得票数 0
3
回答
带有pyarrow内存
的
dask
read_parquet发生故障
dask
、
pyarrow
、
fastparquet
我正在
使用
dask
来写
和
读拼花。我
使用
快速拼接引擎进行写作,
使用
pyarrow引擎进行阅读。我
的
worker有1 gb
的
内存。对于
fastparquet
,内存
使用
率很好,但当我切换到pyarrow时,它就会崩溃,并导致worker重新启动。我有一个可重现
的
例子,在一个1 1gb内存限制
的
worker上,pyarrow失败了。实际上,我
的
数据
集
要比
浏览 0
提问于2018-06-15
得票数 3
1
回答
将多个CSV转换为单
分区
拼图
数据
集
pandas
、
parquet
、
fastparquet
我有一组CSV文件,每个文件对应一年
的
数据
,每个文件中都有YEAR列。我想把它们转换成单个
拼图
数据
集
,按年份划分,以便以后在熊猫中
使用
。问题是,所有年份合并在一起
的
数据
帧太大,无法放入内存。有没有可能一个接一个地迭代地编写拼花
分区
? 我
使用
fastparquet
作为引擎。 简化
的
代码示例。这段代码会增加内存
使用
量并导致崩溃。, 2020): df = pd.r
浏览 15
提问于2020-08-21
得票数 0
回答已采纳
1
回答
DASK
Memory Per Worker指南
python
、
dask
、
dask-distributed
我
的
场景是:我在S3上将
数据
拆分为52个gzip压缩
的
拼图
文件,每个文件在内存中
的
未压缩大小约为100MB,总
数据
集
大小约为5.5 52,行大小正好为100,000,000行。现在,我正在提取
拼图
文件,并立即对一个列进行重新
分区
,最终得到大约480个
分区
,每个
分区
大约11Mb。 然后,我将
使用
map_partitions来完成主要工作。这对于小
的
数据</e
浏览 32
提问于2019-09-20
得票数 1
1
回答
不要从简单
的
(非蜂巢) Parquet文件中恢复
分区
pandas
、
dask
、
parquet
、
fastparquet
、
dask-dataframe
关于
Dask
+Parquet,我有一个两部分
的
问题.我试图在从
分区
Parquet文件中创建
的
dask
数据
文件上运行查询,如下所示:import
dask
.dataframeas dd ##### Generate random data to Simulate Process creating a Parquet file ###我在这里
的
目标是能够<e
浏览 2
提问于2020-04-07
得票数 0
回答已采纳
1
回答
在加载多个拼花文件时保留
dask
数据
分区
python
、
dataframe
、
dask
、
fastparquet
我有一些以时间为索引
的
数据
帧中
的
时间序列
数据
。索引被排序,
数据
存储在多个拼花文件中,每个文件中有一天
的
数据
。我
使用
dask
2.9.1在这里,我得到两个
分区
和
(N
浏览 1
提问于2020-01-02
得票数 1
回答已采纳
1
回答
使用
dask
有效地
读取
blob存储中
的
部分列
python
、
dask
、
parquet
、
fastparquet
如何才能有效地
读取
托管在云滴存储(例如S3 /)中
的
拼花文件
的
某些列? 柱状结构是拼花文件格式
的
主要优点之一,因此有选择地
读取
列
可以
减少I/O负载。将
数据
存储在blob存储库中也是很自然
的
,以便在云中运行大规模
的
工作负载。然而,一旦一个拼花文件被存储为一个blob,大多数库(
dask
、
fastparquet
、py箭头)都不能真正利用这一点,因为底层
的
fseek实
浏览 0
提问于2019-12-01
得票数 2
回答已采纳
1
回答
如何逐行加载
拼图
文件
python
、
parquet
为了节省笔记本电脑上
的
空间,我通过
dask
保存了一个相当大
的
数据
集
作为
拼图
文件。想知道
是否
有一种方法
可以
逐行
读取
镶木地板文件。 谢谢你
的
帮助。
浏览 12
提问于2019-03-28
得票数 0
回答已采纳
1
回答
如何将.msg文件加载到pyspark RDD中?
apache-spark
、
pyspark
、
outlook
、
rdd
、
azure-databricks
我对pyspark编程比较陌生,因此正在寻找一种从
数据
库文件系统(dbfs)中
读取
一堆outlook (.msg)文件
的
方法。在执行下面的代码行时,我得到了一些垃圾unicode
数据
,如以下输出所示:输出: [(u'dbfs:/..ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufffd\ufff
浏览 0
提问于2019-07-25
得票数 0
1
回答
在
dask
/ xarray中处理大型时间序列
的
最佳方法是什么?
dask
、
python-xarray
我有17,000个CSV文件,每个文件都是按时间戳排序
的
(有些文件缺少
数据
)。CSV文件总数约为85 my,比我
的
32 my内存大得多。我正试图找出最好
的
方法,把它们变成一个时间对齐,内存不足
的
数据
结构,这样我就能计算出像PCA这样
的
东西。 ,什么是正确
的
方法?(我尝试用xarray.DataSet设置一个dim=(filename, time),然后尝试将每个CSV文件上
的
xr.merge()放到DataSet中,但是每次插入都会变
浏览 2
提问于2021-09-27
得票数 1
1
回答
Dask
无法
使用
连接
的
数据
写入
拼图
pandas
、
dask
、
parquet
我正在尝试做以下几件事:
使用
pandas
读取
.dat文件,将其转换为
dask
数据
帧,并将其连接到我从
拼图
文件中
读取
的
另一个
dask
数据
帧,然后输出到新
的
拼图
文件。在某些情况下,这是一个ETL进程,随着每天增加
的
数据
量,我很快就会耗尽历史
数据
集
和
组合
数据
集
上
的</em
浏览 26
提问于2020-06-13
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券