腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pandas
to
parquet
不是
放入
文件系统
,
而是
在
变量
中
获取
结果
文件
的
内容
python
、
pandas
、
parquet
、
pyarrow
有几种方法可以实现从熊猫到拼花地板
的
转换。例如pyarrow.Table.from_
pandas
或dataframe.to_
parquet
。它们
的
共同点是,它们都以参数
的
形式
获取
应该存储df.
parquet
的
filePath。 我需要将编写
的
拼图
文件
的
内容
放到一个
变量
中
,但我还没有看到这一点。我主要想要和
pandas
.to_cs
浏览 65
提问于2019-02-13
得票数 3
回答已采纳
1
回答
两个拼花
文件
可以比较吗?
python
、
diff
、
parquet
我找不到一个开源工具或库来比较两个拼板
文件
。假设我没有忽视显而易见
的
事实,这有技术上
的
原因吗?我正在使用Python语言。 谢谢。
浏览 0
提问于2018-04-28
得票数 3
回答已采纳
1
回答
使用Dask从google云存储读取拼图
文件
python
、
google-cloud-storage
、
parquet
、
dask
、
pyarrow
我试着用Dask从谷歌
的
桶里读和写。使用一组csv
文件
可以工作,但不方便(速度较慢,无法压缩,无法只读取某些列),所以我尝试使用apache
parquet
格式。= dd.from_
pandas
(
pandas
_df, npartitions=2)但当我试着把它读回来read_again_df = dd.read_
par
浏览 0
提问于2018-09-24
得票数 1
回答已采纳
2
回答
使用Spark处理比群集更大
的
数据集
apache-spark
、
apache-spark-sql
、
large-data
、
parquet
我
在
由5个节点组成
的
Spark2.3集群上,每个节点都有12 of
的
可用内存,我正在尝试使用大约130 of
的
Parquet
数据集,在此之上我创建了一个分区
的
外部Hive表。假设我想知道数据集中
的
记录数量。我最初
的
猜测是,Spark将按分区读取数据分区,聚合当前分区以
获取
记录计数,将
结果
传递给驱动程序,然后删除该分区以读取下一个分区。然而,要么这
不是
它
的
工作方式(
而是</e
浏览 0
提问于2018-12-05
得票数 0
回答已采纳
1
回答
与合并
的
地板
文件
的
Impala表
的
性能问题
apache-spark
、
hadoop
、
parquet
、
impala
、
pyarrow
这里,我让python实用程序使用Pyarrow库为单个数据集创建多个
parquet
文件
,因为数据集
的
大小
在
一天内是很大
的
。这里
的
拼花
文件
包含10K
的
拼板行组,
在
每个分割
的
拼花
文件
中
,最后我们将分裂
的
文件
组合成一个
文件
来创建一个大
的
单一
的
拼花
文件
。这里,我创建了两个Impal
浏览 0
提问于2019-01-28
得票数 0
回答已采纳
2
回答
解压缩到一个
变量
php
、
zip
、
pclzip
我需要处理压缩
文件
的
内容
,但我不能更改将托管我
的
程序
的
服务器上
的
权限。 这意味着我无法将zip
文件
下载到服务器,因此我需要将
文件
内容
读取到一个
变量
中
,而
不是
将其写入
文件系统
。是否可以
获取
此类
变量
的
字符串
内容
,并将解压缩后
的
内容
放入
新
浏览 0
提问于2013-05-01
得票数 2
1
回答
如何防止使用
pandas
.DataFrame将拼花
文件
写入CSV
文件
时
的
表格格式?
python
、
csv
、
dataframe
、
parquet
我使用pyarrow.
parquet
读取了一个
parquet
文件
,该
文件
是spark
的
输出。输出由一些行组成,每一行有两对:一个字和一个向量(每行是一个word2vec对)。
文件
中
写入
结果
时,我得到了以下
结果
: word1 "-0.10812066 0.04352815 0.00529436 -0.0492562 -0.0974493533 0.275364409 -0.06501597每个矢量
在
特定<e
浏览 0
提问于2019-04-29
得票数 0
回答已采纳
4
回答
可以分块读取拼图
文件
吗?
parquet
例如,
pandas
的
read_csv有一个chunk_size参数,它允许read_csv
在
CSV
文件
上返回一个迭代器,这样我们就可以分块读取它。拼图格式以块
的
形式存储数据,但是没有像read_csv这样
的
有文档记录
的
方法来读入块。 有没有办法以块
的
形式读取拼图
文件
?
浏览 3
提问于2019-11-29
得票数 8
2
回答
将PySpark数据记录到MLFlow伪制品
中
python
、
pyspark
、
mlflow
我目前正在为dbfs编写一个MLFlow工件,但是我使用
的
是下面的代码. temp = tempfile.NamedTemporaryFile(prefix="*****", suffix=".csv"
浏览 5
提问于2020-11-10
得票数 1
6
回答
读取
文件
夹
中
的
多个拼板
文件
,并使用python写入单个csv
文件
pandas
、
csv
、
parquet
我是python
的
新手,我有一个场景,其中有多个按顺序排列
的
带有
文件
名
的
parquet
文件
。示例:
文件
夹
中
的
par_file1、par_file2、par_file3等多达100个
文件
。我需要读取从file1开始
的
这些拼板
文件
,并将其写入单个csv
文件
。在编写file1
内容
之后,file2
内容
应该附加到相同
的
c
浏览 10
提问于2018-08-05
得票数 21
回答已采纳
1
回答
并行化GZip
文件
处理火花
python
、
hadoop
、
apache-spark
、
gzip
、
pyspark
我有一个巨大
的
GZip
文件
列表,需要转换为
Parquet
。由于GZip
的
压缩特性,无法对一个
文件
进行并行化。我可以并行化
文件<
浏览 0
提问于2016-02-15
得票数 3
1
回答
将具有选定列
的
多个拼花
文件
读入一个
Pandas
数据
文件
python
、
pandas
、
pyarrow
我试图读取多个与选定
的
列到一个
Pandas
数据
文件
。这意味着拼板
文件
不能共享所有的列。我试图将一个filter()参数添加到pd.read_
parquet
()
中
,但似乎它在多个
文件
读取
中
不起作用。from pathlib import Pathf
浏览 4
提问于2021-12-13
得票数 1
1
回答
如何检查在Dask上调用compute是否安全?
python
、
pandas
、
dataframe
、
dask
目前,我
的
PC
在
尝试计算整个列(4 4GB~1.25亿行)
的
log1p时冻结,当我运行以下命令:s = df_train.unit_sales.map_partitions
浏览 0
提问于2018-03-25
得票数 2
1
回答
从内存
中
的
数据库二进制列(postgresql)读取
文件
,而无需
在
文件系统
中保存和打开
文件
python
、
database
、
python-3.x
、
io
我使用
的
是Python 3.4。我
在
我
的
postgresql数据库中有一个二进制列,其中包含一些
文件
,我需要从数据库
中
检索并读取它……问题是,为了让它工作,我首先必须(1)用'wb‘
在
文件系统
中
打开一个新
文件
,(2)写二进制列
的
内容
,然后(3)用'rb’读()
文件系统
文件
。我想跳过这整个过程...我只是想从数据库
中
获取
浏览 0
提问于2015-06-19
得票数 0
1
回答
dataframe连接和重新分区大
文件
,用于时间序列和相关性。
python
、
dataframe
、
concatenation
、
dask
我们可能在较低
的
时间(例如48小时、1小时、月等)重新采样。
在
长达11年
的
时间里,把这些关联想象成11年。 数据目前
在
11个单独
的
拼花
文件
中
(每年一个),从11个.txt
文件
中
单独生成
Pandas
。熊猫没有对任何这些
文件
进行分区。在内存
中
,这些拼花
文件
中
的
每一个都加载了大约20 In
的
内存。预期
的</e
浏览 29
提问于2022-06-20
得票数 1
1
回答
将文本
文件
数据导入数据库
php
、
mysql
>任何帮助都是非常感谢
的
。西蒙我这样做
的
原因是产品描述都
浏览 0
提问于2012-10-30
得票数 0
回答已采纳
1
回答
如何将拼接字节对象作为zipfile写入磁盘
python
、
pandas
、
zip
、
byte
、
parquet
我从一个
pandas
数据帧开始,我想将它保存为一个压缩
的
拼图
文件
,所有这些都保存在内存
中
,而不需要在磁盘上执行中间步骤。我有以下几点:df.to_
parquet
(bytes_buffer)感谢您
的
帮助:)
浏览 0
提问于2020-03-20
得票数 1
1
回答
在
加载多个拼花
文件
时保留dask数据分区
python
、
dataframe
、
dask
、
fastparquet
我有一些以时间为索引
的
数据帧
中
的
时间序列数据。索引被排序,数据存储
在
多个拼花
文件
中
,每个
文件
中有一天
的
数据。我使用dask 2.9.1
在
我
的
实际数据
中
,我有一个拼花
浏览 1
提问于2020-01-02
得票数 1
回答已采纳
1
回答
使用Azure数据工厂
获取
分区数据
的
上次修改日期
azure-blob-storage
、
azure-data-factory
、
last-modified
我最终尝试
获取
在过去24小时内修改过
的
分区(即DATE_ID=20211004)
的
名称。我尝试过使用Get Metadata活动,但它似乎只迭代分区
文件
夹,而
不是
分区
文件
夹
中
的
文件
。我需要
获取
文件
夹
中
已分区
文件
的
最后修改日期,但我不确定如何做到这一点。.snappy.
parquet
|-|-committed_123456789
浏览 7
提问于2021-10-05
得票数 0
1
回答
在
使用Dask pivot_table之后,我丢失了索引列
python
、
dask
在
我使用pivot_table作为Dataframe并将数据保存到
Parquet
文件
后,我正在松散索引列。("1.parq",ddf)这就产生了一个错误: 有人能帮我把“索引”列
的
表保存到
Parquet
文件
中</em
浏览 4
提问于2017-03-06
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas 2.0正式版发布:Pandas 1.5,Polars,Pandas 2.0 速度对比测试
Pandas 2.0 vs Polars:速度的全面对比
Spark之SparkSQL
你写的ML代码占多少内存?这件事很重要,但很多人还不懂
SASpy模块,利用Python操作SAS
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券