腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
pandas
数据
帧
从
tsv
到
parquet
的
转换
、
、
、
我正在尝试一种以熊猫
数据
帧
为中心
的
数据
结构,但我想是不是有一个“扭曲”?这就是加载到
pandas
中
的
输入表(
tsv
)。,其中包含来自原始值列
的
值。此外,原始类型和单位列必须与新
的
sensor_x列“名称合并”,并保留它们
的
值。 目标是将其保存为镶木地板。重要提示:可以有两个以上
的
传感器。现在,我完成了创建一个包含我需要
的
所有信息
的
MultiIndexed
数
浏览 23
提问于2020-12-12
得票数 0
9
回答
如何将csv文件
转换
为拼接
、
我刚接触BigData.I需要将csv/txt文件
转换
为
Parquet
格式。我搜索了很多,但找不到任何直接
的
方法。有什么方法可以做到这一点吗?
浏览 3
提问于2014-09-30
得票数 40
7
回答
Python:将
pandas
数据
帧
保存到拼图文件
、
、
可以将
pandas
数据
框直接保存到拼图文件中吗?如果没有,建议
的
流程是什么? 目标是能够将拼图文件发送给另一个团队,他们可以使用scala代码读取/打开该文件。谢谢!
浏览 0
提问于2016-12-10
得票数 27
1
回答
如何在我当前
的
架构中使用拼图?
、
、
我目前
的
系统就是这样架构
的
。 日志解析器将每隔5分钟解析一次原始日志,格式为
TSV
,并输出到HDFS。我
从
HDFS
的
TSV
文件中创建了Hive表。从一些基准测试中,我发现拼图可以节省多达30-40%
的
空间使用。我还发现,
从
Hive 0.13开始,我可以
从
拼图文件中创建Hive表。我想知道我是否可以将
TSV
转换
为拼图文件。任何建议都是值得感谢
的
。
浏览 1
提问于2014-11-27
得票数 0
1
回答
如何
转换
Pandas
数据
帧
架构
、
、
、
、
但是,我希望对新
的
parquet
文件使用以下模式Column2: stringColumn4: string__index_level_0__: int64import
pandas
as pdimpor
浏览 3
提问于2018-11-10
得票数 2
回答已采纳
1
回答
比较
pandas
在从拼图加载
数据
框后
的
日期
、
我有以下代码,可以从一个拼图文件加载一个
pandas
数据
帧
。拼图文件有一个名为the_date
的
列,我正在尝试创建一个按日期过滤
的
新
数据
帧
。df = pd.read_
parquet
('path/to/file.
parquet
')df2 = df[df['
从
拼图加载
数据</e
浏览 18
提问于2021-07-14
得票数 0
回答已采纳
1
回答
使用PyArrow
从
多个文件中读取已分区
的
宗地
数据
集,然后根据文件名添加分区键
、
、
、
我有一堆
parquet
文件,每个文件都包含我
的
数据
集
的
一个子集。假设文件名为data-N.
parquet
,其中N是一个整数。我可以全部读取它们,然后将其
转换
为
pandas
数据
帧
: files = glob.glob("data-**.
parquet
") files,metadata_nthreads=64, ).read_table(use_
浏览 48
提问于2021-09-29
得票数 1
回答已采纳
2
回答
使用Dask导入大型CSV文件
、
、
、
、
我正在使用Dask导入一个非常大
的
csv文件,大约680 am,然而,输出并不是我所期望
的
。我
的
目标是只选择一些列(6/50),并可能过滤它们(这一点我不确定,因为似乎没有
数据
?)
浏览 6
提问于2021-07-03
得票数 3
1
回答
使用
Parquet
存储不同宽度
的
多个
数据
?
、
、
、
Parquet
是否支持在单个文件中存储不同宽度(列数)
的
各种
数据
帧
?例如,在HDF5中,可以存储多个这样
的
数据
帧
并通过密钥访问它们。到目前为止,
从
我
的
来看,
Parquet
不支持它,所以可以选择将多个
Parquet
文件存储
到
文件系统中。我有一个相当大
的
数字(比如10000)
的
相对较小
的
帧
~1-5MB
的</
浏览 0
提问于2018-05-21
得票数 13
回答已采纳
1
回答
Pandas
数据
帧
到
内存中
的
parquet
缓冲区
、
、
、
、
使用案例如下:我一直在尝试在内存中执行第二步(不需要将文件存储
到
磁盘以获得
parquet
格式),但到目前为止,我看到
的
所有库都是写入磁盘
的
。因此,我有以下问题: 如果在内存中完成
转换
,性能不是更好吗?因为您不必处理I/O磁盘开销。当您增加
转换</em
浏览 65
提问于2018-10-23
得票数 7
1
回答
在不使用
pandas
的
情况下
从
Python编写拼图文件
、
、
作为ETL管道
的
一部分,我需要将
数据
从
JSON
转换
为
parquet
。我目前使用
的
是的from_
pandas
方法。然而,首先构建
数据
帧
似乎是一个不必要
的
步骤,另外,我希望避免让熊猫作为依赖。有没有一种方法可以在不需要先加载
数据
帧
的
情况下编写拼图文件?
浏览 0
提问于2018-05-04
得票数 10
1
回答
azuremlsdk R:如何将
数据
集
转换
为R
数据
帧
?
、
、
对于AzureML Python SDK,我们可以使用get_by_name()来返回
数据
集。import azuremlsdk并且我可以通过.to_
pandas
_dataframe()方法获得mydata
的
熊猫
数据
帧
对于R等效值,我被困在这里 mydata <- azuremlsdk::get_dataset_b
浏览 3
提问于2020-05-21
得票数 1
1
回答
快速拼接:如何禁用rle编码
、
、
、
我正在使用files
parquet
将
pandas
数据
帧
转换
为
parquet
文件。这比我之前使用pyspark
的
方法要快得多。我有几个问题我设法解决了。我现在遇到
的
问题是RLE编码。
浏览 4
提问于2017-05-11
得票数 1
1
回答
为Dask.DataFrame中
的
列赋值
、
、
我想使用Dask来完成一些
数据
预处理,其中包含一些非常大
的
文件,9600万行和500万行,每个文件大约10列。这只发生在我
的
笔记本电脑上(它有32 of
的
RAM)。使用
Pandas
会导致笔记本停止,然后重新启动Jupyter服务器。然而,到目前为止,Dask也是如此。 重新启动服务器
的
操作是尝试将IP地址
从
float
转换
为int。当我
的
数据
帧
加载时,IP地址有nan值,这导致
Pandas</
浏览 42
提问于2021-08-04
得票数 0
3
回答
如何使用
Pandas
编写分区
的
拼图文件
、
、
、
我正在尝试将
Pandas
数据
帧
写入分区文件:
从
文档中,我预计
浏览 3
提问于2018-10-23
得票数 5
1
回答
如何为每个唯一
的
子文件夹合并两个制表符分隔
的
数据
框
、
b12_1.
tsv
C: // Total / a12 / a12_combined.
tsv
浏览 4
提问于2021-06-12
得票数 0
3
回答
PyArrow:使用嵌套类型在拼花中存储分块列表
、
、
、
我想使用PyArrow将下列熊猫
数据
帧
存储在一个拼花文件中:df = pd.DataFrame({'field': [[{}, {}]]}) field我首先定义了相应
的
PyArrow模式:schema = pa.schema([pa.field('field', pa.list_(pa.struct([]
浏览 2
提问于2019-02-21
得票数 6
回答已采纳
3
回答
将excel
转换
为拼图文件
、
、
、
、
我有一个很大
的
excel文件,其中有一些列包含自由文本
数据
,这些
数据
有很长
的
句子。我必须将此格式
转换
为镶木地板格式,以摄取到仓库。我无法将其
转换
为csv,因为那些具有长句子
的
列有逗号。这里有什么建议,如何用python将这种类型
的
excel文件
转换
成
parquet
格式? 谢谢!!
浏览 4
提问于2020-10-01
得票数 0
1
回答
在一列(时间戳和字符串)中,将
数据
帧
存储为具有混合
数据
类型
的
块。
、
、
、
我想存储一个熊猫
数据
帧
作为
Parquet
文件。但我发现了一个错误:import
pandas
df =
pandas
.DataF
浏览 2
提问于2022-06-29
得票数 -1
3
回答
在s3 AWS中将
pandas
数据
帧
写入拼图
、
、
、
、
我想以拼图格式在我
的
s3存储桶中写入
数据
帧
。我知道如何以csv格式编写
数据
帧
。但是我不知道怎么用拼花拼花
的
格式写。下面是csv格式
的
代码(我没有显示字段ServerSideEncryption和SSEKMSKeyId,但我在实际代码中使用了它们): ServerSideEncryption='XXXXX
浏览 33
提问于2019-11-28
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券