腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Pandas
处理
Python中的大型SQL查询?
python
、
postgresql
、
pandas
、
dataframe
、
bigdata
我想对一些
数据
进行备份测试,这些
数据
将使用Python、psycopg2和
Pandas
从Postgres
数据
库中提取。将从Postgres提取的
数据
非常
大
(超过10 of )--即使
Pandas
数据
帧能够存储这么多
数据
,我的系统也无法以RAM的形式保存这些
数据
。:对
Pandas
数据
框架内的
数据
执行计算操作 5:将这些操作的结果写回
数据
库中的现有表
浏览 27
提问于2017-11-02
得票数 3
回答已采纳
1
回答
如何有效地将大量
数据
装入大熊猫?
python
、
pandas
、
dataframe
我正在
处理
一个非常宽的
数据
集(1005行* 590,718列,1.2G)。将如此
大
的
数据
集加载到熊猫
数据
集中会导致代码失败,这完全是由于内存不足造成的。我知道Spark可能是
处理
大型
数据
集的
Pandas
的一个很好的替代方案,但是在
Pandas
中有什么合适的解决方案来在加载大
数据
的同时减少内存使用吗?
浏览 0
提问于2018-02-26
得票数 4
回答已采纳
6
回答
熊猫中的
大
而持久的DataFrame
python
、
pandas
、
sas
作为SAS的长期用户,我正在尝试切换到python和
pandas
。使用SAS,我可以将csv文件导入到SAS
数据
集中,其大小可以和我的硬盘一样
大
。 在
pandas
中有类似的东西吗?我经常
处理
大文件,无法访问分布式计算网络。
浏览 6
提问于2012-07-24
得票数 96
回答已采纳
2
回答
如何部分读取一个巨大的CSV文件?
python
、
pandas
我有一个非常
大
的csv文件,所以我无法将它们全部读取到内存中。我只想读取和
处理
其中的几行。所以我在
Pandas
中寻找一个函数,它可以
处理
这个任务,基本的python可以很好地
处理
这个任务: line = f.readline()但是,如果我在
pandas
中这样做,我总是读第一行: datainput1 = pd.read_csv('matrix.txt',sep=','
浏览 0
提问于2015-03-30
得票数 47
回答已采纳
1
回答
如何在kedro中
处理
海量
数据
集
python
、
kedro
我有非常
大
的(~200 raw,~20M行)原始jsonl
数据
集。我需要从那里提取重要的属性,并将中间
数据
集存储在csv中,以便进一步转换为HDF5、拼接等。显然,我不能使用JSONDataSet来加载原始
数据
集,因为它在幕后利用了
pandas
.read_json,而使用
pandas
来
处理
如此大小的
数据
集听起来不是一个好主意。因此,我正在考虑逐行读取原始
数据
集,逐行
处理
并将
处理
后的
数据</e
浏览 26
提问于2020-02-21
得票数 6
回答已采纳
2
回答
用DataFrame文件以.csv格式创建
Pandas
.csv
python
、
csv
、
hadoop
、
pandas
、
pyspark
我试图通过从hadoop集群中获取.csv
数据
并将其放入
Pandas
DataFrame来创建火花工作流。我能够从HDFS中提取
数据
并将其放入RDD中,但无法将其
处理
到
Pandas
Dataframe中。以下是我的代码:import numpy as nm A=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv我很确定这个错误是因为RDD是一个<em
浏览 2
提问于2016-09-21
得票数 0
1
回答
如何使用
pandas
数据
帧从磁盘读取和写入文件?
python-3.x
、
pandas
我将
处理
非常
大
的
数据
文件(许多of )。我将不得不读取这些文件并写入这些文件。因此,我将不能依赖RAM来存储
数据
,而需要从磁盘读取和写入文件。我熟悉
pandas
库提供的read_csv和to_csv选项。但是,我不确定read csv函数是读取文件,然后将其存储在内存中,还是直接从磁盘读取文件。使用
pandas
从磁盘读取和写入文件的最佳方式是什么?
浏览 0
提问于2017-09-16
得票数 0
0
回答
Dask图的执行和内存使用
python
、
dask
、
dask-delayed
我正在dask中构建一个非常
大
的DAG,以提交给分布式调度器,在分布式调度器中,节点操作
数据
帧,而
数据
帧本身可能非常
大
。一种模式是,我有大约50-60个函数,用于加载
数据
和构造
pandas
数据
帧,每个
数据
帧大小为几百MB (并且逻辑上表示单个表的分区)。我像这样链接任务:dfs = [dask.dela
浏览 6
提问于2017-06-07
得票数 4
2
回答
Julia Dataframes vs Python
pandas
python
、
pandas
、
dataframe
、
julia
我目前正在使用python
pandas
,我想知道是否有一种方法可以将熊猫的
数据
输出到julia Dataframes中,反之亦然。(我想你可以用Pycall从Julia调用python,但我不确定它是否能
处理
数据
帧)有没有办法从python调用Julia并让它接收panda的
数据
帧?(不保存为其他文件格式,如csv) 什么时候使用Julia Dataframes比使用
Pandas
更有优势,除了非常
大
的
数据
集和运行许多循环的东西(比如神经网络)?
浏览 0
提问于2014-04-27
得票数 16
回答已采纳
3
回答
Python:在不加载剩余
数据
的情况下加载excel头
python
、
pandas
、
header
我正在
处理
非常
大
的Excel文件,用Python加载
Pandas
需要很长时间。在
处理
数据
之前,用户必须选择与
数据
相关的许多选项,这些选项只需要每个
数据
集中的每个列的名称。用户不得不等待几分钟,直到
数据
加载,才能选择必要的选项,然后让程序再进行几分钟的实际
处理
,这是非常不方便的。 因此,我的问题是:是否有一种方法可以仅用从文件中加载
数据
头?在某种程度上,我认为它是read_excel
Pandas
函数
浏览 1
提问于2020-06-17
得票数 1
回答已采纳
3
回答
Pandas
: df.groupby()对于大
数据
集来说太慢了。有什么替代方法吗?
python
、
pandas
、
grouping
、
bigdata
我有一个有380万行和一列的
pandas
.DataFrame,我尝试按索引对它们进行分组。<class '
pandas
.core.frame.DataFrame'>Data columns(total 1 columns):dtypes: object(1) memory
浏览 1
提问于2017-06-23
得票数 15
1
回答
pandas
在csv上提高OutOfBoundsDatetime,而不是在sql上
python
、
python-3.x
、
pandas
、
csv
、
sqlalchemy
我有一个运行
pandas
版本0.25.2的服务。此服务从
数据
库读取
数据
并将快照存储为csv查询的结果是一个包含一些非常
大
的日期时间值的
数据
帧。(如3000-01-02 00:00:00)之后,我使用df.to_csv(index=False)创建csv快照并将其写入文件 在安装了
pandas
0.25.3的不同机器上,我将csv文件的内容读入
数据
帧这将导致OutOfBoundsDateti
浏览 18
提问于2019-11-08
得票数 1
回答已采纳
1
回答
如何用Python语言将内部字典写入.xlsx文件
python
、
excel
假设我有以下字典: "sheet_A": { "col1": "a", "col3": "c", }, "col1": "
浏览 2
提问于2019-08-19
得票数 0
1
回答
添加使用
pandas
读取
数据
帧的进度条?
python
、
pandas
我想创建一个进度条,可以在读取一个非常
大
的CSV文件时显示进度。我正在创建一个通过网络读取CSV文件的
pandas
数据
帧。因为CSV有很多
数据
,所以我的程序在
处理
它的时候会卡住,所以我想要有一个进度条,可以给出
处理
完成了多少的状态。有一个进度条来跟踪它是可行的吗?
浏览 67
提问于2020-04-23
得票数 0
1
回答
Py-table vs Blaze vs S-Frame
python-3.x
、
pandas
、
hdf5
、
pytables
、
blaze
我正在使用python对一个巨大的
数据
集(大约2000万条记录和10列)进行探索性
数据
分析。我将分割、聚合
数据
并创建一些可视化,我也可以使用该
数据
集创建一些决策树线性回归模型。由于
数据
集很大,我需要使用
数据
帧来存储核心外的
数据
。因为我对Python比较陌生,并且使用大型
数据
集,所以我想使用一种方法,使我能够轻松地在我的
数据
集上使用sklearn。
浏览 11
提问于2017-07-21
得票数 0
1
回答
将Excel文件加载到numpy 2D数组中
python
、
excel
、
numpy
有没有一种更简单的方法将excel文件直接加载到Numpy数组中?array = np.genfromtxt("Stats.xlsx")Line #3 (got 2 columns instead of 1)...... 现在,我正在使用openpyxl.reader.excel读取excel文件,然后将其附加到num
浏览 0
提问于2013-06-12
得票数 16
回答已采纳
4
回答
在有125,497,040条记录的
数据
集上操作
pandas
我正在尝试运行添加_日期部分(),它将df列从一个datetime64转换为多个适当的列我用的是is 杂货销售
数据
集内核死掉(内存不足,为17.2 GB内存) 所以我试着把这个
数据
帧分解成更小的部分,然后运行add_datepart,但是结果还是一样的。
浏览 0
提问于2019-02-05
得票数 1
1
回答
预
处理
后的csv
数据
集重建
python
、
csv
、
dataframe
我加载了一个用于
数据
预
处理
的csv文件。完成
数据
预
处理
后,并不需要csv文件中的所有列。因此,我只想通过提取一些必要的列来重建csv文件。我应该使用什么代码?但我只需要a,b,c,d,因此, before csv file : columns = a,b,c,d,e,f,g,h,i after csv file : columns = a,b,c,d *
数据
集非常
大
,大约6 6gb *python 3.6.9 *使用
pandas
浏览 14
提问于2020-01-09
得票数 0
回答已采纳
1
回答
Pandas
dataframe,ValueError:无法将字符串转换为浮点型:
python
、
pandas
、
data-cleaning
我在400,000 x 600
大
小的
数据
帧(800MB)的
Pandas
数据
帧上使用scikit-learn预
处理
和随机森林集成技术。当我通过算法传递这个
数据
帧时,我得到了这个值错误,可能是由于
数据
帧中的某个地方有额外的空格。我如何从我的
数据
框中清理所有应该只包含数值而绝对不包含字符串的空格?
浏览 0
提问于2017-01-31
得票数 1
1
回答
将大型
数据
集与dask合并
pandas
、
dask
、
large-data
我有两个
数据
集,一个大约45 is,它包含一年的日常事务,第二个是3.6GB,包含客户I和详细信息。我希望将这两者合并到一个公共列中,以创建一个
数据
集,该
数据
集超出了服务器的内存,因为每个客户可以有多个事务。方法这个方法创建了75000个任务,最终摧毁了
浏览 3
提问于2020-05-17
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas 数据预处理
Python笔记:Pandas数据处理
Python数据分析-Pandas预处理数据(一)
Python 高效数据处理之Pandas绘图
Python数据处理(6)-pandas的数据结构
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券