前面写了两篇 pandas 的入门,分别是Python 中的 pandas 快速上手之:概念初识、pandas 快速上手系列:自定义 dataframe,没看过的可以点对应的文章链接查看。
你是否觉得 pandas 中读取 DataFrame 就是简单的读读写写?其实不然,DataFrame 在读取时还隐藏着不少好用的"秘密功能",让我们一起来探索一下!
首先,读取后的 DataFrame 可以一眼看出它的全貌,包括行数、列数、占用内存等概览信息,就像招手让一位新朋友先行了解。
除了整体概况,我们还能查阅 DataFrame 的"家底":所有列名、列数据类型等细节一览无余。
有时你可能只想窥探一角,可以查看前/后 n 行数据吧,这可比遍览全文轻松多了。
总之,pandas 为 DataFrame 开启了全方位的"x光视角",不仅仅是简单读写,还有更多有趣的"副业"等你探索。下面来详细看下具体的使用方法吧!
shape - 返回 DataFrame 的形状(行数,列数)
In [1]: import pandas as pd
...:
...: df = pd.read_csv("ins_can_000000_gaspedel.csv")
...: print(df.shape)
(10764, 2)
输出显示这个 df 有 10764 行,2 列
columns - 返回列名列表
In [2]: print(df.columns)
Index(['timestamp', 'gas_pedal'], dtype='object')
dtypes - 返回各列的数据类型
In [3]: print(df.dtypes)
timestamp int64
gas_pedal float64
dtype: object
info() - 打印 DataFrame 的概要信息(索引数据类型、列数据类型、内存使用等)
In [4]: df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10764 entries, 0 to 10763
Data columns (total 2 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 timestamp 10764 non-null int64
1 gas_pedal 10762 non-null float64
dtypes: float64(1), int64(1)
memory usage: 168.3 KB
head(n) - 查看 DataFrame 的前 n 行
In [5]: df.head(3)
Out[5]:
timestamp gas_pedal
0 1687160644552313854 0.0
1 1687160644552368280 0.0
2 1687160644552419868 0.0
tail(n) - 查看 DataFrame 的最后n行
In [6]: df.tail(5)
Out[6]:
timestamp gas_pedal
10759 1687160857514424803 NaN
10760 1687160857534642423 22.0472
10761 1687160857554423051 22.0472
10762 1687160857617684338 22.0472
10763 1687160857617750929 NaN
values - 返回 DataFrame 的数据部分(纯数据,无索引和列名)
In [7]: df.values
Out[7]:
array([[1.68716064e+18, 0.00000000e+00],
[1.68716064e+18, 0.00000000e+00],
[1.68716064e+18, 0.00000000e+00],
...,
[1.68716086e+18, 2.20472000e+01],
[1.68716086e+18, 2.20472000e+01],
[1.68716086e+18, nan]])
index - 返回行索引/行标签
In [8]: df.index
Out[8]: RangeIndex(start=0, stop=10764, step=1)
本文分享自 pythonista的日常 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!