首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas中对象

Series象是一种显示定义索引与数值关联 显示定义索引让Series对象有了更加强大能力。...3 0.75 7 1.00 dtype: float64 Series是特殊字典 字典是将任意键映射到一组任意值结构,而Series象是将类型化键映射到一组类型化值结构。...对象 pd.Series(data, index=index) 其中index是一个可选参数,data参数支持多种数据类型 data可以是列表或者是Numpy数组,这时index默认值整数数列: pd.Series...states.columns Index(['population', 'area'], dtype='object') 因此,DataFrame 可以看作一种通用NumPy 二维数组,它行与都可以通过索引获取...Pandas Index 对象是一个很有趣数据结构,可以将它看作是一个不可变数组或有序集合 # 使用一个简单列表创建Index对象 ind = pd.Index([2, 3, 5, 7, 11]

2.6K30

Pandas 2.2 中文官方教程和指南(九·三)

因此,itertuples() 保留值数据类型并且通常比iterrows() 快得多。 注意 如果列名是无效 Python 标识符、重复或以下划线开头,则列名将重命名为位置名称。...因此,itertuples() 保留了值数据类型并且通常比 iterrows() 更快。 注意 如果列名无效 Python 标识符、重复或以下划线开头,则列名将重命名为位置名称。...()方法会复制基础数据(尽管不会复制轴索引,因为它们是不可变),并返回一个新对象。...loc()尝试适应我们分配给当前 dtype 内容,而[]将覆盖它们,从右侧获取 dtype。因此,以下代码片段会产生意外结果。...loc() 尝试适应我们正在分配的当前数据类型,而[]将覆盖它们,从右侧获取数据类型因此,以下代码片段会产生意外结果。

22000
您找到你想要的搜索结果了吗?
是的
没有找到

【精心解读】用pandas处理大数据——节省90%内存消耗小贴士

pandas已经我们自动检测了数据类型,其中包括83数值型数据和78对象型数据。对象型数据用于字符串或包含混合数据类型。...对于包含数值型数据(比如整型和浮点型)数据块,pandas会合并这些,并把它们存储一个Numpy数组(ndarray)。Numpy数组是在C数组基础上创建,其值在内存中是连续存储。...pandas中许多数据类型具有多个子类型,它们可以使用较少字节去表示不同数据,比如,float型就有float16、float32和float64这些子类型。...这对我们原始dataframe影响有限,这是由于它只包含很少整型。 同理,我们再浮点型进行相应处理: 我们可以看到所有的浮点型都从float64转换为float32,内存用量减少50%。...首要问题是转变为类别类型会丧失数值计算能力,在将类别类型转换成真实数值类型前,我们不能对category做算术运算,也不能使用诸如Series.min()和Series.max()等方法。

8.6K50

Python 金融编程第二版(二)

NumPy包另一个重要功能是通用函数。它们在一般情况下ndarray对象以及基本 Python 数据类型进行操作。...ndarray对象是可变,其形状是固定。 它仅允许单一数据类型(numpy.dtype)用于整个数组。 相反,array类只共享允许唯一数据类型(类型代码,dtype)特性。... C-ordered ndarray 对象求和在行和列上都更快(绝对速度优势)。 使用 C-ordered(行优先)ndarray 对象,求和相对比对求和更快。...使用 F-ordered(优先)ndarray 对象,求和相对比对行求和更快。 结论 NumPy 是 Python 中数值计算首选包。...② 检查x值是否正且y值是否负。 ③ 检查x值是否正或y值是否负。 使用结果布尔Series对象,复杂数据(行)选择很简单。

9210

《利用Python进行数据分析·第2版》第5章 pandas入门5.1 pandas数据结构介绍5.2 基本功能5.3 汇总和计算描述统计5.4 总结

虽然它们不能解决所有问题,但它们大多数应用提供了一种可靠、易于使用基础。...因此返回Series所做任何就地修改全都会反映到源DataFrame上。通过Seriescopy方法即可指定复制。...[ 2.4, 1.7], [ 2.9, 3.6]]) 如果DataFrame各数据类型不同,则值数组dtype就会选用能兼容所有数据类型: In [75]: frame2.values...a', 'b', 'c'], dtype='object') In [79]: index[1:] Out[79]: Index(['b', 'c'], dtype='object') Index对象是可变...,因此用户不能对其进行修改: index[1] = 'd' # TypeError 不可变可以使Index对象在多个数据结构之间安全共享: In [80]: labels = pd.Index(np.arange

5.9K70

数据分组

df.groupby("客户分类").sum() #只会对数据类型数值(int,float才会进行运算 温故知新,回忆一下有哪些汇总运算: count 非空值计数、sum 求和、mean...df.groupby(["客户分类","区域"]).sum() #只会对数据类型数值(int,float才会进行运算 无论分组键是一还是多,只要直接在分组后数据进行汇总运算,就是所有可以计算进行计算...其实这和选择一样,传入多个Series时,是列表中列表;传入一个Series直接写就可以。...) #对分组后数据进行求和运算 df.groupby(df["客户分类"]).sum() #只会对数据类型数值(int,float才会进行运算 (2)按照多个Series进行分组 #以 客户分类...) #对分组后数据进行求和运算 df.groupby([df["客户分类"],df["区域"]]).sum() #只会对数据类型数值(int,float才会进行运算 #有时不需要所有的进行计算

4.5K11

Python数据科学手册(三)【Pandas对象介绍】

Pandas提供了以下几种基本数据类型Series DataFrame Index Pandas Series对象 Pandas Series 是一个一维数组对象,它可以从列表或者数组中创建。...值可以通过索引来获取: data[1] #0.5 还支持切片: data[1:3] 结果: 1 0.50 2 0.75 dtype: float64 从上可以看出,同Numpy相比...', 'population'], dtype='object') 2.特殊字典 类似的,可以将DataFrame看做字典,key索引值,value对应Series对象。...ind = pd.Index([2, 3, 5, 7, 11]) 1.将Index看做不可变数组 ind[1] # 3 Index对象跟Numpy数组很像,主要区别就是Index对象是不可修改。...2.将Index看作排序集合 Pandas对象被设计用来处理多个数据集,因此依赖很多集合操作。由于Index可以看做集合,因此它支持交、并、差等集合操作。

87630

实操 | 内存占用减少高达90%,还不用升级硬件?没错,这篇文章教你妙用Pandas轻松处理大规模数据

最原始数据是 127 个独立 CSV 文件,不过我们已经使用 csvkit 合并了这些文件,并且在第一行中每一添加了名字。...Pandas 中许多类型包含了多个子类型,因此可以使用较少字节数来表示每个值。例如,float 类型就包含 float16、float32、float64 等子类型。...下面的图标展示了数字值是如何存储在 NumPy 数据类型中,以及字符串如何使用 Python 内置类型存储。 你可能已经注意到,我们图表之前将对象类型描述成使用可变内存量。...你可以看到,每个唯一值都被分配了一个整数,并且底层数据类型现在是 int8。该没有任何缺失值,如果有的话,这个 category 子类型会将缺省值设置 -1。...可能出现最大问题是无法进行数值计算。我们不能在将其转换成真正数字类型前提下,这些 category 进行计算,或者使用类似 Series.min() 和 Series.max() 方法。

3.6K40

上手Pandas,带你玩转数据(1)-- 实例详解pandas数据结构

文章目录 关于pandas pandas创始人pandas讲解 pandas热度 pandas对于数据分析 pandas数据结构简介 Series DataFrame pandas数据结构方法详解...pandas创始人pandas讲解 在pandas官网(Python Data Analysis Library)上,我们可以看到有一段pandas创始人Wes McKinneypandas讲解...数据帧 2 一般二维标签,大小可变表格结构,具有潜在非均匀类型。 面板 3 一般3D标签,大小可变数组。 ---- Series 系列是具有均匀数据一维数组结构。...这只有在没有通过索引情况下才是正确。 dtype:每数据类型。 copy:如果默认值False,则使用该命令(或其它)复制数据。...dtype 返回对象dtype。 empty 如果series空,则返回True。 ndim 根据定义1返回基础数据维度数。 size 返回基础数据中元素数量。

6.6K30

Pandas使用技巧:如何将运行内存占用降低90%!

pandas 会自动我们检测数据类型,发现其中有 83 数据是数值,78 是 object。object 是指有字符串或包含混合数据类型情况。...这种存储方案使得访问速度非常快。 因为每种数据类型都是分开存储,所以我们将检查不同数据类型内存使用情况。首先,我们先来看看各个数据类型平均内存用量。...首先我们看看能否改进数值内存用量。 理解子类型(subtype) 正如我们前面简单提到那样,pandas 内部将数值表示 NumPy ndarrays,并将它们存储在内存连续块中。...(pd.Series.value_counts) 100.99 MB 50.49 MB 我们可以看到浮点型数据类型float64 变成了 float32,让内存用量降低了 50%。...如果没有首先将其转换成数值 dtype,那么我们就无法 category 进行算术运算,也就是说无法使用 Series.min() 和 Series.max() 等方法。

3.5K20

利用Python进行数据分析笔记

当你将对象作为参数传递给函数时,新局域变量创建了原始对象引用,而不是复制。如果在函数里绑定一个新对象到一个变量,这个变动不会反映到上一层。因此可以改变可变参数内容。...由于NumPy关注是数值计算,因此,如果没有特别指定,数据类型基本都是float64(浮点数)。...因此,该类型在NumPy中就记作float64。表4-2出了NumPy所支持全部数据类型。 笔记:记不住这些NumPydtype也没关系,新手更是如此。...虽然它们不能解决所有问题,但它们大多数应用提供了一种可靠、易于使用基础。...因此返回Series所做任何就地修改全都会反映到源DataFrame上。通过Seriescopy方法即可指定复制

5K10

猿创征文|数据导入与预处理-第3章-pandas基础

若未指定数据类型,pandas会根据传入数据自动推断数据类型。 在使用pandas中Series数据结构时,可通过pandas点Series调用。...()重命名一个数组名称,并且新指向一个数组,原数组不变 输出: hehehe test 1.3.4 Series索引 包括:位置下标 / 标签索引 / 切片索引 / 布尔型索引 位置索引 #...:',type(frame.values)) # 查看数据,数据类型dataframe # .index查看行标签 # .columns查看标签 # .values查看值,数据类型ndarray...# index在这里和之前不同,并不能改变原有index,如果指向新标签,值NaN (非常重要!)...类对象还是创建DataFrame类对象,根本目的在于Series类对象或DataFrame类对象中数据进行处理,但在处理数据之前,需要先访问Series类对象或DataFrame类对象中数据。

13.9K20

Pandas 2.2 中文官方教程和指南(二十四)

这是提高性能补充,后者侧重于加快适���内存数据集分析。 加载更少数据 假设我们在磁盘上原始数据集有许多。...8409608 id 8409608 name 1051495 x 8409608 y 8409608 dtype: int64 我们可以进一步将数值降级它们最小类型...8409608 id 8409608 name 1051495 x 8409608 y 8409608 dtype: int64 我们可以进一步将数值降级它们最小类型...可以通过调用 memory_usage() 方法找到每内存使用情况。这会返回一个 Series,其索引由列名表示,并显示每内存使用情况(以字节单位)。...通过调用 memory_usage() 方法可以找到每内存使用情况。这将返回一个由列名表示索引 Series,其中显示了每内存使用情况(以字节单位)。

26600
领券