首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Pandas知识点-DataFrame数据结构介绍

DataFrame数据由三个部分组成,行索引、索引、数据。pandas读取DataFrame数据时,如果数据行数和数很多,会自动将数据折叠,中间的显示“...”。...DataFrame的形状shape和.T data = pd.read_csv("600519.csv", encoding='gbk') print("形状:", data.shape) data2...= data.T print("后形状:", data2.shape) 形状:(4726, 15) 后形状:(15, 4726) 4....如果要将某数据作为行索引,同时数据中也有该数据,可以set_index()中指定drop参数False(set_index()中drop参数默认为True)。 2....当一中的数据不唯一时,可以使用两来组合成多重行索引,当需要将数据处理成多维数据时,也可以用多重索引。

2.3K40

基础知识篇(一)Pandas数据结构

本文介绍pandas的基本数据类型,要熟练使用pandas,需要熟悉它的两种主要数据结构:Series和DataFrame 1.Series Series 形如于一维矩阵的对象,通常用来存储一数值,其包含数值...(与numpy数据格式相似)和标签(与数值相对应,称之为index) 1.1 Series生成 最简单的Series可以由一个数值list生成 import pandas as pd from pandas...因为没有在生成Series的时候设置index,所以pandas会创建由0到N-1的默认索引(N数据长度) 此时可以分别values和index属性,如下: obj.values array([...pandas中最重要的数据结构,它的格式等同于我们要处理的矩形表格:拥有,每可以有不同类型的数据,拥有列名,行、索引等......运算 DataFrame运算时,对于某一的数学运算和Series方法相同,二维运算中比较重要的有,例如: # pd的,可以使用类似矩阵的方法 frame2.T one two three

76830
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas知识点-Series数据结构介绍

使用type()函数打印数据的类型,数据类型Series。从csv文件中读取出来的数据是DataFrame数据,取其中的一,数据是一个Series数据。...因为数据是一维的(只有一),所以Series只有行索引,没有索引。 ? Series由行索引和数据组成。如果数据行数很多,会自动将数据折叠,中间的显示“...”。...关于索引还需要注意,Pandas中的索引值是可以重复的,当然最好不要设置重复,避免进行一些索引不可重复的操作时出现错误。 2....) s2 = s.T print("后形状:", s2.shape) 形状:(4726,) 后形状:(4726,) 需要注意的是,Series置之后的形状与置之前是一样的,这是因为Series...调用reset_index()时,要将drop参数设置True,否则Pandas不会删除前面设置的行索引,而是将设置的行索引移动到数据中,使数据变成两,这样数据就变成了DataFrame,而不再是

2.2K30

盘点66个Pandas函数,轻松搞定“数据清洗”!

Pandas 是基于NumPy的一种工具,该工具是解决数据分析任务而创建的。它提供了大量能使我们快速便捷地处理数据的函数和方法。...此外,isnull().any()会判断哪些””存在缺失值,isnull().sum()用于将空的个数统计出来。...、右边或左右两边添加给定字符 repeat 重复字符串几次 slice_replace 使用给定的字符串,替换指定的位置的字符 split 分割字符串,将一扩展 strip、rstrip、lstrip...df.rename(columns={'mark': 'sell'}, inplace=True) 输出: 行列,我们可以使用T属性获得后的DataFrame。...如果大家有工作生活中进行“数据清洗”非常有用的Pandas函数,也可以评论区交流。

3.7K11

科学计算库-Pandas随笔【附网络隐私闲谈】

以 obj 对象例,判断是否有缺失值: pd.notnull(obj) pd.isnull(obj) 8.2.5、pandas DataFrame 类型 DataFrame 是一个表格型的数据结构,它含有一组有序的...,每可以是不用的类型,数值、字符串、布尔值都可以 DataFrame 本身也有行索引,索引,字典 DataFrame表格才一致。... 1)只查找60年代这组,全部 res['60年代':'60年代'] Out: 0 1 2 60年代 1 2 3 2)查找60-70年代,全部 res["60年代":"70年代"...①字典转为DF类型后,键/key 也默认成为了索引,与排序不谋而合, ②目前学到的只有,可以用学过的,再排序。...和数据源字典的DF对象很像, DataFrame 的格式数据 除了前面提到的(8.2.2),现在又多了 CSV文件。

2.9K180

pandas系列11-cutstackmelt

pandas系列10-数值操作2 本文是书《对比Excel,轻松学习Python数据分析》的第二篇,主要内容包含 区间切分 插入数据(行或 索引重塑 长宽表转换 区间切分 Excel Excel...插入新行或 Excel Excel直接在确定要加入的某行或者的前面,菜单栏中选择加入即可 ?...行列互换 行列互换实际上就是的意思 excel 现将要转换的数据进行复制 粘贴的时候勾选\color{red}{选择性粘贴},再选择即可 ? 后的效果图 ?...Python pandas中的只需要调用.T方法即可 ? 索引重塑 所谓的索引重塑就是将原来的索引重新进行构造。两种常见的表示数据的结构: 表格型 树形 下面?...把数据从表格型数据转换到树形数据的过程,称之为重塑reshape stack 该过程Excel中无法实现,pandas中是通过\color{red}{stack}方法实现的 ?

3.4K10

Pandas行列转换的4大技巧

本文介绍的是Pandas中4个行列转换的方法,包含: melt T或者transpose wide_to_long explode(爆炸函数) 最后回答一个读者朋友问到的数据处理问题。...pandas中的T属性或者transpose函数就是实现行转列的功能,准确地说就是 简单 模拟了一份数据,查看的结果: [008i3skNgy1gxenewxbo0j30pu0mgdgr.jpg...] 使用transpose函数进行: [008i3skNgy1gxenfoqg6tj30ia0963yt.jpg] 还有另一个方法:先对值values进行,再把索引和列名进行交换: [008i3skNgy1gxengnbdfxj30ua0c4wfm.jpg...例如 columns A-2020,则指定 sep='-' 来删除分隔符。默认为空。 suffix:通过设置正则表达式取得“后缀”。默认'\d+'表示取得数字后缀。...有下面的这样一份数据,需求: 每个shop下每个fruit各自shop的占比 fruit = pd.DataFrame({ "shop":["shop1","shop3","shop2","shop3

4.5K20

数据科学竞赛:递增特征构建的简单实现

就是3个月均aum之间的关系:如果是递增的就将新生成的特征记录1,反之记录0 数据准备 进行实验之前我们进行数据的准备,我们设置的实验数据如下: import pandas as pd data...这是关于递增的方式,使用Pandas自带的方法就可以完成。 行递增 上述方式判断是递增,那么怎么实现行数据的递增判断呢?...(2)第2种方法是对目标dataframe进行,再使用自带的方法进行判断,接下来我将写一个函数,用来判断每一行数据是否都是递增的,并新增一来存储判断的结果: import gc import pandas...找答案的时候我们会发现一个新的问题:大矩阵/大稀疏矩阵的问题。 感觉又有话题讨论了,不过这次我们不讨论。...总结 本次文章我们以构建特征工程中遇到的一个问题出发,讲解了如何计算一个increasing趋势特征,并引出一个值得思考的问题:大矩阵的(存储)。如果有空我们下期推文将研究一下大矩阵的相关问题。

88411

数据导入与预处理-课程总结-01~03章

布尔型索引 3.2.4 DataFrame基本操作技巧 1. 数据查看、 2. 添加、修改、删除值 3. 排序 3.2.5 Index索引对象 1.索引对象概述 2. 索引对象操作 3....2.5.3 数组 熟悉数组的,可以通过T属性、transpose()方法、swapaxes()方法实现数组操作 2.5.4 随机数生成 1. numpy的random库 python里随机数生成主要有两种方式...只选择一输出Series,选择输出Dataframe data3 = df.loc['one'] data4 = df.loc[['one','two']] print(data2,type(data3...所有数据:True返回原数据,False返回值NaN 输出: 3.2.4 DataFrame基本操作技巧 数据查看、 / 添加、修改、删除值 / 对齐 / 排序 1....数据查看、 # 数据查看、 df = pd.DataFrame(np.random.rand(16).reshape(8,2)*100, columns

2.9K20

【疑惑】如何从 Spark 的 DataFrame 中取出具体某一行?

这样就不再是一个分布式的程序了,甚至比 pandas 本身更慢。...我的数据有 2e5 * 2e4 这么,因此 select 后只剩一大小 2e5 * 1 ,还是可以 collect 的。 这显然不是个好方法!因为无法处理真正的大数据,比如行很多时。...我对于 SQL 不是很了解,因此这个做法只是构思阶段。...我要调用很多次 df.iloc[i, ] ,那这样会不会太慢了? 3/3排序后加index然后转查找列名 这个想法也只是停留在脑子里!因为会有些难度。...给每一行加索引,从0开始计数,然后把矩阵,新的列名就用索引来做。 之后再取第 i 个数,就 df(i.toString) 就行。 这个方法似乎靠谱。

4K30

Python pandas对excel的操作实现示例

本篇介绍 pandasDataFrame (Column) 的处理方法。示例数据请通过明哥的gitee进行下载。...增加计算 pandasDataFrame,每一行或每一都是一个序列 (Series)。比如: import pandas as pd df1 = pd.read_excel('....指定位置插入列 上面方法增加的,位置都是放在最后。如果想要在指定位置插入列,要用 dataframe.insert() 方法。...# 变成 DataFrame df_sum = pd.DataFrame(data=sum_row).T df_sum ? 如果想要把合计数放在数据的下方,则要稍作加工。...首先通过 reindex() 函数将 df_sum 变成与 df 具有相同的,然后再通过 append() 方法,将合计行放在数据的后面: # 变成 DataFrame df_sum = pd.DataFrame

4.4K20

猿创征文|数据导入与预处理-第3章-pandas基础

只选择一输出Series,选择输出Dataframe data3 = df.loc['one'] data4 = df.loc[['one','two']] print(data2,type(data3...所有数据:True返回原数据,False返回值NaN 输出: 1.4.3 DataFrame基本操作技巧 数据查看、 / 添加、修改、删除值 / 对齐 / 排序 数据查看、 # 数据查看...、 df = pd.DataFrame(np.random.rand(16).reshape(8,2)*100, columns = ['a','b']) print...(df.head(2)) print(df.tail()) # .head()查看头部数据 # .tail()查看尾部数据 # 默认查看5条 print(df.T) # .T 输出: 添加...使用[]访问数据 由于分层索引的索引层数比单层索引使用[]方式访问数据时,需要根据不同的需求传入不同层级的索引。

13.9K20

python及numpy,pandas易混淆的点

ndarray中,每个[]就代表1维。这里和matlab或者C++或者fortran都很不一样,没有行优先或者优先的概念。但是numpy还有一个数据结构是mat。...例如mat结构可以非常方便地做(matName.T),求逆(matName.I),求伴随矩阵(matName.A) pandas pandas的Series数据结构对象:类似于numpy的ndarray...字典结构是python的数据结构,pandas中的类似数据结构成为数据框架(DataFrame)。...具体执行时,对先比对index,对相同index的数据相加,如果obj有某个index而obj1没有,则数据NaN。...DataFrame的初始化 对于python的字典结构数据对象,可以直接创建pandasDataFrame对象,例如: data={'name':['Sara', 'Ben'], 'Age':[23,34

1.9K70

Numpy和pandas的使用技巧

可以创建数组的时候np.array(ndmin=)设置最小维度 ndarray.shape 数组的维度,对于矩阵,n行m,不改变原序列 ndarray.size 数组元素总个数...dtype) 创建单位对角矩阵,对角元素1,其他位置0.n: 返回矩阵的行数,M: 返回矩阵的数,默认为 n,k: 对角线的索引,dtype: 数据类型 np.diag([1,2,3])...行列式求值 np.linalg.det() 计算矩阵的逆 np.linalg.inv() 矩阵乘 np.dot(), a.dot(b)或者np.dot(a,b) 矩阵的...△ n.transpose()对换数组的维度,矩阵的 △ ndarray.T 与上类似,用于矩阵的 △ n.concatenate((a1, a2, ...), axis)沿指定轴连接同形数组...dataframe 横向 pd.concat([a,a],axis=1) 纵向 pd.concat([a,a],axis=0) 数据去重 import pandas as pd df = pd.DataFrame

3.5K30

DataFrame的数据处理(Pandas读书笔记6)

需要说明的是提取后 dtype:int64这里的类型指的该的存储形式,那本身提取出来的数据是什么呢? 我们提取出来的这一就是Series。...所以DataFrame可以看做是Series的集合,而提取出任意的就是Series。 二、提取想要的行 DataFrame有个特性就是可以任意进行行列处理,那如何提取某行呢?...三、DataFrame的赋值 当我们先创建的DataFrame数大于原始数据的时候,就会以NaN方式显示,这个上期已经介绍过,当我们对某一进行赋值的时候,整个会赋值给一个相同的值。...如果我们直接对某个不存在的进行赋值,pandas同样会默认帮我们创建好新的,然后将对应的值存进去。...四、DataFrame 对象.T方法可以将DataFrame进行,这里需要说明,该方法并不改变原数据的存储,如果想改变原数据需要重新赋值一次!

1.1K50
领券