首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python数据科学手册(三)【Pandas的对象介绍】

使用pip进行安装: pip install pandas 安装完之后,可以查看版本信息: import pandas pandas....二.Pandas对象 底层实现上,可以认为Pandas是一个增强型的Numpy。...Pandas提供了以下几种基本的数据类型: Series DataFrame Index Pandas Series对象 Pandas Series 是一个一维的数组对象,它可以从列表或者数组中创建。...属性则是一个类数组对象pd.Index,后面我们将讨论到 data.index # RangeIndex(start=0, stop=4, step=1) 根Numpy数组一样,Series的可以通过索引来获取..., 5, 3, 7]) 3.通过字典创建 Pandas Series对象其实也可以理解为一个字典,每个索引对应一个,只不过值得类型必须是一致的,因为一致,底层使用Numpy数组,从而更加高效。

88430

数据处理利器pandas入门

想入门 Pandas,那么首先需要了解Pandas中的数据结构。因为Pandas中数据操作依赖于数据结构对象。Pandas中最常用的数据结构是 Series 和 DataFrame。...如果仅给定列表,不指定index参数,默认索引为从0开始的数字。注意:索引标签为字符串和整数的混合类型。记住不要使用浮点数作为索引,并且尽量避免使用混合类型索引。...每列可以是不同类型的数据,比如数值,字符串,逻辑等。...探索性分析 查看DataFrame数据信息 data.shape data.ndim # 获取数据的维度信息 data.index # 获取索引 data.columns #获取列名 查看数据行列对象信息...箱线图 上图可以看出:不同的要素其所在范围是不同的,探索性分析时应分开分析。 除了箱线图之外,Pandas还可以绘制折线图,条形图,饼图,密度分布等。

3.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

pandas入门教程

这段输出说明如下: 输出的最后一行是Series中数据的类型,这里的数据都是int64类型的。 数据第二列输出,第一列是数据的索引,pandas中称之为Index。...不过我们也可以创建Series的时候指定索引。索引未必一定需要是整数,可以是任何类型的数据,例如字符串。例如我们以七个字母来映射七个音符。索引的目的是可以通过它来获取对应的数据,例如下面这样: ?...可以通过下面的方式获取到DataFrame的列和行的Index对象: ? 这两行代码输出如下: ?...安装完之后可以通过pip查看这个库的信息: ? 接下来我们看一个读取Excel的简单的例子: ? 这个Excel的内容如下: ? 注:本文的代码和数据文件可以通过文章开头提到的Github仓库获取。...如果想要直接更改数据本身,可以调用这个函数的时候传递参数 inplace = True。 对于原先的结构,当无效全部被抛弃之后,将不再是一个有效的DataFrame,因此这行代码输出如下: ?

2.2K20

python数据分析和可视化——一篇文章足以(未完成)

:\n", ndarray_b)   ndarray属性 ndarray中,有几个重要的属性:数据的类型、秩(轴)、形状、元素个数。  ...ndarray的形状通过一个元组来描述,元组中的第一个数代表ndarray的第一个维度,第二个数代表第二个维度,以此类推。通过ndarray.shape查看数组的形状。  元素个数。...]获取index1索引位置的某个元素 也可以通过[start: end]获取索引从start开始到end-1处的一段元素 还可以通过[start: end: step]获取步长为step的start开始到...end-1处的一段元素  对于多维数组 可以通过[rank1_index, rank2_index,…],获取ndarray数组中处于指定位置处的某个元素。...Pandas中,主要使用从Series派生出来的子类TimeStamp: 最基本的时间序列类型就是以时间戳(TimeStamp)为index元素的Series类型

87810

查看Mysql执行计划

第一个查询是全表扫描,第二个是索引扫描: 区别在于type:all是全表扫描 index 通过索引扫描 或者查询中输入需要查看执行计划的语句,点击执行,然后点击解释。...这个类型严重依赖于根据索引匹配的记录多少—越少越好。 range:索引范围扫描,这个连接类型使用索引返回一个范围中的行,比如使用>或<查找东西时发生的情况。...unique_subquery:子查询中的返回结果字段组合是主键或者唯一约束 index_merge:查询中同时使用两个(或更多)索引,然后对索引结果进行merge 之后再读取表数据; index_subquery...7、select_type 所使用的查询类型,判断是否是复杂语句,主要有以下这几种查询类型 DEPENDENT SUBQUERY:子查询中内层的第一个SELECT,依赖于外部查询的结果集;DEPENDENT...:除子查询或者UNION 之外的其他查询; SUBQUERY:子查询内层查询的第一个SELECT,结果不依赖于外部查询结果集; UNCACHEABLE SUBQUERY:结果集无法缓存的子查询;UNION

3.3K10

数据分析与数据挖掘 - 07数据处理

pandas基本数据类型 1 Series类型 Pandas是数据处理中非常常用的一个库,是数据分析师、AI的工程师们必用的一个库,对这个库是否能够熟练的应用,直接关系到我们是否能够把数据处理成我们想要的样子...Pandas一共包含了两种数据类型,分别是Series和DataFrame,我们先来学习一下Series类型。...关于Series类型的索引,我们是可以自己去定义的,就像这样: # Series中的第一个参数指定对象的,而index参数就是我们重新定义的索引。...=dates, columns=list('ABCD')) print(df) 在这行代码中第一个参数就是使用了NumPy进行一个6行4列的随机数生成,index指定了它的行索引,而columns参数指定了列索引...data.drop_duplicates(inplace=True) # 必须要有这个参数才能真正删除 print(data) 删除之后,你会发现索引没有变化,如需重置索引,我们使用reset_index

2.6K20

Pandas 2.2 中文官方教程和指南(十七)

重新排序意味着排序的方式之后会有所不同,但不意味着Series中的个别已更改。...唯一的区别在于返回类型(用于获取)以及只有已在 categories 中的才能被赋值。... apply 中的 dtype pandas 目前 apply 函数中不会保留 dtype:如果你沿着行应用,你会得到一个 Series,其 dtype 为 object(与获取一行相同 -> 获取一个元素将返回基本类型...重新排序意味着排序的方式之后不同,但不意味着Series中的个别被更改。 注意 如果Categorical未排序,Series.min()和Series.max()将引发TypeError。...唯一的区别是返回类型(用于获取)和只有已在categories中的才能被赋值。 获取 如果切片操作返回DataFrame或类型为Series的列,则category dtype 将被保留。

32810

电商用户复购实战:图解 pandas 的移动函数 shift

注意这里移动的都是数据,而索引是不移动的,移动之后没有对应的,就赋值为NaN。...axis=0表示index,横轴;axis=1表示columns,纵轴 fill_value:表示当我们数据发生了移动之后,产生的缺失用什么数据填充。...如果是数值型的缺失,用np.nan;如果是时间类型的缺失,用NaT(not a time) 模拟数据 模拟了两份数据,其中一份和时间相关。...参数axis 用来表示在哪个方向上进行移动,上面的例子默认是axis=0,或者表示成:axis="index" 如果我们想在列方向上移动,可以使用axis=1或者axis="columns"...同时移动的幅度是可正可负的: 参数fill_value 移动之后缺失的填充数据 参数freq 表示移动的频率,专门用于时间序列的移动中 频率 时间序列变化频率有间隔相同的,也有不同的

1.8K20

查看Mysql正在执行的事务、锁、等待

select_type: SIMPLE,简单的select查询,不使用union及子查询 PRIMARY,最外层的select查询 UNION,UNION 中的第二个或随后的 select 查询,不依赖于外部查询的结果集...DEPENDENT UNION,UNION 中的第二个或随后的 select 查询,依赖于外部查询的结果集 SUBQUERY,子查询中的第一个 select 查询,不依赖于外部查询的结果集...DEPENDENT SUBQUERY,子查询中的第一个 select 查询,依赖于外部查询的结果集 DERIVED,用于 from子句里有子查询的情况。...这是const联接类型的一个特例。 const,表最多有一个匹配行,它将在查询开始时被读取。因为仅有一行,在这行的列可被优化器剩余部分认为是常数。const表很快,因为它们只读取一次!...Distinct,去重,返回第一个满足条件的 Not exists 使用not exists查询 Range checked for each record,有索引,但索引选择率很低

16.1K22

Python Pandas 的使用——Series

是一个list对象,可通过series.index[index]来访问指定的索引并替换之 2.4 Series的元素属性  属性说明values以数组方式获取Series的元素index以数组方式获取...Series的元素索引name获取values的name(需额外指定)index.name获取index的name(需额外指定)dtype获取Series数据类型array以数组方式获取Series的...但Series.copy(deep=False)是先创建一个新的对象,之后,对原对象中values与index贴上新的标签并使新对象的values与index指向之。     ...No.1     Tom No.2     Kim No.3    Andy No.4     填充值 dtype: object   method参数      ffill或pad:前向填充,即将缺失的前一个索引的填充缺失位置上...bfill或backfill:后向(或进位)填充,即将缺失的后一个索引的填充缺失位置上  s = pd.Series(['Tom', 'Kim', 'Andy'], index=['No.1',

92500

DataFrame和Series的使用

DataFrame和Series是Pandas最基本的两种数据结构 可以把DataFrame看作由Series对象组成的字典,其中key是列名,是Series Series和Python...DataFrame的loc 属性获取数据集里的一行,就会得到一个Series对象 first_row = data.loc[941] first_row 3.可以通过 index 和 values属性获取行索引和...first_row.values # 获取Series中所有的, 返回的是np.ndarray对象 first_row.index # 返回Series的行索引 Series的一些属性 Series...# 查看df的dtypes属性,获取每一列的数据类型 df.dtypes df.info() Pandas与Python常用数据类型对照 加载筛选数据 df根据列名加载部分列数据:加载一列数据,通过df...Series的唯一计数 # 可以使用 value_counts 方法来获取Pandas Series 的频数统计 df.groupby(‘continent’) → dataframeGroupby

8810

Python可视化数据分析05、Pandas数据分析

如果Series的中出现NaN,可以利用Pandas模块中提供的isnull()和notnull()函数进行判断。 算数运算中会自动对齐不同索引的数据。...print(obj[obj > 0]) # 获取值大于0的数据。 print(obj * 2) # 输出Series对象中每个数据乘2之后的结果。...它包含一个经过排序的列表集,列表集中的每个数据都可以有不同的类型(数字、字符串、布尔等)。...obj.index print(index) # 获取第二位及之后的元素 print(index[1:]) Index类的函数列表见下表: 函数 属性 append 链接另一个Index对象,产生一个新的...# 选取Series中数据的子集 缺失数据处理 缺失数据大部分数据分析应用中都很常见,Pandas的设计目标之一就是让缺失数据的处理任务尽量轻松 Pandas使用浮点NaN(Not a umber

2.5K20

Spring+SpringMVC+MyBatis+easyUI整合优化篇(十二)数据层优化-explain关键字及慢sql优化

UNION UNION 中的第二个或随后的 select查询,不依赖于外部查询的结果集。 DEPENDENT UNION UNION中的第二个或随后的 select查询,依 赖于外部查询的结果集。...SUBQUERY 子查询中的第一个select查询,不依赖于外部查询的结果集。 DEPENDENT SUBQUERY 子查询中的第一个select查询,依赖于外部查询的结果集。...) index_subquery 某些IN查询中使用此种类型,与unique_subquery类似,但是查询的是非唯一性索引:value IN(SELECT key_column FROM single_table...这种情况下,可以SELECT语句中使用USE INDEX (indexname)来强制使用一个索引或者用IGNORE INDEX(indexname)来强制MYSQL忽略索引 项 说明 key_len...通过与上面的结果对比,可以看到rows也变小了。 ? ? type由all全部变为index

1.3K110

看一篇,学一篇,今日份的pandas,你该这么学!No.2

我们昨天学了一个pandas类型series 并且会创建了,厉不厉害 对于一个新的数据结构来说 额,不对,对于python任意的数据结构来说 或者换句话,对于任何对象来说 看我,就没有对象... .....百度 python pandas 不就行了? 打开之后,咦~!! 这么多 ?...# 获取索引,返回一个列表 print(my_series.name) # 获取series的名字 print(my_series.data) # 获取数据,返回一个列表 运行之后,还不错,2个对了...估计跟索引有关系 没错,返回可迭代的index print(my_series.keys()) >>> Index(['a', 'b', 'c', 'd'], dtype='object') 很多,写下去...,估计就写不完了 分一下类吧 series全部类型的方法 必会简单的 构造函数 常用属性 方法类型 转换类的方法 -- 将 series转换为其他类型 索引,迭代器类方法 -- 操作索引,获取各种迭代器

43820

【MySQL】MySQL Explain性能调优详解

SELECT,结果不依赖于外部查询) DEPENDENT SUBQUERY(子查询中的第一个SELECT,依赖于外部查询) DERIVED(派生表的SELECT, FROM子句的子查询) UNCACHEABLE...常用的类型有: ALL、index、range、 ref、eq_ref、const、system、NULL(从左到右,性能从差到好) ALL:Full Table Scan, MySQL将遍历全表以找到匹配的行...index: Full Index Scan,index与ALL区别为index类型只遍历索引树 range:只检索给定范围的行,使用一个索引来选择行 ref: 表示上述表的连接匹配条件,即哪些列或常量被用于查找索引列上的...要想强制MySQL使用或忽视possible_keys列中的索引,查询中使用FORCE INDEX、USE INDEX或者IGNORE INDEX。...而且无法利用索引完成的排序操作称为“文件排序” 测试Extra的filesort explain select * from emp order by name; Using join buffer:改强调了获取连接条件时没有使用索引

15610

Pandas 第一轮零基础扫盲

as pd Pandas 的基础类型1——Series 创建一个 Series 类型的数据 In [2]: data = pd.Series([1, 3, 5, 7]) Series() 里直接填一个由数字组成的列表...获取 Series 数据的 In [6]: data.values Out[6]: array([1, 3, 5, 7]) 获取 Series 数据的索引 In [7]: data.index Out...5 d 7 dtype: int64 这里我们就在创建的时候进行的索引的指定,那我们如果要在创建之后修改索引呢?...'] # data[1] Out[12]: 3 获取数组中多个数据「不连续」「第一个中括号:告诉程序说,我要索引一下;第二个中括号:用来获取多个数据,一个数据则不用」 In [13]: data[['k...='int64') } # 得到的结果类似字典的结构,提取字典的之后,可以直接用整数索引或者使用 .values 可以提取出分组之后「数组」 利用 groupby 对数据进行分组并计算 sum,

2.1K00

练习 Pandas 各种操作不香吗!

做数据分析的朋友应该知道,我们获取到的一手数据,往往是杂乱无章,不规则的。进行数据建模和数据可视化之前,“数据处理”就显得尤为重要。...Pandas作为一个优秀的数据处理库,进行数据处理的时候,显得极为方便。我们日常的Pandas学习中,我们针对自己爬虫得到的数据,不仅仅是做一个词云图,还可以利用它来帮我们熟练使用Pandas。...在这里,我们认为:公司的公司名和和发布的岗位名一致,就看作是重复。因此,使用drop_duplicates()函数,基于“岗位名”和“公司名”做一个重复的剔除。...最后查看筛选之后还剩余多少条记录。...行业字段的处理 每个公司的行业字段可能会有多个行业标签,但是我们默认以第一个作为该公司的行业标签。

75820
领券