首页
学习
活动
专区
圈层
工具
发布

人工智能之数据分析 Pandas:第二章 Series

人工智能之数据分析 Pandas第二章 Series前言Pandas 的 Series 是其最基础、最核心的一维数据结构,是学习 Pandas 的起点。...二、Series 的核心特点特性说明一维结构只有一列数据自动对齐运算时按索引对齐,不匹配的位置返回 NaN支持缺失值使用 NaN 表示缺失数据可命名可通过 name 参数设置名称(常用于转为 DataFrame...数学': 90, '语文': 85, '英语': 95}s4 = pd.Series(data_dict) # 字典的 key → index,value → data# 若指定 index 中有字典未包含的键...,则对应值为 NaNs5 = pd.Series(data_dict, index=['数学', '物理']) # 输出:数学 90.0,物理 NaN(注意 dtype 变为 float64)3....Series 运算时,Pandas 会自动按索引对齐,非公共索引位置结果为 NaN: s1 = pd.Series([1, 2], index=['a', 'b']) s2 = pd.Series

32510

【愚公系列】2023年07月 Pandas数据分析(Series 和 Index)

通常,你通过向read_csv提供一个标志来接收一个带有NaNs的dataframe。否则,可以在构造函数或赋值运算符中使用None(尽管不同数据类型的实现略有不同,但它仍然有效)。...这张图片有助于解释这个概念: 你可以使用NaNs做的第一件事是了解你是否有NaNs。从上图可以看出,isna()生成了一个布尔数组,而.sum()给出了缺失值的总数。...算术运算与索引对齐: 如果索引中存在非唯一值,则结果不一致。不要对索引不唯一的序列使用算术运算。 5.比较 比较有缺失值的数组可能会比较棘手。...添加和插入的另一种方法是使用iloc对DataFrame进行切片,应用必要的转换,然后使用concat将其放回。...所有Pandas统计函数都会忽略NaNs,如下所示: 注意,Pandas std给出的结果与NumPy std不同,如下所示: >>> pd.Series([1, 2]).std() 0.7071067811865476

1.5K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python数据清洗实践

    在填写问卷时,人们往往未填全所有必填信息,或用错数据类型。问卷结果中缺失的数据在使用前必须做相应的解释及处理。 下面,我们将看到一份关于不同层次学生入学考试的数据集,包括得分、学校偏好和其他细节。...通常,我们先导入Pandas并读入数据集。 import pandas as pd data = pd.read_csv('Responses.csv') ?...# Drop any rows which have any NaNs data.dropna() # Drop columns that have any NaNs data.dropna(axis...# Only drop columns which do not have at least 90% non-NaNs data.dropna(thresh=int(data.shape[0] * .9...new_dataset.columns] = new_dataset.apply(lambda x: x.str.strip(‘/images’)) print (dataset) 我们可以对我们的数据执行其他一些功能和方法,本文未介绍这些功能和方法

    2.3K30

    Python数据清洗实践

    在填写问卷时,人们往往未填全所有必填信息,或用错数据类型。问卷结果中缺失的数据在使用前必须做相应的解释及处理。 下面,我们将看到一份关于不同层次学生入学考试的数据集,包括得分、学校偏好和其他细节。...通常,我们先导入Pandas并读入数据集。 import pandas as pd data = pd.read_csv('Responses.csv') ?...# Drop any rows which have any NaNs data.dropna() # Drop columns that have any NaNs data.dropna(axis...# Only drop columns which do not have at least 90% non-NaNs data.dropna(thresh=int(data.shape[0] * .9...new_dataset.columns] = new_dataset.apply(lambda x: x.str.strip(‘/images’)) print (dataset) 我们可以对我们的数据执行其他一些功能和方法,本文未介绍这些功能和方法

    2.8K20

    Pandas图鉴(三):DataFrames

    (这些向量没有通过标签对齐,并且期望其大小如同DataFrame是一个简单的二维NumPy数组): 因此,在用列-向量序列分割DataFrame这种不理想的情况下(也是最常见的情况!)...如果DataFrames的列不完全匹配(不同的顺序在这里不算),Pandas可以采取列的交集(kind='inner',默认)或插入NaNs来标记缺失的值(kind='outer'): 水平stacking...Concat 还可以进行水平stacking(类似于NumPy中的hstack): join比concat更具可配置性:特别是,它有五种连接模式,而concat只有两种。...通过MultiIndex进行堆叠 如果行和列的标签都重合,concat可以做一个相当于垂直堆叠的MultiIndex(像NumPy的dstack): 如果行和/或列部分重叠,Pandas将相应地对齐名称...但是join也有一个 "多重连接" 模式,它反过来又是concat(axis=1)的一个别名。

    5.1K20

    《Python for Excel》读书笔记连载11:使用pandas进行数据分析之组合数据

    引言:本文为《Python for Excel》中第5章Chapter 5:Data Analysis with pandas的部分内容,主要讲解了pandas如何将数据组合,即concat、join和...幸运的是,组合数据框架是pandas的杀手级功能之一,它的数据对齐功能将使工作变得非常轻松,从而大大减少引入错误的可能性。...默认情况下,concat会沿行将数据框架粘在一起,并自动对齐列。...在下面的示例中,创建了另一个数据框架more_users,并将其附加到示例数据框架df的底部: 注意,现在有了重复的索引元素,因为concat将数据粘在指定的轴(行)上,并且只对齐另一个轴(列)上的数据...图5-3.联接类型 使用join,pandas使用两个数据框架的索引来对齐行。内联接(innerjoin)返回的数据框架只包含索引重叠的行。

    3.3K20

    Pandas数据分析

    进行排序 movie3 = movie2.sort_values(['title_year','imdb_score'],ascending=[False,True]) drop_duplicates方法是Pandas...as pd df1 = pd.read_csv('data/concat_1.csv') df2 = pd.read_csv('data/concat_2.csv') df3 = pd.read_csv...('data/concat_3.csv') 我们可以使用concat方法将三个数据集加载到一个数据集,列名相同的直接连接到下边 在使用concat连接数据时,涉及到了参数join(join = 'inner...',join = 'outer') pd.concat([df1,df2,df3],ignore_index=True) 也可以使用concat函数添加列,与添加行的方法类似,需要多传一个axis参数...: Pandas函数 可以垂直和水平地连接两个或多个pandas对象 只用索引对齐 默认是外连接(也可以设为内连接) merge: DataFrame方法 只能水平连接两个DataFrame对象 对齐是靠被调用的

    1.5K10

    懂Excel就能轻松入门Python数据分析包pandas(十六):合并数据

    后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 本系列上一节说了拆分数据的案例,这次自然是说下怎么合并数据。...最好的方式当然是先把各个文件统一汇总起来: - 注意看,虽然每个表的标题一样,但是他们的顺序可能出现不一致 这里有3个关键点: - 如何获得一个文件夹中所有文件的路径 - 加载 Excel 文件数据 - 列标题对齐的情况下...,加载 Excel 数据 - pd.concat(dfs) ,合并多个数据,pandas 自动进行索引对齐 > 关于 pathlib 的知识点,请关注公众号的入门必备系列文章 上面是普通的写法,这场景我倾向于使用推导式...即使工作表名字 总结 - pathlib 包中的类 Path 是个处理文件路径的好东西 - Path 的 方法 glob('*.xlsx') ,即可获取一个目录下所有的 Excel 文件 - pd.concat...,合并多个 DataFrame,并且能够自动对齐表头 - 当需要往 DataFrame 添加新列时,可以考虑使用 assign - openpyxl.load_workbook(f).worksheets

    1.6K10

    如何在 Pandas 中创建一个空的数据帧并向其附加行和列?

    Pandas是一个用于数据操作和分析的Python库。它建立在 numpy 库之上,提供数据帧的有效实现。数据帧是一种二维数据结构。在数据帧中,数据以表格形式在行和列中对齐。...大多数情况下,数据是从其他数据源(如csv,excel,SQL等)导入到pandas数据帧中的。在本教程中,我们将学习如何创建一个空数据帧,以及如何在 Pandas 中向其追加行和列。...dataframe df['col_name'] = pd.Series([col1_val1, col1_val2, col1_val3, col1_val4], index=df.index) 我们使用 Pandas.concat...concat 方法的第一个参数是要与列名连接的数据帧列表。 ignore_index 参数用于在追加行后重置数据帧的索引。Pandas.Series 方法可用于从列表创建系列。...import pandas as pd df = pd.DataFrame() df = pd.DataFrame(columns=['Name', 'Age']) df = pd.concat([df

    23.5K30

    懂Excel就能轻松入门Python数据分析包pandas(十六):合并数据

    后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas 前言 本系列上一节说了拆分数据的案例,这次自然是说下怎么合并数据。...最好的方式当然是先把各个文件统一汇总起来: - 注意看,虽然每个表的标题一样,但是他们的顺序可能出现不一致 这里有3个关键点: - 如何获得一个文件夹中所有文件的路径 - 加载 Excel 文件数据 - 列标题对齐的情况下...,加载 Excel 数据 - pd.concat(dfs) ,合并多个数据,pandas 自动进行索引对齐 > 关于 pathlib 的知识点,请关注公众号的入门必备系列文章 上面是普通的写法,这场景我倾向于使用推导式...即使工作表名字 总结 - pathlib 包中的类 Path 是个处理文件路径的好东西 - Path 的 方法 glob('*.xlsx') ,即可获取一个目录下所有的 Excel 文件 - pd.concat...,合并多个 DataFrame,并且能够自动对齐表头 - 当需要往 DataFrame 添加新列时,可以考虑使用 assign - openpyxl.load_workbook(f).worksheets

    1.5K20

    《Pandas Cookbook》第09章 合并Pandas对象

    # 将两个DataFrame放到一个列表中,用pandas的concat方法将它们连接起来 In[24]: s_list = [stocks_2016, stocks_2017] pd.concat...更多 # append是concat方法的超简化版本,append内部其实就是调用concat。...4. concat, join, 和merge的区别 concat: Pandas函数 可以垂直和水平地连接两个或多个pandas对象 只用索引对齐 索引出现重复值时会报错 默认是外连接(也可以设为内连接...) join: DataFrame方法 只能水平连接两个或多个pandas对象 对齐是靠被调用的DataFrame的列索引或行索引和另一个对象的行索引(不能是列索引) 通过笛卡尔积处理重复的索引值 默认是左连接...# join方法只对齐传入DataFrame的行索引,但可以对齐调用DataFrame的行索引和列索引; # 要使用列做对齐,需要将其传给参数on In[105]: food_transactions.join

    2.4K10

    数据分析之Pandas合并操作总结

    (1)填充对象 可以看出combine方法是按照表的顺序轮流进行逐列循环的,而且自动索引对齐,缺失值为NaN,理解这一点很重要。...③没有返回值,直接在df上操作 (2)例子 例①:索引完全对齐情况下的操作 df1 = pd.DataFrame({'A': [1, 2, 3], 'B': [400, 500, 600]}) df2...highlight=update#pandas.DataFrame.update concat方法 concat方法可以在两个维度上拼接,默认纵向凭借(axis=0),拼接方式默认外连接 所谓外连接,就是取拼接方向的并集...更多参数参考:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?...highlight=concat#pandas.concat merge与join 1. merge函数 merge函数的作用是将两个pandas对象横向合并,遇到重复的索引项时会使用笛卡尔积,默认inner

    5.4K31
    领券