首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你做一个“渣”数据师,用Python代替老情人Excel

1、从“头”到“脚” 查看第一行或最后五行。默认值为5,也可以自定义参数。 ? 2、查看特定列的数据 ? 3、查看所有列的名字 ? 4、查看信息 查看DataFrame的数据属性总结: ?...Python提供了许多不同的方法来对DataFrame进行分割,我们将使用它们中的几个来了解它是如何工作的。...如果想要用特定值查看整个DataFrame,可以使用drop_duplicates函数: ? 15、排序 对特定列排序,默认升序: ?...五、数据计算 1、计算某一特定列的值 输出结果是一个系列。称为单列数据透视表: ? 2、计数 统计每列或每行的非NA单元格的数量: ? 3、求和 按行或列求和数据: ? 为每行添加总列: ?...有四种合并选项: left——使用左侧DataFrame中的共享列并匹配右侧DataFrame,N/A为NaN; right——使用右侧DataFrame中的共享列并匹配左侧DataFrame,N/A为

8.4K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    30 个小例子帮你快速掌握Pandas

    inplace参数设置为True以保存更改。我们删除了4列,因此列数从14减少到10。 2.读取时选择特定的列 我们只打算读取csv文件中的某些列。读取时,列列表将传递给usecols参数。...选择特定的列 3.读取DataFrame的一部分行 read_csv函数允许按行读取DataFrame的一部分。有两种选择。第一个是读取前n行。...如果我们将groupby函数的as_index参数设置为False,则组名将不会用作索引。 16.带删除的重置索引 在某些情况下,我们需要重置索引并同时删除原始索引。...17.设置特定的列作为索引 我们可以将DataFrame中的任何列设置为索引。 df_new.set_index('Geography') ?...method参数指定如何处理具有相同值的行。first表示根据它们在数组(即列)中的顺序对其进行排名。 21.列中唯一值的数量 使用分类变量时,它很方便。我们可能需要检查唯一类别的数量。

    10.8K10

    Pandas Sort:你的 Python 数据排序指南

    行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。...与 using 的不同之处.sort_values()在于您是根据其行索引或列名称对 DataFrame 进行排序,而不是根据这些行或列中的值: DataFrame 的行索引在上图中以蓝色标出。...如果要按升序对某些列进行排序,并按降序对某些列进行排序,则可以将布尔值列表传递给ascending....Y Manual 5-spd 1993 [100 rows x 10 columns] 您已经创建了一个使用多个值排序的 DataFrame。请注意行索引是如何没有特定顺序的。...对 DataFrame 的列进行排序 您还可以使用 DataFrame 的列标签对行值进行排序。使用设置为.sort_index()的可选参数将按列标签对 DataFrame 进行排序。

    14.3K00

    python对100G以上的数据进行排序,都有什么好的方法呢

    行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。...与 using 的不同之处.sort_values()在于您是根据其行索引或列名称对 DataFrame 进行排序,而不是根据这些行或列中的值: DataFrame 的行索引在上图中以蓝色标出。...如果要按升序对某些列进行排序,并按降序对某些列进行排序,则可以将布尔值列表传递给ascending....Y Manual 5-spd 1993 [100 rows x 10 columns] 您已经创建了一个使用多个值排序的 DataFrame。请注意行索引是如何没有特定顺序的。...对 DataFrame 的列进行排序 您还可以使用 DataFrame 的列标签对行值进行排序。使用设置为.sort_index()的可选参数将按列标签对 DataFrame 进行排序。

    10K30

    Pandas非常用技巧汇总

    a 3 3 b 3 4 a 4 5 b 5 我们按照A列中的分组进行聚合,并对B列进行求和,正常情况下我们会得到一个Series,而A列的内容被加入了索引中。...B C 0 g1 3 1 1 g1 2 2 2 g2 3 1 3 g2 4 3 4 g1 2 4 假设我们希望根据A列中的分组,对B列进行求和,而对C列求均值。...A列中有某些值不在字典中,这些值会变成NaN,如下所示: df = pd.DataFrame({'A': ['a', 'b', 'a', 'b', 'a', 'b', 'c', 'd'], 'B': [...中的参数method我们设为"dense",意味着无论有多少并列,我们的排名数始终为1、2、3……而不会因为并列而跳过某些值 如果要选择第三小的值: df[df['A'].rank(method='dense...,间隔为3天; (2)然后我们选取df的date列中存在于上述日期索引的行。

    52250

    pandas 缺失数据处理大全

    本次来介绍关于缺失值数据处理的几个常用方法。 一、缺失值类型 在pandas中,缺失数据显示为NaN。缺失值有3种表示方法,np.nan,none,pd.NA。...了解了缺失值的几种形式后,我们要知道如何判断缺失值。...对于一个dataframe而言,判断缺失的主要方法就是isnull()或者isna(),这两个方法会直接返回True和False的布尔值。可以是对整个dataframe或者某个列。...三、缺失值统计 1、列缺失 一般我们会对一个dataframe的列进行缺失统计,查看每个列有多少缺失,如果缺失率过高再进行删除或者插值等操作。...1、加法 df >>A B C D 0 a1 b1 1 5.0 1 a1 None 2 NaN 2 a2 b2 3 9.0 3 a3 b3 4 10.0 --------------- # 对所有列求和

    48020

    数据科学 IPython 笔记本 7.7 处理缺失数据

    在标记方法中,标记值可能是某些特定于数据的惯例,例如例如使用-9999或某些少见的位组合来表示缺失整数值,或者它可能是更全局的惯例,例如使用NaN(非数字)表示缺失浮点值,这是一个特殊值,它是 IEEE...例如,如果我们将整数数组中的值设置为np.nan,它将自动向上转换为浮点类型来兼容 NA: x = pd.Series(range(2), dtype=int) x ''' 0 0 1 1...(axis='columns') 2 0 2 1 5 2 6 但这也会丢掉一些好的数据; 你可能更愿意删除全部为 NA 值或大多数为 NA 值的行或列。...你也可以指定how ='all',它只会丢弃全部为空值的行/列: df[3] = np.nan df 0 1 2 3 0 1.0 NaN 2 NaN 1 2.0 3.0 5 NaN 2 NaN 4.0...参数允许你为要保留的行/列指定最小数量的非空值: df.dropna(axis='rows', thresh=3) 0 1 2 3 1 2.0 3.0 5 NaN 这里删除了第一行和最后一行,因为它们只包含两个非空值

    4.1K20

    快速介绍Python数据分析库pandas的基础知识和代码示例

    我们可以通过df[:10].to_csv()保存前10行。我们还可以使用df.to_excel()保存和写入一个DataFrame到Excel文件或Excel文件中的一个特定表格。...要检查panda DataFrame中的空值,我们使用isnull()或notnull()方法。方法返回布尔值的数据名,对于NaN值为真。...sort_values ()可以以特定的方式对pandas数据进行排序。...通常回根据一个或多个列的值对panda DataFrame进行排序,或者根据panda DataFrame的行索引值或行名称进行排序。 例如,我们希望按学生的名字按升序排序。...我们将调用pivot_table()函数并设置以下参数: index设置为 'Sex',因为这是来自df的列,我们希望在每一行中出现一个唯一的值 values值为'Physics','Chemistry

    8.1K20

    最全面的Pandas的教程!没有之一!

    此外,你还可以制定多行和/或多列,如上所示。 条件筛选 用中括号 [] 的方式,除了直接指定选中某些列外,还能接收一个条件语句,然后筛选出符合条件的行/列。...交叉选择行和列中的数据 我们可以用 .xs() 方法轻松获取到多级索引中某些特定级别的数据。比如,我们需要找到所有 Levels 中,Num = 22 的行: ?...在 DataFrame 中缺少数据的位置, Pandas 会自动填入一个空值,比如 NaN或 Null 。...比如,将表中所有 NaN 替换成 20 : ? 当然,这有的时候打击范围太大了。于是我们可以选择只对某些特定的行或者列进行填充。比如只对 'A' 列进行操作,在空值处填入该列的平均值: ?...在上面的例子中,数据透视表的某些位置是 NaN 空值,因为在原数据里没有对应的条件下的数据。

    26K64

    Python 金融编程第二版(二)

    对 C-ordered ndarray 对象的求和在行和列上都更快(绝对速度优势)。 使用 C-ordered(行优先)ndarray 对象,对行求和相对比对列求和更快。...使用 F-ordered(列优先)ndarray 对象,对列求和相对比对行求和更快。 结论 NumPy 是 Python 中数值计算的首选包。...② 对指定的两列计算标准差(忽略具有NaN值的行)。 DataFrame 类的第二步 本小节中的示例基于具有标准正态分布随机数的ndarray对象。...② 检查x列中的值是否为正且y列中的值是否为负。 ③ 检查x列中的值是否为正或y列中的值是否为负。 使用结果布尔Series对象,复杂数据(行)的选择很简单。...② 所有x列的值为正且y列的值为负的行。 ③ 所有列中 x 的值为正或列中 y 的值为负的所有行(这里通过各自的属性访问列)。 比较运算符也可以一次应用于完整的 DataFrame 对象。

    20310

    Pandas数据分析包

    Series的字符串表现形式为:索引在左边,值在右边。...,key为列的名字。')...对DataFrame进行索引其实就是获取一个或多个列 为了在DataFrame的行上进行标签索引,引入了专门的索引字段ix。 ?...比如 DataFrame.mean(axis=0,skipna=True) 方法,当数据集中存在 NA 值时,这些值会被简单跳过,除非整个切片(行或列)全是 NA,如果不想这样,则可以通过 skipna...如果两个 变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也 大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变 化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望

    3.1K71

    【Pandas教程】像写SQL一样用Pandas~

    dataframe,注意差别 data[['City']].head() # 筛选多列 data[['City','Country']].head() 筛选行 SQL sql本身并不支持筛选特定行,不过可以通过函数排序生成虚拟列来筛选...其实我一开始对这两个方法很容易混淆,其实后面发现很好区分,如果需要用列名来筛选,请用loc,如果使用列索引,请用iloc。...行的奇数行,2到10列中每隔3列取一列 data.iloc[1:10:2,2:10:3] # 筛选第2和第4行,第3和第5列 data.iloc[[2,4],[3,5]] 根据条件筛选 SQL select...; left_on:left中的连接键; right_on:right中的连接键; left_index/right_index:默认为False,如果为True则使用索引作为连接的键。...自定义函数 Pandas中内置很多常用的方法,譬如求和,最大值等等,但很多时候还是满足不了需求,我们需要取调用自己的方法,Pandas中可以使用map()和apply()来调用自定义的方法,需要注意下map

    2.3K30

    python数据分析——数据的选择和运算

    Python的Pandas库为我们提供了强大的数据选择工具。通过DataFrame的结构化数据存储方式,我们可以轻松地按照行或列进行数据的选择。...数据获取 ①列索引取值 使用单个值或序列,可以从DataFrame中索引出一个或多个列。...代码和输出结果如下所示: (3)使用“how”参数合并 关键技术:how参数指定如何确定结果表中包含哪些键。如果左表或右表中都没有出现组合键,则联接表中的值将为NA。...代码如下: 【例】输出结果不展示行索引。 关键技术:如果DataFrame行索引和当前分析工作无关且不需要展示,需要将ignore_index设置为True。...可以采用求和函数sum(),设置参数axis为0,则表示按纵轴元素求和,设置参数axis为1,则表示按横轴元素求和,程序代码如下所示: 均值运算 在Python中通过调用DataFrame对象的mean

    19310

    熟练掌握 Pandas 透视表,数据统计汇总利器

    ", index="要作为行索引的列或列的列表", columns="要作为列索引的列或列的列表", aggfunc="用于聚合数据的函数或函数列表,默认是 numpy.mean...", fill_value="填充缺失值的标量值", margins="布尔值,是否添加行和列的总计,默认是 False", margins_name="总计行和列的名称,默认是...All", dropna="布尔值,是否删除所有结果为全 NaN 的列,默认是 True", observed="布尔值,对于分类列,是否只显示实际出现的类别,默认是 False",...透视表代码实现如下: # 对 Sales 进行求和操作,行索引是Region,列索引是各个 Product, # 对行和列增加统计 total In [56]: pd.pivot_table(df,...130.0 NaN 340 Total 680.0 330.0 300.0 1310 pivot_table 还支持多个行索引和列,例如行索引是 Region 和 Product

    42700

    盘点66个Pandas函数,轻松搞定“数据清洗”!

    describe方法默认只给出数值型变量的常用统计量,要想对DataFrame中的每个变量进行汇总统计,可以将其中的参数include设为all。...df.sample(3) 输出: 如果要检查数据中各列的数据类型,可以使用.dtypes;如果想要值查看所有的列名,可以使用.columns。...df.shape 输出: (5, 2) 另外,len()可以查看某列的行数,count()则可以查看该列值的有效个数,不包含无效值(Nan)。...此外,isnull().any()会判断哪些”列”存在缺失值,isnull().sum()用于将列中为空的个数统计出来。...如果想直接筛选包含特定字符的字符串,可以使用contains()这个方法。 例如,筛选户籍地址列中包含“黑龙江”这个字符的所有行。

    3.8K11
    领券