首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据分析——Python数据分析模块

在numpy模块中,除了arrange方法生成数组外,还可以使用 np.zeros((m,n))方法生成m行,n列的0值数组; 使用np.ones((m, n))方法生成m行,n列的填充值为1的数组...创建DataFrame的语句如下: index和columes参数可以指定,当不指定时,从0开始。通常情况下,列索引都会给定,这样每一列数据的属性可以由列索引描述。...方法 功能描述 head(n) / tail(n) 返回数据前/后n行记录,当不给定n时,默认前/后5行 describe() 返回所有数值列的统计信息 max(axis=0) / min(axis =...的值设置为1时,获得各行的平均值/中位数 info() 对所有数据进行简述 isnull() 检测空值,返回一个元素类型为布尔值的DataFrame,当出现空值时返回True,否则返回False dropna...() 删除数据集合中的空值 value_counts 查看某列各值出现次数 count() 对符合条件的统计次数 sort_values() 对数据进行排序,默认升序 sort_index() 对索引进行排序

26210

针对SAS用户:Python数据分析库pandas

解决缺失数据分析的典型SAS编程方法是,编写一个程序使用计数器变量遍历所有列,并使用IF/THEN测试缺失值。 这可以沿着下面的输出单元格中的示例行。...它将.sum()属性链接到.isnull()属性来返回DataFrame中列的缺失值的计数。 .isnull()方法对缺失值返回True。...通过将.sum()方法链接到.isnull()方法,它会生成每个列的缺失值的计数。 ? 为了识别缺失值,下面的SAS示例使用PROC格式来填充缺失和非缺失值。...用于检测缺失值的另一种方法是通过对链接属性.isnull().any()使用axis=1参数逐列进行搜索。 ? ? ? ?...显然,这会丢弃大量的“好”数据。thresh参数允许您指定要为行或列保留的最小非空值。在这种情况下,行"d"被删除,因为它只包含3个非空值。 ? ? 可以插入或替换缺失值,而不是删除行和列。.

12.1K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python数据分析常用模块的介绍与使用

    它由一组有序的列组成,每个列可以是不同的数据类型(数值、字符串、布尔值等)。可以通过行和列的标签进行选择和过滤。...第一列是数据的索引,第二列是数据 示例 当Series数组元素为数值时,可以使用Series对象的describe方法对Series数组的数值进行分析 DataFrame Pandas是一种开源的Python...行 describe() 返回所有数值列的统计信息,即返回DataFrame各列的统计摘要信息,如平均值、最大值、最小值等 max(axis=0) /min(axis = 0) 默认列方向各列的最大/最小值...info() 对所有数据进行简述,即返回DataFrame的信息,包括每列的数据类型和非空值的数量 isnull() 检测空值,返回一个元素类型为布尔值的DataFrame,当出现空值时返回True,...() 对索引进行排序,默认升序 groupby() 对符合条件的数据进行分组统计 sum() 计算列的和 除了这些基本操作之外,Pandas还提供了丰富的功能,如数据过滤、合并、重塑、透视表、数据清洗和处理等

    31910

    Python数据分析笔记——Numpy、Pandas库

    Python数据分析——Numpy、Pandas库 总第48篇 ▼ 利用Python进行数据分析中有两个重要的库是Numpy和Pandas,本章将围绕这两个库进行展开介绍。...上述语句选出的是元素(1,0)、(5,3)、(7,1)、(2,2)。 上述语句按0、3、1、2列的顺序依次显示1、5、7、2行。下述语句能实现同样的效果。...(3)获取DataFrame的值(行或列) 通过查找columns值获取对应的列。(下面两种方法) 通过索引字段ix查找相应的行。 (4)对列进行赋值处理。 对某一列可以赋一个标量值也可以是一组值。...(列从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学和统计运算。大部分都属于约简和汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。...8、值计数 用于计算一个Series中各值出现的次数。 9、层次化索引 层次化索引是pandas的一个重要功能,它的作用是使你在一个轴上拥有两个或多个索引级别。

    6.4K80

    python数据分析——数据的选择和运算

    Python的Pandas库为我们提供了强大的数据选择工具。通过DataFrame的结构化数据存储方式,我们可以轻松地按照行或列进行数据的选择。...关键技术: 二维数组索引语法总结如下: [对行进行切片,对列的切片] 对行的切片:可以有start:stop:step 对列的切片:可以有start:stop:step import pandas...[0,1] 【例3】请使用Python对如下的二维数组进行提取,选择第一行的数据元素并输出。...非空值计数 【例】对于存储在该Python文件同目录下的某电商平台销售数据product_sales.csv,形式如下所示,请利用Python对数据读取,并计算数据集每列非空值个数情况。...进行非空值计数,此时应该如何处理?

    19310

    《Python for Excel》读书笔记连载12:使用pandas进行数据分析之理解数据

    7.Python入门之语句、函数和代码组织 8.NumPy入门 9.使用pandas进行数据分析之核心数据结构——数据框架和系列 10.使用pandas进行数据分析之数据操作 11.使用pandas进行数据分析之组合数据...引言:本文为《Python for Excel》中第5章Chapter 5:Data Analysis with pandas的部分内容,主要讲解了pandas如何对数据进行描述性统计,并讲解了将数据聚合到子集的两种方法...默认情况下,它们返回沿轴axis=0的系列,这意味着可以获得列的统计信息: 如果需要每行的统计信息,使用axis参数: 默认情况下,缺失值不包括在描述性统计信息(如sum或mean)中,这与Excel...在数据框架的所有行中获取统计信息有时不够好,你需要更细粒度的信息,例如,每个类别的均值,这是下面的内容。 分组 再次使用我们的示例数据框架df,让我们找出每个大陆的平均分数。...为此,首先按洲对行进行分组,然后应用mean方法,该方法将计算每组的均值,自动排除所有非数字列: 如果包含多个列,则生成的数据框架将具有层次索引,即我们前面遇到的多重索引: 可以使用pandas提供的大多数描述性统计信息

    4.3K30

    Python pandas十分钟教程

    Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息,介绍如何使用Pandas的不同函数进行数据探索和操作。...df.info():提供数据摘要,包括索引数据类型,列数据类型,非空值和内存使用情况。 df.describe():提供描述性统计数据。...基本使用方法如下: df.loc[:,['Contour']]:选择'Contour'列的所有数据。 其中单冒号:选择所有行。 在逗号的左侧,您可以指定所需的行,并在逗号的右侧指定列。...df.loc[0:4,['Contour']]:选择“Contour”列的0到4行。 df.iloc[:,2]:选择第二列的所有数据。 df.iloc[3,:]:选择第三行的所有数据。...Pandas中提供以下几种方式对数据进行分组。 下面的示例按“Contour”列对数据进行分组,并计算“Ca”列中记录的平均值,总和或计数。

    9.8K50

    如何利用 pandas 根据数据类型进行筛选?

    他的数据大致如下 现在希望分别做如下清洗 “ A列中非字符行 B列中非日期行 C列中数值形式行(包括科学计数法的数值) D列中非整数行 删掉C列中大小在10%-90%范围之外的行 ” 其实本质上都是「...取出所有非整数类型 让我们从第 4 题开始,取出 D 列全部非整数行,其实在 pandas 中可以使用.is_integer() 判断一个元素是否为整数。...取出所有数值类型 第 3 题要求取出 C 列所有数值形式的行。...所以只要我们将该列转换为时间格式(见习题 8-12)就会将不支持转换的格式修改为缺失值 这样在转换后删除确实值即可 取出非字符行 至于第 1 题,我们可以借助 Python 中 isinstance...直接计算该列的指定范围,并多条件筛选即可。 至此我们就成功利用 pandas 根据 数据类型 进行筛选值。其实这些题都在「pandas进阶修炼300题」中有类似的存在。

    1.4K10

    Pandas速查手册中文版

    Series对象的唯一值和计数 df.apply(pd.Series.value_counts):查看DataFrame对象中每一列的唯一值和计数 数据选取 df[col]:根据列名,并以Series的形式返回列...pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组 df.dropna():删除所有包含空值的行 df.dropna(axis=1):删除所有包含空值的列 df.dropna...(axis=1,thresh=n):删除所有小于n个非空值的行 df.fillna(x):用x替换DataFrame对象中所有的空值 s.astype(float):将Series中的数据类型更改为float...):返回按列col1分组的所有列的均值 data.apply(np.mean):对DataFrame中的每一列应用函数np.mean data.apply(np.max,axis=1):对DataFrame...df.corr():返回列与列之间的相关系数 df.count():返回每一列中的非空值的个数 df.max():返回每一列的最大值 df.min():返回每一列的最小值 df.median():返回每一列的中位数

    12.2K92

    Python数据清洗实践

    得到"District"列缺值统计数 看District列,我们想检测该列是否有空值并统计空值的总数。...替换一个指定的非数值型值 我们也可以替换指定位置的值,下面例子是行索引为3。 data.loc[3, 'District'] = 32 # data ?...使用中位数替换缺失值 我们可以使用非数值型值所在列的中位数进行替换,下列中的中位是为3.5。...删除缺值项 如果你只是想简单地排除缺值项,可以用dropna函数配合axis参数进行。缺省情况下,axis=0表示沿横轴(行)删除含有有非数值型字段的任何行。...所以,这意味着4列超过90%的数据相当于“非数”。这些对我们的结果几乎没有影响。 执行上述操作的另一种方法是手动扫描/读取列,并删除对我们的结果影响不大的列。

    1.9K30

    Python开发之Pandas的使用

    一、简介 Pandas 是 Python 中的数据操纵和分析软件包,它是基于Numpy去开发的,所以Pandas的数据处理速度也很快,而且Numpy中的有些函数在Pandas中也能使用,方法也类似。...Pandas 为 Python 带来了两个新的数据结构,即 Pandas Series(可类比于表格中的某一列)和 Pandas DataFrame(可类比于表格)。...6、缺失值(NaN)处理 查找NaN 可以使用isnull()和notnull()函数来查看数据集中是否存在缺失数据,在该函数后面添加sum()函数来对缺失数量进行统计。...除此之外,还可以使用count()函数对非NaN数据进行统计计数。...how = 'all')#只删除所有数据缺失的列 #删除重复值 drop_duplicates(inplace = True) #更改某行/列/位置数据 用iloc或者loc直接替换修改即可 #更改数据类型

    2.9K10

    Python数据清洗实践

    得到"District"列缺值统计数 看District列,我们想检测该列是否有空值并统计空值的总数。...替换一个指定的非数值型值 我们也可以替换指定位置的值,下面例子是行索引为3。 data.loc[3, 'District'] = 32 # data ?...使用中位数替换缺失值 我们可以使用非数值型值所在列的中位数进行替换,下列中的中位是为3.5。...删除缺值项 如果你只是想简单地排除缺值项,可以用dropna函数配合axis参数进行。缺省情况下,axis=0表示沿横轴(行)删除含有有非数值型字段的任何行。...所以,这意味着4列超过90%的数据相当于“非数”。这些对我们的结果几乎没有影响。 执行上述操作的另一种方法是手动扫描/读取列,并删除对我们的结果影响不大的列。

    2.3K20

    最全面的Pandas的教程!没有之一!

    在使用这个函数的时候,你需要先指定具体的删除方向,axis=0 对应的是行 row,而 axis=1 对应的是列 column 。 删除 'Birth_year' 列: ? 删除 'd' 行: ?...请注意,如果你没有指定 axis 参数,默认是删除行。 删除列: ? 类似的,如果你使用 .fillna() 方法,Pandas 将对这个 DataFrame 里所有的空值位置填上你指定的默认值。...比如,将表中所有 NaN 替换成 20 : ? 当然,这有的时候打击范围太大了。于是我们可以选择只对某些特定的行或者列进行填充。比如只对 'A' 列进行操作,在空值处填入该列的平均值: ?...上面的结果中,Sales 列就变成每个公司的分组平均数了。 计数 用 .count() 方法,能对 DataFrame 中的某个元素出现的次数进行计数。 ?...除了列出所有不重复的值,我们还能用 .nunique() 方法,获取所有不重复值的个数: ? 此外,还可以用 .value_counts() 同时获得所有值和对应值的计数: ?

    26K64

    快乐学习Pandas入门篇:Pandas基础

    索引对齐特性 这是Pandas中非常强大的特性,在对多个DataFrame 进行合并或者加减乘除操作时,行和列的索引都重叠的时候才能进行相应操作,否则会使用NA值进行填充。...可以指定n参数显示多少行 df.head()df.tail()df.head(6) 2. unique & nunique unique显示所有的唯一值是什么;nunique显示有多少个唯一值。...4. describe & info info() 函数返回有哪些列、有多少非缺失值、每列的类型;describe() 默认统计数值型数据的各个统计量,可以自行选择分位数位置。...对于Series,它可以迭代每一列的值(行)操作;对于DataFrame,它可以迭代每一个列操作。 # 遍历Math列中的所有值,添加!...答:df.mean(axis=1)意思是对df按列求均值;axis = 0表示保持列标签不变,对行进行操作;axis = 1表示保持行标签不变,对列进行操作。

    2.4K30

    高效的5个pandas函数,你都用过吗?

    之前为大家介绍过10个高效的pandas函数,颇受欢迎,里面的每一个函数都能帮我们在数据分析过程中节省时间。 高效的10个Pandas函数,你都用过吗?...比如说dataframe中某一行其中一个元素包含多个同类型的数据,若想要展开成多行进行分析,这时候explode就派上用场,而且只需一行代码,非常节省时间。...Nunique Nunique用于计算行或列上唯一值的数量,即去重后计数。这个函数在分类问题中非常实用,当不知道某字段中有多少类元素时,Nunique能快速生成结果。...列进行唯一值计数: df.year.nunique() 输出:10 对整个dataframe的每一个字段进行唯一值计数: df.nunique() 3. infer_objects infer_objects...用法: DataFrame.memory_usage(index=True, deep=False) 参数解释: index:指定是否返回df中索引字节大小,默认为True,返回的第一行即是索引的内存使用情况

    1.2K40

    DataFrame和Series的使用

    DataFrame和Series是Pandas最基本的两种数据结构 可以把DataFrame看作由Series对象组成的字典,其中key是列名,值是Series Series和Python...中的列表非常相似,但是它的每个元素的数据类型必须相同 创建 Series 的最简单方法是传入一个Python列表 import pandas as pd s = pd.Series([ ' banana...= data.loc[941] first_row 3.可以通过 index 和 values属性获取行索引和值 first_row.values # 获取Series中所有的值, 返回的是np.ndarray...[:,[0,2,4,-1]] df.iloc[:,0:6:2] # 所有行, 第0 , 第2 第4列 可以通过行和列获取某几个格的元素 分组和聚合运算 先将数据分组 对每组的数据再去进行统计计算如...Series的唯一值计数 # 可以使用 value_counts 方法来获取Pandas Series 的频数统计 df.groupby(‘continent’) → dataframeGroupby

    10910

    首次公开,用了三年的 pandas 速查表!

    本文收集了 Python 数据分析库 Pandas 及相关工具的日常使用方法,备查,持续更新中。...返回所有行的均值,下同 df.corr() # 返回列与列之间的相关系数 df.count() # 返回每一列中的非空值的个数 df.max() # 返回每一列的最大值 df.min() # 返回每一列的最小值...最小 df.columns # 显示所有列名 df.team.unique() # 显示列中的不重复值 # 查看 Series 对象的唯一值和计数, 计数占比: normalize=True s.value_counts...df.drop([0, 10], axis=0) # 删除行 del df['name'] # 删除列 df.dropna() # 删除所有包含空值的行 df.dropna(axis=1) # 删除所有包含空值的列...df.dropna(axis=1,thresh=n) # 删除所有小于 n 个非空值的行 df.fillna(x) # 用x替换DataFrame对象中所有的空值 df.fillna(value={'

    7.5K10

    Pandas速查卡-Python数据科学

    它不仅提供了很多方法和函数,使得处理数据更容易;而且它已经优化了运行速度,与使用Python的内置函数进行数值数据处理相比,这是一个显著的优势。...如果你对pandas的学习很感兴趣,你可以参考我们的pandas教程指导博客(http://www.dataquest.io/blog/pandas-python-tutorial/),里面包含两大部分的内容...) 所有列的唯一值和计数 选择 df[col] 返回一维数组col的列 df[[col1, col2]] 作为新的数据框返回列 s.iloc[0] 按位置选择 s.loc['index_one'] 按索引选择...=n) 删除所有小于n个非空值的行 df.fillna(x) 用x替换所有空值 s.fillna(s.mean()) 将所有空值替换为均值(均值可以用统计部分中的几乎任何函数替换) s.astype(float...df.describe() 数值列的汇总统计信息 df.mean() 返回所有列的平均值 df.corr() 查找数据框中的列之间的相关性 df.count() 计算每个数据框的列中的非空值的数量 df.max

    9.2K80

    6-比较掩码布尔

    当您要基于某些条件提取,修改,计数或以其他方式操纵数组中的值时,就会出现屏蔽:例如,您可能希望对大于某个值的所有值进行计数,或者可能删除高于某个值的所有异常值阈。...挖掘详细数据 一种解决方法是手动解决这些问题:遍历数据,每当我们看到某个所需范围内的值时就增加一个计数器。出于本章所讨论的原因,从时间和计算结果的角度来看,这种方法都效率很低。...sum汇总的一个好处是可以根据行或者列来汇总 # 根据列汇总 In [45]: np.sum(x0) Out[45]: array([3, 1, 1]) np.any 和 np.all...: #根据test的索引对应x数组选择True的值 In [71]: x[test] Out[71]: array([1, 0, 0]) 应用到上面统计下雨天的例子中 # construct a mask...易混淆 当使用&和|在整数上,表达式对元素的位进行运算。当使用and或or时,等效于要求Python将对象视为单个布尔实体。在Python中,所有非零整数都将评估为True。

    1.4K00
    领券