首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python~Pandas 小白避坑之常用笔记

、异常值处理、按行、按列剔除 1.重复值统计、剔除: import pandas as pd sheet1 = pd.read_csv(filepath_or_buffer='long-customer-train.csv...重复列数:", duplicated_num) 2.缺失值统计、剔除: dropna()参数介绍: axis:0(对行数据进行剔除)、1(对列数据进行剔除),默认为0 how:any(行中有任意一个空值则剔除...print("缺失值行数:", all_null) sheet1.dropna(axis=0, how='any', inplace=True) # 剔除每行任一个为空值的数据 all_null =...sheet1.isnull().sum(axis=0).sum() # 统计所有的缺失值行数 print("剔除后的缺失值行数:", all_null) 3.遍历pandas对象进行异常值剔除、...修改 需求:“Age”列存在数值为-1、0 和“-”的异常值,删除存在该情况的行数据;“Age”列存在空格和“岁”等异常字符,删除这些异常字符但须保留年龄数值 import pandas as pd

3.1K30

Pandas 25 式

目录 查看 pandas 及其支持项的版本 创建 DataFrame 重命名列 反转行序 反转列序 按数据类型选择列 把字符串转换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...操控缺失值 把字符串分割为多列 把 Series 里的列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合的输出结果 选择行与列 重塑多重索引 Series 创建透视表...这里要注意的是,字符串里的字符数量必须与 DataFrame 的列数一致。 3. 重命名列 ? 用点(.)选择 pandas 里的列写起来比较容易,但列名里有空格,就没法这样操作了。...用 dropna() 删除列里的所有缺失值。 ? 只想删除列中缺失值高于 10% 的缺失值,可以设置 dropna() 里的阈值,即 threshold. ? 16....按性别(Sex)统计男女的幸存率,需要使用 groupby()。 ? 要按性别与舱型(Pclass)统计幸存率,就要按性别与舱型进行 groupby()。 ?

8.4K00
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

    操控缺失值 把字符串分割为多列 把 Series 里的列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合的输出结果 选择行与列 重塑多重索引 Series 创建透视表...这里要注意的是,字符串里的字符数量必须与 DataFrame 的列数一致。 3. 重命名列 ? 用点(.)选择 pandas 里的列写起来比较容易,但列名里有空格,就没法这样操作了。...用 dropna() 删除列里的所有缺失值。 ? 只想删除列中缺失值高于 10% 的缺失值,可以设置 dropna() 里的阈值,即 threshold. ? 16....把字符串分割为多列 创建一个 DataFrame 示例。 ? 把姓名列分为姓与名两列,用 str.split() 方法,按空格分割,并用 expand 关键字,生成一个新的 DataFrame。 ?...按性别(Sex)统计男女的幸存率,需要使用 groupby()。 ? 要按性别与舱型(Pclass)统计幸存率,就要按性别与舱型进行 groupby()。 ?

    7.2K20

    【数据结构】数组和字符串(八):稀疏矩阵的链接存储:十字链表的创建、插入元素、遍历打印(按行、按列、打印矩阵)、销毁

    4.2.1 矩阵的数组表示 【数据结构】数组和字符串(一):矩阵的数组表示 4.2.2 特殊矩阵的压缩存储   矩阵是以按行优先次序将所有矩阵元素存放在一个一维数组中。...对角矩阵的压缩存储 【数据结构】数组和字符串(二):特殊矩阵的压缩存储:对角矩阵——一维数组 b~c....三角、对称矩阵的压缩存储 【数据结构】数组和字符串(三):特殊矩阵的压缩存储:三角矩阵、对称矩阵——一维数组 d....稀疏矩阵的压缩存储——三元组表 【数据结构】数组和字符串(四):特殊矩阵的压缩存储:稀疏矩阵——三元组表 4.2.3三元组表的转置、加法、乘法、操作 【数据结构】数组和字符串(七):特殊矩阵的压缩存储:...,并将行数和列数存储在结构体的相应字段中。

    24110

    Pandas三百题

    ("max_rows") pd.reset_option("max_columns") 4 修改每列最大字符宽度 即每列最多显示的字符长度,例如【每列最多显示10个字符,多余的会变成...】 pd.set_option...df.info() 5-查看数据统计信息|数值 查看数值型列的统计信息,计数,均值 df.describe().round(2).T 6-查看数据统计信息|离散 查看离散型列的统计信息,计数,频率 df.describe...) df.drop(df[df.金牌数<20].index) 19-数据删除|删除列 df.drop(columns=['比赛地点']) 20-数据删除|删除列(按列号) 删除df的7,8,9,10列...提取 金牌数、银牌数、铜牌数 三列 df[['金牌数','银牌数','铜牌数']] 23-筛选列|条件(列号) df.iloc[:,[i%2==1 for i in df.shape[1]]] 24-...日本五行数据 df[df['国家奥委会'].isin(['中国','美国','英国','日本','巴西'])]​ 35-筛选行|多条件 在上一题的条件下,新增一个条件:金牌数小于30 df[(df['国家奥委会

    4.8K22

    awk从0学习,这一篇就够了

    ②它可以读取一个或多个文本文件,并执行模式扫描和处理等指定的操作。 ③基本逻辑涉及数据的提取,排序和计算。 ④支持复杂的条件语句。 1.2 awk的安装和运行?...常用的格式说明符包括: %s:字符串 %d:十进制整数 %f:浮点数 %c:字符 %x:十六进制数 %o:八进制数 %b:二进制数 %e:科学计数法表示的浮点数 注:%s %c %d %f 都是格式替代符...2.基本操作 2.1打印和格式化输出 ①使用print打印文本 例:打印每行的第3哥和第6个字段 awk '{print $3,$6}' output.txt ②使用printf格式化输出 例:格式化输出每行的第...例:计算每行字符串的长度 awk '{print $0, "Length:", length($0)}' input.txt 4.2 用户自定义函数 ①学习如何定义和调用自定义函数。...+) sum[i] += $i} END {for(i=1; i<=NF; i++) print "Column", i, "Sum:", sum[i]}' file1.csv file2.csv ⑥按列统计文本文件中每个单词的频率

    23110

    利用Pandas库实现Excel条件格式自动化

    70以上同色) 我们可以看到以上对于缺失值来说,其背景色是黑色,我们可以通过链式方法和高亮缺失值对缺失值背景色进行修改 3.2....formatter 显示格式 subset用于指定操作的列或行 na_rep用于指定缺失值的格式 precision用于指定浮点位数 decimal用于用作浮点数、复数和整数的十进制分隔符的字符,默认是.... thousands用作浮点数、复数和整数的千位分隔符的字符 escape用于特殊格式输出(如html、latex等,这里不做展开,可参考官网) 比如,我们给数据加上单位枚,缺失值显示为无 设置小数点位数为...此方法根据axis关键字参数一次传递一个或整个表的 DataFrame 的每一列或行。对于按列使用axis=0、按行使用axis=1,以及一次性使用整个表axis=None。...比如,我们定义一个函数,如果金牌数数,则高亮金牌数这一列对应的值 比如,我们还可以定义函数,如果金牌数数,则这一行数据都高亮 又或者,我们可以根据不同的比值对每行进行不同的高亮 关于以上函数的写法

    6.3K41

    对比Excel,一文掌握Pandas表格条件格式(可视化)

    70以上同色) 我们可以看到以上对于缺失值来说,其背景色是黑色,我们可以通过链式方法和高亮缺失值对缺失值背景色进行修改 3.2....formatter 显示格式 subset用于指定操作的列或行 na_rep用于指定缺失值的格式 precision用于指定浮点位数 decimal用于用作浮点数、复数和整数的十进制分隔符的字符,默认是.... thousands用作浮点数、复数和整数的千位分隔符的字符 escape用于特殊格式输出(如html、latex等,这里不做展开,可参考官网) 比如,我们给数据加上单位枚,缺失值显示为无 设置小数点位数为...此方法根据axis关键字参数一次传递一个或整个表的 DataFrame 的每一列或行。对于按列使用axis=0、按行使用axis=1,以及一次性使用整个表axis=None。...比如,我们定义一个函数,如果金牌数数,则高亮金牌数这一列对应的值 比如,我们还可以定义函数,如果金牌数数,则这一行数据都高亮 又或者,我们可以根据不同的比值对每行进行不同的高亮 关于以上函数的写法

    5.1K20

    awk命令详解

    文件名 2.2.内置变量 awk语法由一系列条件和动作组成,在花括号内可以有多个动作,多个动作之间用分号分隔,在多个条件和动作之间可以有若干空格,也可以没有。...NF}' #输出每行数据的列数 awk '{print $NF}' /tmp/hosts #打印每行数据的最后一列 awk '{print $(NF-1)}' /tmp/hosts #打印每行倒数第二列.../hosts 2.8.条件匹配 awk支持使用正则进行模糊匹配,也支持字符串和数字的精确匹配,并且支持逻辑与和逻辑或。...'BEGIN{srand(22);print rand()}' #使用数值做随机数种子 5.3.内置字符串函数 length([s])函数 可以统计字符串s的长度,如果不指定字符串s则统计$0的长度...) 将字符串按特定的分隔符切片后存储在数组中,如果没指定分隔符,则使用IFS定义的。

    2.4K30

    Python数据分析笔记——Numpy、Pandas库

    2、DataFrame (1)概念: DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。...(索引相同的进行算数运算,索引不同的被赋予空值) 4、排序和排名 根据某种条件对数据集进行排序。...obj.rank() (2)DataFrame数据结构的排序和排名 按索引值进行排列,一列或多列中的值进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...(列从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用的数学和统计运算。大部分都属于约简和汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。...相当于Excel中vlookup函数的多条件查找中的多条件。 对于层次化索引对象,选取数据的方式可以通过内层索引,也可以通过外层索引来选取,选取方式和单层索引选取的方式一致。

    6.4K80

    R语言数据框深度解析:从创建到数据操作,一文掌握核心技能

    数据框由不同的行和列构成,不同的列可以是不同类型(数值型、字符型、逻辑型等)的数据,比如可以其中一列是数值型,另一列是逻辑型,另一列是字符型,等。但是同一列中必须是相同的类型。...代码会创建一个数据框,这个数据框有4列,第一列的名字是Name,是字符型;第二列的名字是Age,是数值型;第三列的名字是Gender,是字符型;第4列的名字是Score,是数值型。...# 数据统计摘要 dim(df) # 数据框的行和列数 read.csv()函数是 R 的基础函数,功能强大,但对于文件的要求较为严格,比如:文件必须是 CSV 格式(用逗号分隔的数据);文件的分隔符必须是逗号...1列和第3列 df[1:3, ] # 获取前 3 行 df[, c("Name", "Score")] # 获取指定列 df[df$Score > 85, ] # 条件筛选 添加与删除列 df$Pass...拼接行:把行拼起来,也就是对多个数据框垂直堆叠,也就是在一个数据框的下方添加另一个数据框,要求列数相同。

    17010

    我用Python展示Excel中常用的20个操

    Pandas 在Pandas中,可直接对数据框进行条件筛选,例如同样进行单个条件(薪资大于5000)的筛选可以使用df[df['薪资水平']>5000],如果使用多个条件的筛选只需要使用&(并)与|(或...缺失值处理 说明:对缺失值(空值)按照指定要求处理 Excel 在Excel中可以按照查找—>定位条件—>空值来快速定位数据中的空值,接着可以自己定义缺失值的填充方式,比如将缺失值用上一个数据进行填充...],inplace=True),可以发现和Excel处理的结果一致,保留了 629 个唯一值。...数据拆分 说明:将一列按照规则拆分为多列 Excel 在Excel中可以通过点击数据—>分列并按照提示的选项设置相关参数完成分列,但是由于该列含有[]等特殊字符,所以需要先使用查找替换去掉 ?...数据抽样 说明:对数据按要求采样 Excel 在Excel中抽样可以使用公式也可以使用分析工具库中的抽样,但是仅支持对数值型的列抽样,比如随机抽20个示例数据中薪资的样本 ?

    5.6K10

    【Python基础系列】常见的数据预处理方法(附代码)

    ,'r') #打开大文件 i = 0 #设置计数器 #这里1234567表示文件行数,如果不知道行数可用每行长度等其他条件来判断 while i<1234567 : with open('newfile...[0]是行数,data.shape[1]是列数 data.describe() #查看数据的大体情况,均值,最值,分位数值... data.columns.tolist() #得到列名的list 2...,为了更好的分析,一般会对这些缺失数据进行识别和处理 2.1 缺失值查看 print(data.isnull().sum()) #统计每列有几个缺失值 missing_col = data.columns...[data.isnull().any()].tolist() #找出存在缺失值的列 import numpy as np #统计每个变量的缺失值占比 def CountNA(data): cols...目标列',1) y_train = train_data['目标列'] y_test = test_data['目标列'] 6、数据规范化 数据的标准化(normalization)是将数据按比例缩放,

    18.7K58

    Pandas常用命令汇总,建议收藏!

    # 用于显示数据的前n行 df.head(n) # 用于显示数据的后n行 df.tail(n) # 用于获取数据的行数和列数 df.shape # 用于获取数据的索引、数据类型和内存信息 df.info...] # 根据条件选择数据框中的行和列 df.loc[df['column_name'] > 5, ['column_name1', 'column_name2']] / 04 / 数据清洗 数据清洗是数据预处理阶段的重要步骤...# 检查缺失值 df.isnull() # 删除有缺失值的行 df.dropna() # 用特定值填充缺失值 df.fillna(value) # 插入缺失值 df.interpolate()...df1, df2, on='A', how='right') / 07 / Pandas中的统计 Pandas提供了广泛的统计函数和方法来分析DataFrame或Series中的数据。...# 计算数值列的描述性统计 df.describe() # 计算某列的总和 df['column_name'].sum() # 计算某列的平均值 df['column_name'].mean()

    49910

    Pandas模块的基础操作-学习笔记

    切片 切片操作左闭右开 # 切第8行-13行,第2、3列 HS300_excel1.iloc[7:13, 1:3] 条件筛选切片 # 筛选收盘价大于4300的数据 HS300_excel1[HS300...数据框的修改 修改列名 HS300_colchange = HS300_excel1.rename(columns={'收盘点位': '收盘价格_改'}) 缺失值的处理 一种是删除,即删除有缺失值的行..._excel1, HS300_excel2], axis=0) #按行,上下拼接 stock_new = pd.concat([stock2, stock],axis=1) # 按列,左右拼接...常用静态统计函数 ? ? ? ? ? 2. 移动窗口与动态统计函数 时间点的数据往往波动较大,因此某一时间点的数据通常不能很好的反馈数据本身的特性,因此就需要用一段时间区间的数据进行描述。...数据框.rolling(window=窗口数, axis=0 或 1).统计量函数(axis=0 或 1) 移动平均 HS300_meanclose = HS300_new['收盘点位'].rolling

    45710
    领券