首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python~Pandas 小白避坑之常用笔记

、异常值处理、行、剔除 1.重复值统计、剔除: import pandas as pd sheet1 = pd.read_csv(filepath_or_buffer='long-customer-train.csv...重复列:", duplicated_num) 2.缺失统计、剔除: dropna()参数介绍: axis:0(对行数据进行剔除)、1(对数据进行剔除),默认为0 how:any(行中有任意一个空值则剔除...print("缺失值行数:", all_null) sheet1.dropna(axis=0, how='any', inplace=True) # 剔除每行任一个为空值数据 all_null =...sheet1.isnull().sum(axis=0).sum() # 统计所有的缺失值行数 print("剔除后缺失值行数:", all_null) 3.遍历pandas对象进行异常值剔除、...修改 需求:“Age”存在数值为-1、0 “-”异常值,删除存在该情况行数据;“Age”存在空格“岁”等异常字符,删除这些异常字符但须保留年龄数值 import pandas as pd

3.1K30

Pandas 25 式

目录 查看 pandas 及其支持项版本 创建 DataFrame 重命名列 反转行序 反转列序 数据类型选择字符串转换为数值 优化 DataFrame 大小 用多个文件建立 DataFrame...操控缺失值 把字符串分割为多 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择行与 重塑多重索引 Series 创建透视表...这里要注意是,字符串里字符数量必须与 DataFrame 一致。 3. 重命名列 ? 用点(.)选择 pandas 里写起来比较容易,但列名里有空格,就没法这样操作了。...用 dropna() 删除所有缺失值。 ? 只想删除缺失值高于 10% 缺失值,可以设置 dropna() 里阈值,即 threshold. ? 16....性别(Sex)统计男女幸存率,需要使用 groupby()。 ? 要按性别与舱型(Pclass)统计幸存率,就要按性别与舱型进行 groupby()。 ?

8.4K00
您找到你想要的搜索结果了吗?
是的
没有找到

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

操控缺失值 把字符串分割为多 把 Series 里列表转换为 DataFrame 用多个函数聚合 用一个 DataFrame 合并聚合输出结果 选择行与 重塑多重索引 Series 创建透视表...这里要注意是,字符串里字符数量必须与 DataFrame 一致。 3. 重命名列 ? 用点(.)选择 pandas 里写起来比较容易,但列名里有空格,就没法这样操作了。...用 dropna() 删除所有缺失值。 ? 只想删除缺失值高于 10% 缺失值,可以设置 dropna() 里阈值,即 threshold. ? 16....把字符串分割为多 创建一个 DataFrame 示例。 ? 把姓名列分为姓与名两,用 str.split() 方法,空格分割,并用 expand 关键字,生成一个新 DataFrame。 ?...性别(Sex)统计男女幸存率,需要使用 groupby()。 ? 要按性别与舱型(Pclass)统计幸存率,就要按性别与舱型进行 groupby()。 ?

7.1K20

Pandas三百题

("max_rows") pd.reset_option("max_columns") 4 修改每最大字符宽度 即每最多显示字符长度,例如【每最多显示10个字符,多余会变成...】 pd.set_option...df.info() 5-查看数据统计信息|数值 查看数值型统计信息,计数,均值 df.describe().round(2).T 6-查看数据统计信息|离散 查看离散型统计信息,计数,频率 df.describe...) df.drop(df[df.金牌<20].index) 19-数据删除|删除 df.drop(columns=['比赛地点']) 20-数据删除|删除号) 删除df7,8,9,10...提取 金牌、银牌、铜牌 df[['金牌','银牌','铜牌']] 23-筛选|条件号) df.iloc[:,[i%2==1 for i in df.shape[1]]] 24-...日本五行数据 df[df['国家奥委会'].isin(['中国','美国','英国','日本','巴西'])]​ 35-筛选行|多条件 在上一题条件下,新增一个条件:金牌小于30 df[(df['国家奥委会

4.6K22

利用Pandas库实现Excel条件格式自动化

70以上同色) 我们可以看到以上对于缺失值来说,其背景色是黑色,我们可以通过链式方法高亮缺失值对缺失值背景色进行修改 3.2....formatter 显示格式 subset用于指定操作或行 na_rep用于指定缺失格式 precision用于指定浮点位数 decimal用于用作浮点数、复数整数十进制分隔符字符,默认是.... thousands用作浮点数、复数整数千位分隔符字符 escape用于特殊格式输出(如html、latex等,这里不做展开,可参考官网) 比如,我们给数据加上单位枚,缺失值显示为无 设置小数点位数为...此方法根据axis关键字参数一次传递一个或整个表 DataFrame 每一或行。对于使用axis=0、行使用axis=1,以及一次性使用整个表axis=None。...比如,我们定义一个函数,如果金牌<银牌,则高亮金牌这一对应值 比如,我们还可以定义函数,如果金牌<银牌,则这一行数据都高亮 又或者,我们可以根据不同比值对每行进行不同高亮 关于以上函数写法

6K41

对比Excel,一文掌握Pandas表格条件格式(可视化)

70以上同色) 我们可以看到以上对于缺失值来说,其背景色是黑色,我们可以通过链式方法高亮缺失值对缺失值背景色进行修改 3.2....formatter 显示格式 subset用于指定操作或行 na_rep用于指定缺失格式 precision用于指定浮点位数 decimal用于用作浮点数、复数整数十进制分隔符字符,默认是.... thousands用作浮点数、复数整数千位分隔符字符 escape用于特殊格式输出(如html、latex等,这里不做展开,可参考官网) 比如,我们给数据加上单位枚,缺失值显示为无 设置小数点位数为...此方法根据axis关键字参数一次传递一个或整个表 DataFrame 每一或行。对于使用axis=0、行使用axis=1,以及一次性使用整个表axis=None。...比如,我们定义一个函数,如果金牌<银牌,则高亮金牌这一对应值 比如,我们还可以定义函数,如果金牌<银牌,则这一行数据都高亮 又或者,我们可以根据不同比值对每行进行不同高亮 关于以上函数写法

5K20

Python数据分析笔记——Numpy、Pandas库

2、DataFrame (1)概念: DataFrame是一个表格型数据结构,含有一组有序,每可以是不同值类型(数值、字符串、布尔值等)。...(索引相同进行算数运算,索引不同被赋予空值) 4、排序排名 根据某种条件对数据集进行排序。...obj.rank() (2)DataFrame数据结构排序排名 索引值进行排列,一或多值进行排序,通过by将列名传递给sort_index. 5、缺失数据处理 (1)滤出缺失数据 使用data.dropna...(从0开始计数) 6、汇总和计算描述统计 就是针对数组进行常用数学统计运算。大部分都属于约简汇总统计。 其中有求和(sum)运算、累计(cumsum)运算、平均值(mean)等运算。...相当于Excel中vlookup函数条件查找中条件。 对于层次化索引对象,选取数据方式可以通过内层索引,也可以通过外层索引来选取,选取方式单层索引选取方式一致。

6.4K80

awk命令详解

文件名 2.2.内置变量 awk语法由一系列条件动作组成,在花括号内可以有多个动作,多个动作之间用分号分隔,在多个条件动作之间可以有若干空格,也可以没有。...NF}' #输出每行数据 awk '{print $NF}' /tmp/hosts #打印每行数据最后一 awk '{print $(NF-1)}' /tmp/hosts #打印每行倒数第二.../hosts 2.8.条件匹配 awk支持使用正则进行模糊匹配,也支持字符串和数字精确匹配,并且支持逻辑与逻辑或。...'BEGIN{srand(22);print rand()}' #使用数值做随机数种子 5.3.内置字符串函数 length([s])函数 可以统计字符串s长度,如果不指定字符串s则统计$0长度...) 将字符特定分隔符切片后存储在数组中,如果没指定分隔符,则使用IFS定义

2.2K30

我用Python展示Excel中常用20个操

Pandas 在Pandas中,可直接对数据框进行条件筛选,例如同样进行单个条件(薪资大于5000)筛选可以使用df[df['薪资水平']>5000],如果使用多个条件筛选只需要使用&(并)与|(或...缺失值处理 说明:对缺失值(空值)按照指定要求处理 Excel 在Excel中可以按照查找—>定位条件—>空值来快速定位数据中空值,接着可以自己定义缺失填充方式,比如将缺失值用上一个数据进行填充...],inplace=True),可以发现Excel处理结果一致,保留了 629 个唯一值。...数据拆分 说明:将一按照规则拆分为多 Excel 在Excel中可以通过点击数据—>分列并按照提示选项设置相关参数完成分列,但是由于该含有[]等特殊字符,所以需要先使用查找替换去掉 ?...数据抽样 说明:对数据要求采样 Excel 在Excel中抽样可以使用公式也可以使用分析工具库中抽样,但是仅支持对数值型抽样,比如随机抽20个示例数据中薪资样本 ?

5.5K10

【Python基础系列】常见数据预处理方法(附代码)

,'r') #打开大文件 i = 0 #设置计数器 #这里1234567表示文件行数,如果不知道行数可用每行长度等其他条件来判断 while i<1234567 : with open('newfile...[0]是行数,data.shape[1]是 data.describe() #查看数据大体情况,均值,最值,分位数值... data.columns.tolist() #得到列名list 2...,为了更好分析,一般会对这些缺失数据进行识别处理 2.1 缺失值查看 print(data.isnull().sum()) #统计每列有几个缺失值 missing_col = data.columns...[data.isnull().any()].tolist() #找出存在缺失 import numpy as np #统计每个变量缺失值占比 def CountNA(data): cols...目标',1) y_train = train_data['目标'] y_test = test_data['目标'] 6、数据规范化 数据标准化(normalization)是将数据比例缩放,

18K57

Pandas常用命令汇总,建议收藏!

# 用于显示数据前n行 df.head(n) # 用于显示数据后n行 df.tail(n) # 用于获取数据行数 df.shape # 用于获取数据索引、数据类型内存信息 df.info...] # 根据条件选择数据框中 df.loc[df['column_name'] > 5, ['column_name1', 'column_name2']] / 04 / 数据清洗 数据清洗是数据预处理阶段重要步骤...# 检查缺失值 df.isnull() # 删除有缺失行 df.dropna() # 用特定值填充缺失值 df.fillna(value) # 插入缺失值 df.interpolate()...df1, df2, on='A', how='right') / 07 / Pandas中统计 Pandas提供了广泛统计函数方法来分析DataFrame或Series中数据。...# 计算数值描述性统计 df.describe() # 计算某总和 df['column_name'].sum() # 计算某平均值 df['column_name'].mean()

38010

Pandas模块基础操作-学习笔记

切片 切片操作左闭右开 # 切第8行-13行,第2、3 HS300_excel1.iloc[7:13, 1:3] 条件筛选切片 # 筛选收盘价大于4300数据 HS300_excel1[HS300...数据框修改 修改列名 HS300_colchange = HS300_excel1.rename(columns={'收盘点位': '收盘价格_改'}) 缺失处理 一种是删除,即删除有缺失行..._excel1, HS300_excel2], axis=0) #行,上下拼接 stock_new = pd.concat([stock2, stock],axis=1) # ,左右拼接...常用静态统计函数 ? ? ? ? ? 2. 移动窗口与动态统计函数 时间点数据往往波动较大,因此某一时间点数据通常不能很好反馈数据本身特性,因此就需要用一段时间区间数据进行描述。...数据框.rolling(window=窗口, axis=0 或 1).统计量函数(axis=0 或 1) 移动平均 HS300_meanclose = HS300_new['收盘点位'].rolling

43910

Python数据清洗--缺失值识别与处理

缺失识别 判断一个数据集是否存在缺失观测,通常从两个方面入手,一个是变量角度,即判断每个变量中是否包含缺失值;另一个是数据行角度,即判断每行数据中是否包含缺失值。...需要说明是,判断数据是否为缺失值NaN,可以使用isnull“方法”,它会返回与原数据行列相同矩阵,并且矩阵元素为bool类型值,为了得到每一判断结果,仍然需要any“方法”(且设置“方法...”内axis参数为0);统计各变量缺失值个数可以在isnull基础上使用sum“方法”(同样需要设置axis参数为0);计算缺失比例就是在缺失数量基础上除以总样本量(shape方法返回数据集行数...假设上图为学生考试成绩表,如果直接对成绩表中分数进行加操作,得到是所有学生分数总和(很显然没有什么意义),如果学生分别计算总分,将是上图从左到右转换。...该转换特征是发生了变化(可以是减少,也可以是增多),类似于在水平方向上受了外部压力或拉力,这样外力就理解为轴axis为1效果(便于理解,可以想象为飞机在有动力情况下,可以保持水平飞行状态

2.5K10

R语言入门系列之二

其中x为向量或矩阵,method为标准化方法,MARGIN=1行处理,MARGIN=2处理: ①method="pa",将数据转换为有-无(1-0)类型,若分析不加权情况群结构下可以使用; ②method...⑤method="normalize",模标准化,将数据除以每行或者每平方平方根(defaultMARGIN=1),模标准化后每行平方为1(向量模为1),也即在笛卡尔坐标系中到原点欧氏距离为...类似地,par(mfcol=c(3,2))规定相同窗格结构,但是次序为填放,即先填满第一三个再填第二 mfg:数值向量跳格方式一页多图,例如par(mfg=c(2,2,3,2))表示在三行两多图环境中直接跳到第二行第二位置...,mfg参数后两个表示多图环境行、,前两个表示要跳到位置 此外,par()里也可以设置坐标轴大小字体样式cex、font等。...25%值75%值(也即第一四分位第三四分位),中间粗横线为中位数,触须伸出箱子最大长度可以通过range参数来设置,默认为1.5倍箱子高度(四分位间距),设置add=T可以讲箱形图绘制在当前图像上

3.8K30

Python 学习小笔记

/train.csv’ header=0表示第0行是标题 寻找数据集中缺失数据可以用data.isnull() 缺失总数用data.isnull().sum()来统计 dataframe...:(假设保存数据集名为data) 寻找数据集中缺失数据 可以用data.isnull() 缺失总数用data.isnull().sum()来统计 调用data.isnull()的话会得到一个列表...可用 对数据分组进行计算,比如计算分组平均等 有点类似于数据库中groupby计算,涉及至少两数据,用法有两种(例 要对A根据B进行分组并计算平均值) 1....使用0值表示沿着每一或行标签\索引值向下执行方法 使用1值表示沿着每一行或者标签模向执行对应方法 定位符合某个条件数据(在处理缺失数据时十分有用) data.loc[行条件条件]...data.loc[data[‘Age’]50,‘Survived’]=1 #将所有年龄为50岁乘客存活情况设置为1(行条件为Age50,条件标签是Survived) 如果要修改筛选出来数据

96930
领券