刚开始学习pandas时要记住所有常用的函数和方法显然是有困难的,所以在Dataquest(https://www.dataquest.io/)我们主张查找pandas参考资料(http://pandas.pydata.org...() pd.DataFrame(dict) 从字典、列名称键、数据列表的值导入 输出数据 df.to_csv(filename) 写入CSV文件 df.to_excel(filename) 写入Excel...pd.notnull() 与pd.isnull()相反 df.dropna() 删除包含空值的所有行 df.dropna(axis=1) 删除包含空值的所有列 df.dropna(axis=1,thresh...=n) 删除所有小于n个非空值的行 df.fillna(x) 用x替换所有空值 s.fillna(s.mean()) 将所有空值替换为均值(均值可以用统计部分中的几乎任何函数替换) s.astype(float...) 从一列返回一组对象的值 df.groupby([col1,col2]) 从多列返回一组对象的值 df.groupby(col1)[col2] 返回col2中的值的平均值,按col1中的值分组(平均值可以用统计部分中的几乎任何函数替换
(writer,sheet_name='单位') 和 writer.save(),将多个数据帧写入同一个工作簿的多个sheet(工作表) 查看、检查数据 df.head(n) # 查看DataFrame...() # 检查DataFrame对象中的空值,并返回一个Boolean数组 pd.notnull() # 检查DataFrame对象中的非空值,并返回一个Boolean数组 df.dropna() #...删除所有包含空值的行 df.dropna(axis=1) # 删除所有包含空值的列 df.dropna(axis=1,thresh=n) # 删除所有小于n个非空值的行 df.fillna(value=...x) # 用x替换DataFrame对象中所有的空值,支持df[column_name].fillna(x) s.astype(float) # 将Series中的数据类型更改为float类型 s.replace...df.mean() # 返回所有列的均值 df.corr() # 返回列与列之间的相关系数 df.count() # 返回每一列中的非空值的个数 df.max() # 返回每一列的最大值 df.min
图片 2.写入数据处理完数据后,我们可能会把处理后的DataFrame保存下来,最常用的文件写入函数如下:to_csv: 写入 CSV 文件。 注意:它不保留某些数据类型(例如日期)。...很多情况下我们会将参数索引设置为False,这样就不用额外的列来显示数据文件中的索引。to_excel: 写入 Excel 文件。to_pickle:写入pickle文件。...这是建议的写入格式,读写的速度都非常快。图片 3.数据概览将数据成 DataFrame 格式后,我们最好对数据有一个初步的了解,以下是最常用到的几个数据概览函数,能提供数据的基本信息。...图片 5.处理重复我们手上的数据集很可能存在重复记录,某些数据意外两次输入到数据源中,清洗数据时删除重复项很重要。...以下函数很常用:duplicated: 识别DataFrame中是否有重复,可以指定使用哪些列来标识重复项。drop_duplicates:从 DataFrame 中删除重复项。
=False) 这样就将DataFrame中的数据写入到了CSV和Excel文件中。...文件读写 Pandas提供了各种方法来读取和写入不同格式的文件,如CSV、Excel和SQL等。 读取和写入CSV文件 要读取CSV文件,可以使用read_csv函数,并提供文件路径作为参数。...然后使用read_csv函数读取名为sales_data.csv的销售数据文件,并将数据存储在DataFrame对象df中。接着,使用head方法打印出df的前几行数据。...# 查看数据的基本信息 print(df.info()) 使用info方法打印出数据的基本信息,包括列名称、数据类型以及非空值的数量等。...最后,使用groupby方法按照月份对数据进行分组,然后使用sum方法计算每个月的总销售额和利润,并将结果存储在monthly_sales_profit中。
我们还可以使用df.to_excel()保存和写入一个DataFrame到Excel文件或Excel文件中的一个特定表格。...查看/检查数据 head():显示DataFrame中的前n条记录。我经常把一个数据档案的最上面的记录打印在我的jupyter notebook上,这样当我忘记里面的内容时,我可以回头查阅。...选择 在训练机器学习模型时,我们需要将列中的值放入X和y变量中。...有几个有用的函数用于检测、删除和替换panda DataFrame中的空值。...要检查panda DataFrame中的空值,我们使用isnull()或notnull()方法。方法返回布尔值的数据名,对于NaN值为真。
Series对象的唯⼀值和计数 df.apply(pd.Series.value_counts) # 查看DataFrame对象中每⼀列的唯⼀值和计数 df.isnull().any() # 查看是否有缺失值...df.columns= ['a','b','c'] # 重命名列名(需要将所有列名列出,否则会报错) pd.isnull() # 检查DataFrame对象中的空值,并返回⼀个Boolean数组 pd.notnull...() # 检查DataFrame对象中的⾮空值,并返回⼀个Boolean数组 df.dropna() # 删除所有包含空值的⾏ df.dropna(axis=1) # 删除所有包含空值的列 df.dropna...(axis=1,thresh=n) # 删除所有⼩于n个⾮空值的⾏ df.fillna(value=x) # ⽤x替换DataFrame对象中所有的空值,⽀持 df[column_name].fillna...df1.append(df2) # 将df2中的⾏添加到df1的尾部 df.concat([df1,df2],axis=1,join='inner') # 将df2中的列添加到df1的尾部,值为空的对应
Excel中查看空值的方法是使用“定位条件”在“开始”目录下的“查找和选择”目录. ?...1.处理空值(删除或填充) Excel中可以通过“查找和替换”功能对空值进行处理 ?...Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。...6.删除重复值 Excel的数据目录下有“删除重复项”的功能 ?...Name: city, dtype: object city列中beijing存在重复,分别在第一位和最后一位 drop_duplicates()函数删除重复值 #删除后出现的重复值 df['city
(1)官网: Python Data Analysis Library (2)十分钟入门Pandas: 10 Minutes to pandas 在第一次学习Pandas的过程中,你会发现你需要记忆很多的函数和方法...():检查DataFrame对象中的空值,并返回一个Boolean数组 pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组 df.dropna():删除所有包含空值的行...df.dropna(axis=1):删除所有包含空值的列 df.dropna(axis=1,thresh=n):删除所有小于n个非空值的行 df.fillna(x):用x替换DataFrame对象中所有的空值...和col3的最大值的数据透视表 df.groupby(col1).agg(np.mean):返回按列col1分组的所有列的均值 data.apply(np.mean):对DataFrame中的每一列应用函数...df.describe():查看数据值列的汇总统计 df.mean():返回所有列的均值 df.corr():返回列与列之间的相关系数 df.count():返回每一列中的非空值的个数 df.max()
简单归纳来看,主要可分为以下几个方面: 1 数据清洗 数据处理中的清洗工作主要包括对空值、重复值和异常值的处理: 空值 判断空值,isna或isnull,二者等价,用于判断一个series或dataframe...、向前/向后填充等,也可通过inplace参数确定是否本地更改 删除空值,dropna,删除存在空值的整行或整列,可通过axis设置,也包括inplace参数 重复值 检测重复值,duplicated,...pandas中的另一大类功能是数据分析,通过丰富的接口,可实现大量的统计需求,包括Excel和SQL中的大部分分析过程,在pandas中均可以实现。...count、value_counts,前者既适用于series也适用于dataframe,用于按列统计个数,实现忽略空值后的计数;而value_counts则仅适用于series,执行分组统计,并默认按频数高低执行降序排列...2 分组聚合 pandas的另一个强大的数据分析功能是分组聚合以及数据透视表,前者堪比SQL中的groupby,后者媲美Excel中的数据透视表。
pandas导入与设置 一般在使用pandas时,我们先导入pandas库。...也就是说,500意味着在调用数据帧时最多可以显示500列。 默认值仅为50。此外,如果想要扩展输显示的行数。...探索DataFrame 以下是查看数据信息的5个最常用的函数: df.head():默认返回数据集的前5行,可以在括号中更改返回的行数。 示例: df.head(10)将返回10行。...df['Contour'].isnull().sum():返回'Contour'列中的空值计数 df['pH'].notnull().sum():返回“pH”列中非空值的计数 df['Depth']...数值替换 df.replace({'Topk': 'Top'}, inplace=True) 删除空值 df['pH'].dropna(inplace=True) 输入空值 df['pH'].fillna
pd.DataFrame(dict) # 从字典中,列名称的键,列表中的数据的值 导出数据 df.to_csv(filename) # 写入CSV文件 df.to_excel(filename)...# 写入Excel文件 df.to_sql(table_name, connection_object) # 写入SQL表 df.to_json(filename) # 以JSON格式写入文件...pd.notnull() # 与pd.isnull() 相反 df.dropna() # 删除所有包含空值的行...df.dropna(axis=1) # 删除所有包含空值的列 df.dropna(axis=1,thresh=n)...返回均值的所有列 df.corr() # 返回DataFrame中各列之间的相关性 df.count() # 返回非空值的每个数据帧列中的数字 df.max()
: df.dtypes 4、某一列格式: df['B'].dtype 5、空值: df.isnull() 6、查看某一列空值: df['B'].isnull() 7、查看某一列的唯一值: df['B']...#默认后5行数据 三、数据表清洗 1、用数字0填充空值: df.fillna(value=0) 2、使用列prince的均值对NA进行填充: df['prince'].fillna(df['prince...df['price'].astype('int') 6、更改列名称: df.rename(columns={ 'category': 'category-size'}) 7、删除后出现的重复值...names︰ 列表中,默认为无。由此产生的分层索引中的级的名称。 verify_integrity︰ 布尔值、 默认 False。检查是否新的串联的轴包含重复项。这可以是相对于实际数据串联非常昂贵。...df_inner.corr() 九、数据输出 分析后的数据可以输出为xlsx格式和csv格式 1、写入Excel df_inner.to_excel('excel_to_python.xlsx', sheet_name
pd.DataFrame(dict) # 从字典中,列名称的键,列表中的数据的值 导出数据 df.to_csv(filename) # 写入CSV文件 df.to_excel(filename) #...写入Excel文件 df.to_sql(table_name, connection_object) # 写入SQL表 df.to_json(filename) # 以JSON格式写入文件 创建测试对象...pd.notnull() # 与pd.isnull() 相反 df.dropna() # 删除所有包含空值的行...df.dropna(axis=1) # 删除所有包含空值的列 df.dropna(axis=1,thresh=n)...df.corr() # 返回DataFrame中各列之间的相关性 df.count() # 返回非空值的每个数据帧列中的数字 df.max() # 返回每列中的最高值
在处理Excel数据时,Pandas为我们提供了强大而灵活的工具,使得读取、写入和操作Excel文件变得轻而易举。 安装Pandas 首先,让我们确保已经安装了Pandas。...使用to_excel方法,我们可以将DataFrame中的数据写入到新的Excel文件中: df.to_excel('output.xlsx', index=False) 实例:读取并写入新表格 下面是一个示例代码...最后,使用to_excel将新数据写入到文件中。 数据清洗与转换 在实际工作中,Excel文件中的数据可能存在一些杂乱或不规范的情况。...Pandas提供了多种方法来处理缺失值,例如使用dropna()删除包含缺失值的行,或使用fillna()填充缺失值。...'] = df['existing_column'].apply(custom_function) 性能优化与大数据处理 Pandas在处理大数据集时可能会面临性能瓶颈,但它提供了一些优化方法,如使用Dask
这种集成促进了数据操作、分析和可视化的工作流程。 由于其直观的语法和广泛的功能,Pandas已成为数据科学家、分析师和研究人员在 Python中处理表格或结构化数据的首选工具。...中处理数据时,我们可以使用多种方法来查看和检查对象,例如 DataFrame和Series。...() # 根据z分数识别离群值 = df[z_scores > threshold] # 删除离群值 df_cleaned = df[z_scores <= threshold] # 替换列中的值...统计列中非空值的个数 count = df['column_name'].count() # 对DataFrame进行分组并重置索引 grouped_data = df.groupby('column_name...# 计算某列的最大值 df['column_name'].max() # 计算某列中非空值的数量 df['column_name'].count() # 计算列中某个值的出现次数 df['column_name
data = pd.read_excel(r'C:\Users\tsl\Desktop\数据.xlsx') #判定某列中是否有null,如果有删除null 行 if data['电话'].isnull...().any(): #将excel里面空值修改 data['电话'] = data['电话'].fillna('999') #得到999值的索引室号 data_index = data[...DataFrame,Series #读取excel #path = r'C:\Users\tsl\Desktop\数据.xlsx' def Build_data(build_data): #一个有索引和行内容的迭代器...(r'C:\Users\tsl\Desktop\数据.xlsx') data_index = 0 #判定列中是否有null,如果有删除null 行 if data['电话'].isnull().any(...): #将excel里面空值修改 data['电话'] = data['电话'].fillna('999') #得到999值的索引室号 data_index_1 = data[data.
一、Python 操作 Excel 的常用库 小伙伴你好,在开始操作 Excel 之前,你需要安装 Python 和一些相关库。...写入 Excel 文件 使用 pandas 库中的 to_excel()函数可以将数据写入 Excel 文件。...删除行或列 使用 pandas 库中的 drop()函数可以删除行或列。...修改单元格值 使用 pandas 库中的 at()函数或.iat()函数可以修改单元格的值。...分组数据 使用 pandas 库中的 groupby()函数可以对数据进行分组。
output.csv’) 写入CSV df_inner.to_excel(‘output.xlsx’, sheet_name=‘sheet1’) 写入Excel 设置列名dataframe.columns...df[‘Name’].dtype 某一列格式 df.isnull() 空值 df.isnull() 查看某一列空值 df[Name’].unique() 某一列的唯一值 df.values 数据表的值...=pd.merge(df,df1,how=‘left’) 左连接(以 df 为基准,df1 在 df 中无匹配则为空) df_right=pd.merge(df,df1,how=‘right’) 右连接...(以 df1 为基准,df 在 df1 中无匹配则为空) df_outer=pd.merge(df,df1,how=‘outer’) 全连接(取两个集合的并集,包含有 df , df1 的全部数据行,无匹配则填充空...[i for i in rang(10)], allow_duplicates=True) 在第一列插入名为num的列,值为1…10,允许有重复列
清洗数据 删除或填充空值 在许多情况下,如果你用 Pandas 来读取大量数据,往往会发现原始数据中会存在不完整的地方。...在 DataFrame 中缺少数据的位置, Pandas 会自动填入一个空值,比如 NaN或 Null 。...当你使用 .dropna() 方法时,就是告诉 Pandas 删除掉存在一个或多个空值的行(或者列)。删除列用的是 .dropna(axis=0) ,删除行用的是 .dropna(axis=1) 。...在上面的例子中,数据透视表的某些位置是 NaN 空值,因为在原数据里没有对应的条件下的数据。...写入 Excel 表格文件 跟写入 CSV 文件类似,我们可以将一个 DataFrame 对象存成 .xlsx 文件,语法是 .to_excel() : ?
(1) # 返回所有行的均值,下同 df.corr() # 返回列与列之间的相关系数 df.count() # 返回每一列中的非空值的个数 df.max() # 返回每一列的最大值 df.min() #...对象中的空值,并返回一个 Boolean 数组 pd.notnull() # 检查DataFrame对象中的非空值,并返回一个 Boolean 数组 df.drop(['name'], axis=1)...# 删除列 df.drop([0, 10], axis=0) # 删除行 del df['name'] # 删除列 df.dropna() # 删除所有包含空值的行 df.dropna(axis=1)...# 删除所有包含空值的列 df.dropna(axis=1,thresh=n) # 删除所有小于 n 个非空值的行 df.fillna(x) # 用x替换DataFrame对象中所有的空值 df.fillna...全屏 Fragment:一开始是隐藏的,按空格键或方向键后显示,实现动态效果。在一个页面 Skip:在幻灯片中不显示的单元。 Notes:作为演讲者的备忘笔记,也不在幻灯片中显示。
领取专属 10元无门槛券
手把手带您无忧上云