mongodb_bak_list # 当前系统时间 DATE=`date +%Y-%m-%d-%H:%M:%S` # 备份数据库 DB=10_db # 数据库地址 HOST=10.1.11.10:30000 # 删除...7天前的备份,即只保留近 7 天的备份,按实际需求更改 DAYS=7 # 最终保存的数据库备份文件 TAR_BAK="mongod_bak_$DATE.tar.gz" cd $OUT_DIR rm -rf...DATE tar -zcvf $TAR_DIR/$TAR_BAK $OUT_DIR/$DATE find $TAR_DIR/ -mtime +$DAYS -delete exit 2、创建以上文件中的目录并赋予脚本执行权限...o crontab -r : 删除 crontab 文件。 o crontab -ir : 删除 crontab 文件前提醒用户。
导入pandas库,并读取csv文件 import pandas as pd df=pd.read_csv('pokemon/Pokemon.csv') 查看DataFrame信息 df.info()...# 数据类型,内存消耗等信息 df.describe() # 统计特征,均值方差等 查看DataFrame的前几行以及后几行 pd.head(n=5) # 可以添加参数n,表示显示几行 pd.tail...['#'],axis=1,inplace=True) # 删除‘#’列数据,在原DataFrame上改变 df.drop([1,2,3],axis=0) # 删除行索引为1、2、3的行,不在原DataFrame...df.dropna(how='any') # 去除所有包含空值的行 去重 df.drop_duplicates(['Type1'],keep='first') # 去除相同的Type1的数据,仅保留第一个...3的数据 df.iloc[3] # 访问第4行数据,两行代码结果相同 数据访问方式(区域索引,先行后列) df.iloc[:5,:2] # 数据前5行前两列,按位置索引 df.loc[10:15
去除 NaN 值 在Pandas的各类数据Series和DataFrame里字段值为NaN的为缺失数据,不代表0而是说没有赋值数据,类似于python中的None值。...dropna() 删除NaN 值 可以通过 dropna 方法,默认按行扫描(操作),会将每一行有NaN 值的那一行删除,同时默认是对原对象的副本操作,不会对原对象产生影响,也可以通过inplace 指示是否直接在原对象上操作...# 要删除一列或一行中全部都是nan 值的那一行或列,可以通过下面的方式 print("del cols is all NaN\n", df.dropna(axis = 'columns', how...,thresh 指示这一列或行中有两个或以上的非NaN 值的行或列被保留 通过布尔判断,也是可以实现删除 NaN 的功能。...df.fillna(0,inplace = True) # inplace 指明在原对象上直接修改 复杂的 使用向前 或 向后 填充数据,依旧使用fillna 方法,所谓向前 是指 取出现NaN值的前一列或前一行的数据来填充
DataFrame的.head()方法默认显示前5行。.tail()方法默认显示最后5行。行计数值可以是任意整数值,如: ? SAS使用FIRSTOBS和OBS选项按照程序来确定输入观察数。...按行切片也可以。方括号[]是切片操作符。这里解释细节。 ? ? 注意DataFrame的默认索引(从0增加到9)。这类似于SAS中的自动变量n。...thresh参数允许您指定要为行或列保留的最小非空值。在这种情况下,行"d"被删除,因为它只包含3个非空值。 ? ? 可以插入或替换缺失值,而不是删除行和列。....下面我们对比使用‘前向’填充方法创建的DataFrame df9,和使用‘后向’填充方法创建的DataFrame df10。 ? ?...在删除缺失行之前,计算在事故DataFrame中丢失的记录部分,创建于上面的df。 ? DataFrame中的24个记录将被删除。
输出为: Out[5]: one Python two Java three PHP dtype: object 创建Series类的对象并指定索引 import...index:表示行索引,默认生成0~N的整数索引。 columns:表示列索引,默认生成0~N的整数索引。 dtype:表示数据的类型。...,'c','d']) print(df) df['e'] = 10 df.loc[4] = 20 print(df) # 新增列/行并赋值 df['e'] = 20 df[['a','c']] =...limit:表示前向或者后向填充的最大填充量。...使用at和iat访问数据 pandas中还可以使用at和iat访问数据,与前两种方式相比,这种方式可以访问DataFrame类对象的单个数据。
使用python删除excel表格重复行。...subset=None,keep='first',inplace=None))#excel文件中设定第一和第二行为重复行,结果删除了第二行保留第一行 ###df_excel.drop_duplicates...#####inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本 print('数据集列中是否存在缺失值:\n',df_excel.isnull()...# # how=‘all': 所有的值都缺失(NaN)才删除 # 还有一个thresh参数 # thresh=n,保留至少有 n 个非 NaN...按照行删除0这一行 以上这篇python 删除excel表格重复行,数据预处理操作就是小编分享给大家的全部内容了,希望能给大家一个参考。
删除缺失值 使用pd.DataFrame.dropna()方法完成缺失值的删除: In [17]: pd.DataFrame.dropna Out[17]: <function pandas.core.frame.DataFrame.dropna...; all:当一行所有的数据都时缺失值时再删除这一行。...重复值的删除 使用pd.DataFrame.drop_duplicates()方法完成缺失值的删除: In [18]: pd.DataFrame.drop_duplicates Out[18]: 通过参数keep的属性值来设置: first:所有重复行删除,保留第一行; last:所有重复行删除,保留最后一行。...重复代码的打包 每次进行数据分析我都会新建一个.ipynb文件,而数据分析前都需要经过数据表合并、数据清洗等工作,那么最好的方式其实是将数据分析前的准备工作进行一个打包,然后在.ipynb文件的第一行引入包即可
导读:pandas是一款开放源码的BSD许可的Python库。它基于NumPy创建,为Python编程语言提供了高性能的、易于使用的数据结构和数据分析工具。...访问DataFrame首尾数据 head和tail方法用于访问DataFrame前n行和后n行数据,默认返回5行数据,如代码清单6-14所示。...代码清单6-14 访问DataFrame前后n行数据 print('默认返回前5行数据为:\n', df.head()) 输出: 默认返回前5行数据为: col1 col2 a...表示删除的行或列的标签。无默认值 axis:接收0或1。表示执行操作的轴向,其中0表示删除行,1表示删除列。默认为0 levels:接收int或者索引名。表示索引级别。...8 e 14 9 # 删除行 df.drop('a', axis = 0, inplace = True) print('删除a行后的DataFrame为:\n', df) 输出: 删除
读出来的数据就是一个dataframe,可以直接对他进行操作。 如果想获取前几行值可以直接使用head方法,或者切片,都是可以拿到前两行的值的。...读取数据的方法提供如下几种: df.head(n):查看DataFrame对象的前n行 df.tail(n):查看DataFrame对象的最后n行 df.shape():查看行数和列数 df.info(...下面我们简单介绍一下: 选择一列: data['column_name'] 选择一列的前几行数据: data['columns_name'][:n] 选择多列: data[['column1','column2...删除不完整的行(dropna) 假设我们想删除任何有缺失值的行。这种操作具有侵略性,但是我们可以根据我们的需要进行扩展。 我们可以使用isnull来查看dataframe中是否有缺失值。...) 我们也可以增加一些限制,在一行中有多少非空值的数据是可以保留下来的(在下面的例子中,行数据中至少要有 5 个非空值) df1.drop(thresh=5) 删除不完整的列(dropna) 我们可以上面的操作应用到列上
A4:按照月份m进行排序 A5:新增一列,如果月份等于前一行的月份,则计算增长比并赋值,否则赋值null,将该列命名为yoy。...A5:将amount按照倒序排序,并取前8名 A6: A.isect(),序列A成员可以为序列,产生所有子序列都有的成员组成的新序列。这里是求所有成员的交集。...update_rec') print(update_rec) e = time.time() print(e-s) 首先merge(old,new,on=’left’)将旧表左连接新表,新表中包含nan的行就是旧表删除的行...,由于字段名一样,所以python默认添加的后缀是_x,_y,删除的记录就是截取merge以后的前四个字段。...另外python中的merge函数不支持差集计算(或许其他函数支持),造成在第四例中特别麻烦。python pandas的dataframe结构是按列进行存储的,按行循环时就显得特别麻烦。
# 用于显示数据的前n行 df.head(n) # 用于显示数据的后n行 df.tail(n) # 用于获取数据的行数和列数 df.shape # 用于获取数据的索引、数据类型和内存信息 df.info...# 检查缺失值 df.isnull() # 删除有缺失值的行 df.dropna() # 用特定值填充缺失值 df.fillna(value) # 插入缺失值 df.interpolate()...# 检查重复行 df.duplicated() # 删除重复行 df.drop_duplicates() # 计算z分数 z_scores = (df - df.mean()) / df.std...df['column_name'] = df['column_name'].str.replace('old_value', 'new_value') # 删除前/尾空格 df['column_name...False]) # 按单列对DataFrame进行分组并计算另一列的平均值 grouped_data = df.groupby('column_name')['other_column'].mean
.head()默认输出DataFrame的前五行,但是我们也可以传递一个数字:例如,movies_df.head(10)将输出前十行。 要查看最后五行,请使用.tail()。....通常,当我们加载数据集时,我们喜欢查看前五行左右的内容,以了解隐藏在其中的内容。在这里,我们可以看到每一列的名称、索引和每行中的值示例。...我们的movies DataFrame中有1000行和11列。 在清理和转换数据时,您将需要经常使用.shape。例如,您可能会根据一些条件过滤一些行,然后想要快速知道删除了多少行。...方法也将返回数据DataFrame的一个副本,但这次删除了副本。...这意味着如果两行是相同的,panda将删除第二行并保留第一行。使用last有相反的效果:第一行被删除。 另一方面,keep将删除所有重复项。如果两行是相同的,那么这两行都将被删除。
\练习.xlsx') #将数据储存为Excel文件 3、读取Excel及DataFrame的使用方式 import pandas as pd path = 'E:\python\测试\\数据查询.xlsx...c=data[['w','z']] # 取多列时需要用Dataframe的格式 data.loc['A'] # 取行名为'A'的行...data.tail(3) # 取尾三行 **data= data.iloc[2:, 2:20] # 选择2行开始、2-11列** [m, n] =...() # 删除空值 data.dropna() # 删除有空值的行 data.dropna(axis=1)...# 删除有空值的列 data.dropna(how='all') # 删除所有值为Nan的行 data.dropna(thresh=2) # 至少保留两个非缺失值
本文是基于Windows系统环境,学习和测试DataFrame模块: Windows 10 PyCharm 2018.3.5 for Windows (exe) python 3.6.8...n = np.array(df) print(n) DataFrame增加一列数据 import pandas as pd import numpy as np data = pd.DataFrame...删除重复的数据行 import pandas as pd norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first...=‘first'时,就是保留第一次出现的重复行 # keep='last'时就是保留最后一次出现的重复行。 ...'表示去除列 # how: 'any'表示行或列只要含有NaN就去除,'all'表示行或列全都含有NaN才去除 # thresh: 整数n,表示每行或列中至少有n个元素补位NaN,否则去除
print(arr_2d[:2, 0:1]) # 使用切片访问前两行、第一列的元素 2.4 数组运算 2.4.1 形状相同的数组运算 无论是形状相同的数组,还是形状不同的数组,它们之间都可以执行算术运算...:索引 Dataframe既有行索引也有列索引,可以被看做由Series组成的字典(共用一个索引) 选择列 / 选择行 / 切片 / 布尔判断 1.选择行与列 # 选择行与列 df = pd.DataFrame...['a','b','c','d']) # 新增列/行并赋值 df['e'] = 10 df.loc[4] = 20 # 索引后直接修改值 df['e'] = 20 df[['a','c']] =...100 # del语句 - 删除列 del df['a'] # drop()删除行,inplace=False → 删除后生成新的数据,不改变原数据 df.drop([1,2]) # drop()...使用at和iat访问数据 pandas中还可以使用at和iat访问数据,与前两种方式相比,这种方式可以访问DataFrame类对象的单个数据。
选择特定的列 3.读取DataFrame的一部分行 read_csv函数允许按行读取DataFrame的一部分。有两种选择。第一个是读取前n行。...我们还可以使用skiprows参数从文件末尾选择行。Skiprows = 5000表示在读取csv文件时我们将跳过前5000行。...例如,thresh = 5表示一行必须具有至少5个不可丢失的非丢失值。缺失值小于或等于4的行将被删除。 DataFrame现在没有任何缺失值。...16.带删除的重置索引 在某些情况下,我们需要重置索引并同时删除原始索引。考虑从DataFrame中抽取样本的情况。该示例将保留原始DataFrame的索引,因此我们要重置它。...df[['Geography','Exited','Balance']]\ .sample(n=6).reset_index() ? 重设索引,但原始索引保留为新列。
= pd.date_range('1900/1/30', periods=df.shape[0]):增加一个日期索引 查看、检查数据 df.head(n):查看DataFrame对象的前n行 df.tail...(n):查看DataFrame对象的最后n行 df.shape():查看行数和列数 http:// df.info() :查看索引、数据类型和内存信息 df.describe():查看数值型列的汇总统计...():检查DataFrame对象中的空值,并返回一个Boolean数组 pd.notnull():检查DataFrame对象中的非空值,并返回一个Boolean数组 df.dropna():删除所有包含空值的行...df.dropna(axis=1):删除所有包含空值的列 df.dropna(axis=1,thresh=n):删除所有小于n个非空值的行 df.fillna(x):用x替换DataFrame对象中所有的空值...np.mean data.apply(np.max,axis=1):对DataFrame中的每一行应用函数np.max 数据合并 df1.append(df2):将df2中的行添加到df1的尾部 df.concat
10 行数据 Head 函数用来查看数据表中的前 N 行数据,默认 head()显示前 10 行数据,可以自己设置参数值来确定查看的行数。...下面的代码中设置查看前 3 行的数据。 ...1`#查看前 3 行数据``df.head(``3``)` df_head(3) 查看后 10 行数据 Tail 行数与 head 函数相反,用来查看数据表中后 N 行的数据,默认 tail()显示后...默认 Excel 会保留最先出现的数据,删除后面重复出现的数据。 删除重复项 Python 中使用 drop_duplicates 函数删除重复值。...,从结果中可以看到第一位的 beijing 被保留,最后出现的 beijing 被删除。
分析前操作 我们使用read读取数据集时,可以先通过info 方法了解不同字段的条目数量,数据类型,是否缺失及内存占用情况 案例:找到小成本高口碑电影 思路:从最大的N个值中选取最小值 movie2....DataFrame中的重复行。...last') # drop_duplicate方法的keep参数用于指定在删除重复行时保留哪个重复项 # 'first'(默认):保留第一个出现的重复项,删除后续重复项。...# 'last':保留最后一个出现的重复项,删除之前重复项。...方法 只能水平连接两个DataFrame对象 对齐是靠被调用的DataFrame的列或行索引和另一个DataFrame的列或行索引 默认是内连接(也可以设为左连接、外连接、右连接)
2.1.2 删除缺失值 pandas中提供了删除缺失值的方法dropna(),dropna()方法用于删除缺失值所在的一行或一列数据,并返回一个删除缺失值后的新对象。...how:表示删除缺失值的方式。 thresh:表示保留至少有N个非NaN值的行或列。 subset:表示删除指定列的缺失值。 inplace:表示是否操作原数据。...na_df[na_df.isnull().T.any()] # 删除缺失值 -- 将缺失值出现的行全部删掉 na_df.dropna() # 保留至少有3个非NaN值的行 na_df.dropna(...keep:表示采用哪种方式保留重复项,该参数可以取值为’first’(默认值)、 'last '和 ‘False’,其中’first’代表删除重复项,仅保留第一次出现的数据项;'last '代表删除重复项...;'last '代表删除重复项,仅保留最后一次出现的数据项;'False’表示删除所有的重复项。
领取专属 10元无门槛券
手把手带您无忧上云