首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python进阶之Pandas入门(三) 最重要数据流操作

通常,当我们加载数据集时,我们喜欢查看五行左右内容,以了解隐藏在其中内容。在这里,我们可以看到每一名称、索引每行中值示例。...,比如行数量、非空值数量、每个数据类型以及DataFrame使用了多少内存。...我们movies DataFrame中有1000行11。 在清理转换数据时,您将需要经常使用.shape。例如,您可能会根据一些条件过滤一些行,然后想要快速知道删除了多少行。...这意味着如果两行是相同,panda将删除第二行并保留第一行。使用last有相反效果:第一行被删除。 另一方面,keep将删除所有重复项。如果两行是相同,那么这两行都将被删除。...当条件选择显示在下面时,您将看到如何做到这一点。

2.6K20

2020年3月25日阿里笔试题

题目描述一 给定一个数组长度n,然后给三个长度为n数组,可以从这三个数组中选出一个长度为n数组,第i个位置需要是从给出三个数组第i个位置选择,然后要求使这个数组一项减一项绝对值之和最小。...这个问题可以看成是在矩阵中寻找一个路径,要求整个路径向之差绝对值最小。...可以想如何把问题规模缩小,显然下一个数选择,可以有三条路径,如果从第一行过来,那么就需要用到选了第一行路径最小值,同样也需要求出用到第二行第三行过来路径最小值。   ...根据题意,如果一个矩阵中可以确定两行或者两就可以完全确定这个矩阵。如何确定两行或者两呢,这两行这两必须有两个以上数字。...而且可以证明,行公差也是个等差数列,而这个时候我们称之为二阶公差,行二阶公差是相等。感谢我师兄讨论,给我启发。

31110

pandas.DataFrame.drop_duplicates 用法介绍

,就是在任何一上出现重复都算作是重复数据 keep 包含三个参数first, last, False,first是指,保留搜索到第一个重复数据,之后删除;last是指,保留搜索到最后一个重复数据...,之前搜索到重复数据都删除,False是指,把所有搜索到重复数据都删除,一个都不保留,即如果有两行数据重复,把两行数据都删除,而不是保留其中一行。...补充知识:python3删除数据重复值,只保留第一项。drop_duplicates()函数使用介绍 原始数据如下: ? f 3个数据都有重复项,现在要将重复值删去,只保留第一项或最后一项。...drop_duplicates() drop_duplicates(self, subset=None, keep=’first’, inplace=False) subset :如[‘a’]代表a重复值全部被删除...可以看到 f 重复值都被删除,且保留了第一项 以上这篇pandas.DataFrame.drop_duplicates 用法介绍就是小编分享给大家全部内容了,希望能给大家一个参考。

1.3K30

R&Python Data Science 系列:数据处理(3)

2 汇总函数 Python中汇总函数主要有summarize()summarize_each()函数,这里"汇总"翻译成概括更加合适,summarize()summarize_each(...###计算x、y、z最大值最小值 diamonds >> summarize_each([np.max, np.min], X.x, X.y, X.z) >> head(4) ?...累计聚合函数 累计聚合函数主要包括cumsum()、cummean()、cummax()、cummin()以及cumprod(),都是在某种排序规则下,函数作用于第一行记录,结果记在第一行,函数作用于两行记录...注意:Python中n()函数需要传入参数,R中不需要传入参数;Python中输出列按照字段名称升序排列,R中输出按照书写顺序输出。...5 总结 数据处理1-3,主要介绍了Python中dfplyR中dplyr包中数据处理函数,几乎满足数据预处理中筛选变量、衍生变量以及计算一些统计量需求。

1.3K20

【R语言】百分比表格删除两行重新计算百分比

好不容易算好每个样本中检测到微生物百分比含量 发现前面两行一个是没有分类类型,另外一个是无法比对到微生物物种上。这两行需要删掉,这样每个样本中微生物占比就需要重新计算了。...删除之前,每个样本中微生物占比为 下面我们用两种方法来实现 一、使用apply函数 #读入数据 a <- read.table(file="sample_bacteria_percentage.txt...",sep="\t",header=T,row.names=1) #删除两行 b=a[-(1:2),] #利用apply函数对做处理,除以每之和 result <- apply(b,2,function...=T,sep="\t",row.names=1) #删除两行 b=a[-(1:2),] #每个元素除以每之和 result=sweep(b,2,colSums(b),"/")*100 #检查每之和是不是...100% colSums(result) #保存结果 write.table(file="remove_recal_percent2.txt",result,quote=F,sep="\t") 删除之后

1.2K30

Python】基于多组合删除数据框中重复值

最近公司在做关联图谱项目,想挖掘团伙犯罪。在准备关系数据时需要根据两组合删除数据框中重复值,两中元素顺序可能是相反。...本文介绍一句语句解决多组合删除数据框中重复值问题。 一、举一个小例子 在Python中有一个包含3数据框,希望根据name1name2组合(在两行中顺序不一样)消除重复项。...import numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多组合删除数据框中重复值') #把路径改为数据存放路径 df =...打印原始数据行数: print(df.shape) 得到结果: (130, 3) 由于每两行中有一行是重复,希望数据处理得到一个65行3去重数据框。...numpy as np #导入数据处理库 os.chdir('F:/微信公众号/Python/26.基于多组合删除数据框中重复值') #把路径改为数据存放路径 name = pd.read_csv

14.6K30

R绘制堆积柱形图

前面给大家讲了☞【R语言】百分比表格删除两行重新计算百分比,有小伙伴对文中两个堆积柱形图比较感兴趣。那么今天我们就来聊聊这两张图是如何绘制出来了。...我们还是以☞【R语言】百分比表格删除两行重新计算百分比中数据为例 #读入数据 a <- read.table(file="sample_bacteria_percentage.txt",sep="\...t",header=T,row.names=1) #生成png图片,删除之前堆积柱形图 png(file="before.png",width=560,height=400) #设置图片右边空白宽度,...inset = c(-0.35, 0), #水平微调 col=rainbow(20), #颜色 bty="n" #图注不要边框 ) dev.off() #删除两行...b=a[-(1:2),] #利用apply函数对做处理,除以每之和 result <- apply(b,2,function(x)x/(sum(x))*100) #检查每之和是不是100% colSums

55310

新手入门学习python Numpy基础操作

NumPy(Numerical Python) 是 Python 语言一个扩展程序库,支持大量维度数组与矩阵运算,此外也针对数组运算提供大量数学函数库。...是在学习机器学习、深度学习之前应该掌握一个非常基本且实用Python库。...], [26, 27, 28 ,29, 30], [31, 32, 33, 34, 35]]) #创建多维数组 a=np.zeros((2, 3)) #创建两行...() #返回方差 cumprod() #原数组该位置几项元素乘 (累乘数组),可以使用axis指定方向,0表示纵向,1表示横向,默认横向 cumsum() #原数组该位置几项元素 (累加数组)...ptp() #返回最大值减去最小值 np索引切片 import numpy as np data = np.arange(12).reshape((3, 4)) print(data) ##对数组元素进行索引切片

55210

vim 从嫌弃到依赖(7)——可视模式

选择模式 在一般编辑器中,选中一段文本,输入任意字符会先删除选中部分然后再插入输入字符,但是vim可视模式并没有这么做。...Python代码 def fib(n): a , b = 0, 1 while a < n: print(a) a , b = b, a + b fib(42) 要将中间两行缩进两次,变为下面的代码...重复,效果与上面的解法1一样,这里就不演示了 解法3:使用 V 选中一行,然后使用2> 缩进2次,移动到下一行使用 .重复 解法4:使用V 选中一行,然后使用j 再选中一行,接着使用2>> 将选中两行一次缩进两次...这个时候我们发现vim在被选中区域每一行尾部都添加了一个分号 在普通模式下 i I a A 都有自己用途,而在处理可视模式下我们都只是在用 I A ,而且他们含义与在普通模式下有所不同...至于a i 这里则代表要处理文本对象。 到此我们介绍完了vim中又一个常用模式,再下一篇中,将介绍vim另一种常用模式——命令模式。

40630

Pandas数据探索分析,分享两个神器!

,该报告还包含以下信息: “ 类型推断:检测数据帧中数据类型。...要点:类型,唯一值,缺失值 分位数统计信息,例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围 描述性统计数据,例如均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度 最常使用值...直方图 相关性矩阵 缺失值矩阵,计数,热图缺失值树状图 文本分析:了解文本数据类别(大写,空格),脚本(拉丁,西里尔字母)块(ASCII) ” 进一步我们还以将该报告保存为html格式,方便后续查看...sweetviz 第二个值得一用是 sweetviz,同样是一个开源 Python 库,可生成美观、高密度可视化,只需两行代码即可启动 EDA。 该插件围绕快速可视化目标值比较数据集而构建。...使用方法也是类似,导入数据只需两行代码即可输出分析报告 import sweetviz as sv report = sv.analyze(df) report.show_html() pandas_profiling

1.2K30

Pandas数据探索分析,分享两个神器!

,该报告还包含以下信息: “ 类型推断:检测数据帧中数据类型。...要点:类型,唯一值,缺失值 分位数统计信息,例如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围 描述性统计数据,例如均值,众数,标准偏差,总和,中位数绝对偏差,变异系数,峰度,偏度 最常使用值...直方图 相关性矩阵 缺失值矩阵,计数,热图缺失值树状图 文本分析:了解文本数据类别(大写,空格),脚本(拉丁,西里尔字母)块(ASCII) ” 进一步我们还以将该报告保存为html格式,方便后续查看...sweetviz 第二个值得一用是 sweetviz,同样是一个开源 Python 库,可生成美观、高密度可视化,只需两行代码即可启动 EDA。 该插件围绕快速可视化目标值比较数据集而构建。...使用方法也是类似,导入数据只需两行代码即可输出分析报告 import sweetviz as sv report = sv.analyze(df) report.show_html() pandas_profiling

1.5K20

Python | 如何使用Python操作Excel(二)

ws.insert_rows(1, 2) # 在第一行插入两个 ws.delete_rows(2) # 删除第二行 ws.delete_rows(2, 2) # 删除第二行及其后边一行(共两行) ws.insert_cols...(3) # 在第三插入一 ws.insert_cols(3, 2) # 在第三插入两 ws.delete_cols(4) # 删除第四 ws.delete_cols(4, 2) #删除第四及其后边一...ws.move_range("D4:F10", rows=-1, cols=2) 会将单元格D4-F10,向上移动1行,想右移动两行。参数owscols用来控制单元格移动方向。...复习下今天内容 今天内容主要是及第一篇文章之后,继续讲如何使用Python操作单元格工作表。...插入/删除行或,访问单元格方法 移动单元格,合并/拆分单元格 插入图像、使用公式折叠行/ 使用数字格式,只读只写模式 好了,今天内容就到这里了。我们下次见。

5.9K20

Shell四剑客实操案例

#查询不包括xy行号行;r #从另一个文件中读文件;w #将文本写入到一个文件;y #变换字符;q #第一个模式匹配完成后退出;l #显示与八进制ASCII码等价控制字符; 常用SED工具企业演练案...在jfedu.txt每行加入空行,也即每行占永两行空间,每一行后边插入一行空行、两行空行及三行每行插入空行: sed ‘/^$/d;G’ jfedu.txtsed ‘/^$/d;G;G’ jfedu.txtsed...‘/^$/d;1,3G;’ jfedu.txt 将jfedu.txt偶数行删除及隔两行删除一行: sed ‘n;d’ jfedu.txtsed ‘n;n;d’ jfedu.txt 在jfedu.txt...x;G;}’ jfedu.txt 在jfedu.txt每行加入空行,也即每行占永两行空间,每一行后边插入空行: sed ‘/^$/d;G’ jfedu.txt 在jfedu.txt每行加入空行,...打印及删除jfedu.txt最后两行: sed ‘$!

2.1K21

MVCC 水略深,但是弄懂了真的好爽!

TRANSACTION; SELECT * from account; delete from account where name='zhangsan'; COMMIT; 我们执行步骤如下: 首先执行 B 窗口两行...执行 A 窗口两行,向数据库中添加一个名为 zhangsan 用户,注意不用提交事务。 执行 B 窗口第二行,由于脏读问题,此时可以查询到 zhangsan 这个用户。...执行 B 窗口第三行,去删除 name 为 zhangsan 记录,这个时候删除就会出问题,虽然在 B 窗口中可以查询到 zhangsan,但是这条记录还没有提交,是因为脏读原因才看到了,所以是没法删除...from account; insert into account(name,balance) values('zhangsan',1000); COMMIT; 测试方式如下: 首先执行 B 窗口两行...执行 A 窗口两行 SQL,插入一条记录,但是并不提交事务。 执行 B 窗口第二行 SQL,由于现在已经没有了脏读问题,所以此时查不到 A 窗口中添加数据。

32520

Python复杂排序闯5关,你能闯到第几关?

前言 python 中对集合执行排序是非常简单。 那希望按文本长度排序,把长文本排到后面,如何做到? 元素是复杂结构,比如字典。如何按分数降序排序? 需要同时对多个字段排序呢?...行4:对 key 排序 最后取出名字 后面,我们会看到使用自定义函数指定更复杂规则 ---- 第三关,复杂结构排序 当 python 无法确定元素排序规则时,就需要设置参数 key。...设置参数 reverse 指定为降序 ---- 第四关,多排序 这里需要同时对分数年龄进行降序排序。 同样,需要设置参数 key ,但 lambda 表达式中到底要返回什么呢?...此时,我们可以利用元组特性,每个元组比较时候,都会从左到右顺序比较。 可以看到结果中两行,同样分数,年龄高被排到前面 ---- 第五关,多,不同升降序 这一关最难了。...要解决这个问题,我们需要简单了解 python 稳定排序意思。 首先,只对分数进行排序。 现在只看这两行记录。

68020

统计师Python日记【第七天:数据清洗(1)】

本文是【统计师Python日记】第7天日记 回顾一下: 第1天学习了Python基本页面、操作,以及几种主要容器类型。 第2天学习了python函数、循环条件、类。...介绍两个方法:data.duplicated() data.drop_duplicates(),前者标记出哪些是重复(true),后者直接将重复删除。 ? ?...以上是按照“有两行数据,这两行数据所有变量值都一样,这么这两行就算重复数据”,但有时候我们会只根据一个变量来剔除重复,比如值根据Areas这个变量,那么A/B/C/D四个地区只会保留第一条,传入take_last...有两个变量值得我们注意,一个是age,最大值158、最小值6,肯定有问题,另一个是package,最小值是-9,存在缺失。...将在【第8天:数据清洗(2)文本分析】中学习,除此之外,还要学习如何进行分列处理、如何处理文本数据中空白,如何使用正则表达式。

1.6K101
领券