首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Excel实战技巧55: 包含重复列表查找指定数据最后出现数据

文章详情:excelperfect 本文题目比较拗口,用一个示例来说明,如下图1所示,是一个记录员工值班日期表,安排每天值班时,需要查看员工最近一值班日期,以免值班时间隔得太近。...A2:A10,如果相同返回TRUE,不相同则返回FALSE,得到一个由TRUE和FALSE组成数组,然后与A2:A10所行号组成数组相乘,得到一个由行号和0组成数组,MAX函数获取这个数组最大...,也就是与单元格D2相同数据A2:A10最后一个位置,减去1是因为查找是B2:B10,是从第2开始,得到要查找B2:B10位置,然后INDEX函数获取相应。...图2 使用LOOKUP函数 公式如下: =LOOKUP(2,1/($A$2:$A$10=$D$2),$B$2:$B$10) 公式,比较A2:A10与D2,相等返回TRUE,不相等返回FALSE...组成数组,由于这个数组找不到2,LOOKUP函数在数组中一直查找,直至最后一个比2小最大,也就是数组最后一个1,返回B2:B10对应,也就是要查找数据列表中最后

10.4K20

精品教学案例 | 金融贷款数据清洗

此处挑选具有代表性说明其含义,完整数据字典可以查看源数据网页DATA DICTIONARY。...一般来说,删除缺失所用函数是dropna(),其原理是删除带有任何存有缺失,对于真实数据集中不同列有不同缺失存在地方,甚至可能有某一全是缺失,简单使用dropna()函数就会直接得到如下结果...,可以发现缺失比例(0.01%,80%),除3数据缺失56%以上,其余数据缺失均小于17%,故可以简单认为在此数据集中缺失56%以上数据提供信息有限,故将缺失百分比56%以上数据全部删除...为了演示重复检测方法,此处从数据随机选取一个并将其添加到数据。...首先读取DataFrame列名,并将其写入到文件第一,因为写入文件函数write()参数需要是一个字符串,所以首先对读取到列名进行简单字符串粘贴,且最后加入转义字符\n进行换行,方便接下来内容写入

4.3K21
您找到你想要的搜索结果了吗?
是的
没有找到

盘点66个Pandas函数,轻松搞定“数据清洗”!

head()方法和tail() 方法则是分别显示数据集n和后n行数据。如果想要随机看N数据,可以使用sample()方法。...df.shape 输出: (5, 2) 另外,len()可以查看某行数,count()则可以查看该有效个数,不包含无效(Nan)。...df["gender"].unique() df["gender"].nunique() 输出: 在数值数据操作,apply()函数功能是将一个自定义函数作用于DataFrame或者;applymap...操作 数据清洗时,会将带空删除,此时DataFrame或Series类型数据不再是连续索引,可以使用reset_index()重置索引。...df.select_dtypes("int64") 输出: isin()接受一个列表,判断该中元素是否列表

3.7K11

最全面的Pandas教程!没有之一!

于是我们可以选择只对某些特定或者进行填充。比如只对 'A' 进行操作,处填入该平均值: ? 如上所示,'A' 平均值是 2.0,所以第二被填上了 2.0。...数值处理 查找不重复重复一个 DataFrame 里往往是独一无二,与众不同。找到不重复,在数据分析中有助于避免样本偏差。... Pandas 里,主要用到 3 种方法: 首先是 .unique() 方法。比如在下面这个 DataFrame 里,查找 col2 中所有不重复: ?...比如对 col3 取长度 len : ? 有的时候,你定义了一个函数,而它其实只会被用到一。那么,我们可以用 lambda 表达式来代替函数定义,简化代码。...由于一个页面上含有多个不同表格,我们需要通过下标 [0, ..., len(tables) - 1] 访问数组不同元素。 下面的这个例子,我们显示是页面第 2 个表格: ? 结语 恭喜!

25.8K64

如何用Python将时间序列转换为监督学习问题

时间序列是按照时间索引排列一串数字,可以理解为有序构成数据或有序列表。...t 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 通过观测数据插入新,我们可以将上面展示观测位置下移一格,由于新加并没有数据...这个函数共有4个参数: data:观测序列,类型为列表或者二维Numpy数组,必选参数。 n_in:作为输入滞后观测数量(X)。介于1..len(data)之间,可选参数,默认为1。...n_out:作为输出观测数量(y)。介于0..len(data)-1之间,可选参数,默认为1。 dropnan:是否删除具有NaN,类型为布尔。可选参数,默认为True。...除此之外,具有NaN已经从DataFrame自动删除。 我们可以指定任意长度输入序列(如3)来重复这个例子。

24.7K2110

数据分析 ——— pandas数据结构(一)

Series和DataFrame是现在常用两种数据类型。 1. Series Series和一维数组很像,只是它每一个都有一个索引,输出显示时索引左,右。...pandas.Series( data, index=index, dtype, copy) data: 可以是多种类型,如列表,字典,标量等 index: 索引必须是唯一可散,与数据长度相同,...DataFrame DataFrame是一个2维标签数据结构,它可以存在不同类型。你可以把它简单想成Excel表格或SQL Table,或者是包含字典类型Series。...columns: 对于标签,可选默认语法是 - np.arrange(n)。这只有没有通过索引情况下才是正确。...) """ 输出: Empty DataFrame Columns: [] Index: [] """ 2) 从列表创建一个DataFrame DateFrame可以使用单个列表或者列表列表创建 data

2K20

用Python将时间序列转换为监督学习问题

我们可以定义一个由 10 个数字序列组成伪时间序列数据集,该例子DataFrame 单个一如下所示: from pandas import DataFrame df = DataFrame(...由于 NaN ,第一需要被抛弃。第二第二(输入 X)现实输入是 0.0,第一是 1 (输出 y)。...它帮助我们用机器学习算法探索同一个时间序列问题不同框架,来找出哪一个将会产生具有更好效果模型。这部分,我们为 series_to_supervised() ,一个新 Python 函数定义。...可能在 [1..len(data)] 之间。可选。默认为 1 。 n_out: 作为输出 y 观察数量。可能在 [0..len(data)-1] 之间。可选。默认为 1 。...还可以看到,NaN 值得,已经自动从 DataFrame 移除。我们可以用随机数字长度输入序列重复该例子,比如 3。这可以通过把输入序列长度确定为参数来实现。

3.8K20

Python3快速入门(十三)——Pan

DataFrame是带有标签二维数据结构,具有index(标签)和columns(标签)。如果传递index或columns,则会用于生成DataFrameindex或columns。...如果没有传递索引,那么默认索引是range(n),其中n是数组长度,即[0,1,2,3…. range(len(array))-1] - 1]。...如果没有传递索引,那么默认索引是range(n),其中n是list长度,即[0,1,2,3…. range(len(list))-1] - 1]。...2、DataFrame特点 数据帧(DataFrame)功能特点如下: (1)底层数据不同类型 (2)大小可变 (3)标记轴() (4)可以对执行算术运算 3、DataFrame对象构造...index:索引标签,如果没有传递索引,索引默认为np.arrange(n)。 columns:索引标签,如果没有传递索,默认索引是np.arange(n)。

8.4K10

直观地解释和可视化每个复杂DataFrame操作

初始DataFrame中将成为索引,并且这些显示为唯一,而这两组合将显示为。这意味着Pivot无法处理重复。 ? 旋转名为df DataFrame代码 如下: ?...Melt Melt可以被认为是“不可透视”,因为它将基于矩阵数据(具有二维)转换为基于列表数据(列表表示唯一数据点),而枢轴则相反。...诸如字符串或数字之类列表项不受影响,空列表是NaN(您可以使用.dropna()清除它们 )。 ? DataFrame dfExplode“ A ” 非常简单: ?...因此,所得DataFrame具有和两级索引。 ? 堆叠名为df表就像df.stack()一样简单 。 为了访问狗身高,只需两调用基于索引检索,例如 df.loc ['dog']。...另一方面,如果一个键同一DataFrame列出两,则在合并表中将列出同一键每个组合。

13.3K20

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

Pandas ,索引可以设置为一个(或多个)唯一,这就像在工作表中有一用作标识符一样。与大多数电子表格不同,这些索引实际上可用于引用。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有和高Excel电子表格,可以使用条件公式进行逻辑比较。...按排序 Excel电子表格排序,是通过排序对话框完成。 pandas 有一个 DataFrame.sort_values() 方法,它需要一个列表来排序。...删除重复项 Excel 具有删除重复内置功能。熊猫通过 drop_duplicates() 支持这一点。...查找和替换 Excel 查找对话框将您带到匹配单元格。 Pandas ,这个操作一般是通过条件表达式一对整个DataFrame 完成。

19.5K20

Pandas

[:][m:n] DataFrame.head/tail():访问前/后五 整数标签特殊情况 为了防止计算机不知道用户输入索引是基于位置还是基于标签,pd 整数标签索引是基于标签,也就是说我们不能像列表一样使用...),除了指明axis对或者标签名字进行调整以外,还可以写成类似于index=mapper形式,默认情况下,mapper匹配不到不会报错 更改 DataFrame 数据 更改 更改可以借助访问...分组 Pandas 提供了 DataFrame.groupby()方法,按照指定分组键,将具有相同键值记录划分为同一组,将具有不同键值记录划分到不同组,并对各组进行统计计算。...随机抽样 随机抽样用到是 df.sample(n)函数,该函数返回为对于 df 以行为抽样单位进行随机抽样,返回是从总体随机抽出 n 组成 df(默认不可以重复,可以调整参数) import...汽车销售数据交叉透视表前1010 为:\n',vsCross.iloc[:10,:10]) 转换数据–DataFrame 数据离散化 进行数据分析时,需要先了解数据分布特征,如某个出现频次

9.1K30

通俗易懂 Python 教程

第二第二(输入 X)现实输入是 0.0,第一是 1 (输出 y)。 我们能看到,如果在 shift 2、3 …… 重复该过程,要如何创建能用来预测输出 y 长输出序列(X)。...这起到了通过末尾插入新,来拉起观察作用。下面是例子: 运行该例子显示出,新最后一个是一个 NaN 。可以看到,预测可被作为输入 X,第二作为输出 (y)。...它帮助我们用机器学习算法探索同一个时间序列问题不同框架,来找出哪一个将会产生具有更好效果模型。这部分,我们为 series_to_supervised() ,一个新 Python 函数定义。...可能在 [1..len(data)] 之间。可选。默认为 1 。 n_out: 作为输出 y 观察数量。可能在 [0..len(data)-1] 之间。可选。默认为 1 。...还可以看到,NaN 值得,已经自动从 DataFrame 移除。我们可以用随机数字长度输入序列重复该例子,比如 3。这可以通过把输入序列长度确定为参数来实现。

2.4K70

十分钟入门 Pandas

series字典; 关键点 异构数据; 大小可变; 数据可变; 功能特点 潜在类是不同类型; 大小可变; 标记轴(); 可对执行算术运算; Panel 定义 三维,大小可变数组...(),为DataFrame每一返回一个产生一个命名元祖迭代器,元祖第一个元素将是相应索引,剩余 print('itertuples:') for row in dataFrame.itertuples...# 7、get_dummies() 返回具有单热编码数据帧(DataFrame)。...# 9、replace(a,b) 将a替换为b。 # 10、repeat(value) 重复每个元素指定次数。 # 11、count(pattern) 返回模式每个元素出现总数。...# 14、find(pattern) 返回模式第一出现位置。 # 15、findall(pattern) 返回模式所有出现列表

3.7K30

通俗易懂 Python 教程

第二第二(输入 X)现实输入是 0.0,第一是 1 (输出 y)。 我们能看到,如果在 shift 2、3 ……重复该过程,要如何创建能用来预测输出 y 长输出序列(X)。...这起到了通过末尾插入新,来拉起观察作用。下面是例子: 运行该例子显示出,新最后一个是一个 NaN 。可以看到,预测可被作为输入 X,第二作为输出 (y)。...它帮助我们用机器学习算法探索同一个时间序列问题不同框架,来找出哪一个将会产生具有更好效果模型。这部分,我们为 series_to_supervised() ,一个新 Python 函数定义。...可能在 [1..len(data)] 之间。可选。默认为 1 。 n_out: 作为输出 y 观察数量。可能在 [0..len(data)-1] 之间。可选。默认为 1 。...还可以看到,NaN 值得,已经自动从 DataFrame 移除。我们可以用随机数字长度输入序列重复该例子,比如 3。这可以通过把输入序列长度确定为参数来实现。

1.5K50

十分钟入门Pandas

字典; 关键点 异构数据; 大小可变; 数据可变; 功能特点 潜在类是不同类型; 大小可变; 标记轴(); 可对执行算术运算; Panel 定义 三维,大小可变数组; 关键点...(),为DataFrame每一返回一个产生一个命名元祖迭代器,元祖第一个元素将是相应索引,剩余 print('itertuples:') for row in dataFrame.itertuples...# 7、get_dummies() 返回具有单热编码数据帧(DataFrame)。...# 9、replace(a,b) 将a替换为b。 # 10、repeat(value) 重复每个元素指定次数。 # 11、count(pattern) 返回模式每个元素出现总数。...# 14、find(pattern) 返回模式第一出现位置。 # 15、findall(pattern) 返回模式所有出现列表

4K30

最全攻略:数据分析师必备Python编程基础知识

] 字典支持按照键访问相应形式,如下所示: dict1['Lily'] 28 这里需要注意定义字典时,键不能重复,否则重复键值会替代原先键值,如下所示,键’Lily’产生重复,其被替换。...DataFrame即是我们常见二维数据表,包含多个变量()和样本(),通常称为数据框;Series是一个一维结构序列,会包含指定索引信息,可以视作是DataFrame或一,操作方法与...命令行打印DataFrame对象其可读性可能会略差一些,如果在jupyter notebook 执行的话,则DataFrame可读性会大幅提升: ?...▲图3-2 jupyter notebookDataFrame展现 打印出来DataFrame包含了索引(index,第一),列名(column,第一)及数据内容(values,除第一和第一之外部分...、元组、字典等数据结构创建DataFrame, 1.2 读取指定和指定 使用参数usecol和nrows读取指定和前n,这样可以加快数据读取速度。

4.5K21

不平衡数据集分类实战:成人收入数据集分类模型训练和评估

总共有48842数据,3620含有缺失数据,45222具有完整数据,其中缺失用?标记。 有'>50K'和'<=50K'两类标签数据,也就是说它是一个二分类任务。...首先我们加载了数据集,并确认了数量,即45222,15(14个输入变量和一个目标变量)。...而分层表示每一个折叠将包含相同混合比例(即每个折叠中指标数据都具有75%-25%分布特征)。重复表示评估过程将被多次执行,以避免偶然结果和更好地捕获所选模型方差,本教程,我们将重复。...模型评价 在上一节,我们看到,基准算法性能良好,但还有很大优化空间。 本节,我们将使用上一节中所描述评价方法评估作用于同一数据集不同算法。...可以看到,预测和真实是一致,说明模型具有很好预测功能。

2.1K21

Pandas入门教程

axis表示轴向,axis=1,表示纵向(删除一) 2.3 索引操作 loc loc主要是基于标签(label),包括标签(index)和标签(columns),即行名称和列名称,可以使用df.loc....drop_duplicates() # 某一后出现重复数据被清除 删除先出现重复 df['A'] = df['A'].drop_duplicates(keep=last) # # 某一先出现重复数据被清除...如果您在连接轴没有有意义索引信息情况下连接对象,这将非常有用。请注意,其他轴上索引连接仍然有效。 keys: 序列,默认无。使用传递键作为最外层构建分层索引。...levels: 序列列表,默认无。用于构建 MultiIndex 特定级别(唯一)。否则,它们将从密钥推断出来。 names: 列表,默认无。生成分层索引中级别的名称。...可以是列名称、索引级别名称或长度等于 DataFrame 或 Series 长度数组 left_index:如果True,则使用左侧 DataFrame 或 Series 索引(标签)作为其连接键

1K30
领券