导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 name = pd.read_csv('name.csv...结果和按照某一列去重(参数为默认值)是一样的。 如果想保留原始数据框直接用默认值即可,如果想直接在原始数据框删重可设置参数inplace=True。...四、按照多列去重 对多列去重和一列去重类似,只是原来根据一列是否重复删重。现在要根据指定的列判断是否存在重复(顺序也要一致才算重复)删重。...原始数据中只有第二行和最后一行存在重复,默认保留第一条,故删除最后一条得到新数据框。 想要根据更多列数去重,可以在subset中添加列。...但是对于两列中元素顺序相反的数据框去重,drop_duplicates函数无能为力。 如需处理这种类型的数据去重问题,参见本公众号中的文章【Python】基于多列组合删除数据框中的重复值。 -end-
最近公司在做关联图谱的项目,想挖掘团伙犯罪。在准备关系数据时需要根据两列组合删除数据框中的重复值,两列中元素的顺序可能是相反的。...本文介绍一句语句解决多列组合删除数据框中重复值的问题。 一、举一个小例子 在Python中有一个包含3列的数据框,希望根据列name1和name2组合(在两行中顺序不一样)消除重复项。...import numpy as np #导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 df =...从上图可以看出用set替换frozense会报不可哈希的错误。 三、把代码推广到多列 解决多列组合删除数据框中重复值的问题,只要把代码中取两列的代码变成多列即可。...numpy as np #导入数据处理的库 os.chdir('F:/微信公众号/Python/26.基于多列组合删除数据框中的重复值') #把路径改为数据存放的路径 name = pd.read_csv
目 录 技巧1、单元格内强制换行 技巧2、锁定标题行 技巧3、打印标题行 技巧4、查找重复值 技巧5、删除重复值 技巧6、快速输入对号√ 技巧7、万元显示 技巧8、隐藏0值 技巧9、隐藏单元格所有值。...技巧4、查找重复值 选取数据区域 - 开始 - 条件格式 - 突出显示单元格规则 - 重复值。 ? 显示效果: ? 技巧5、删除重复值 选取含重复值的单元格区域,数据 - 删除重复值。 ?...版数据菜单 - 有效性,excel2007和2010版本 数据选项卡 - 数据有效性 - 数据有效性),在窗口中的“设置”选项卡里选“序列”。...你试着在黄色之外的区域修改或插入行/列,就会弹出如下图所示的提示。 ? 技巧29、文字跨列居中显示 如果你不想合并单元格,又想让文字跨列显示。...技巧32、解决数字不能求和 数据导入Excel中后居然是以文本形式存在的(数字默认是右对齐,而文本是左对齐的),即使是重新设置单元格格式为数字也无济于事。
EXCEL凭借其功能强大的函数、可视化图表、以及整齐排列的电子表格功能,使你能够快速而深入的洞察到数据不轻易为人所知的一面。...4.多表格数据快速查找 查找替换功能都会使用,如果想要在三百张的表格数据中找到想要的内容应该怎么办呢?嗯简单在查找替换的时候,选择工作范围按钮进行操作,如下图: ?...6.高亮显示重复值 选中数字区域,之后点击开始——条件格式——突出显示单元格规则——重复即可。 ?...7.高亮显示每一列数据的最大值 选中数据区域,点击开始——条件格式——新建规则——使用公式确定要设置格式的单元格,在相应的文本框中输入公式=B2=MAX(B$2:B$7),然后设置填充颜色即可。 ?...9.批量计算单元格内的公式 先输入一个空格,之后输入=3*8,选中区域,按Ctrl+E进行快速填充,随后按Ctrl+H打开查找和替换对话框,在查找中输入=,在替换中输入空格+等号,全部替换,然后在查找中输入空格
df.sort_values("col1", inplace=True) 数据输入和输出 1. 利用值构造一个数据框DataFrame 在Excel电子表格中,值可以直接输入到单元格中。...我们可以用多种不同的方式构建一个DataFrame,但对于少量的值,通常将其指定为 Python 字典会很方便,其中键是列名,值是数据。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有低值和高值的列。 在Excel电子表格中,可以使用条件公式进行逻辑比较。...; 如果匹配多行,则每个匹配都会有一行,而不仅仅是第一行; 它将包括查找表中的所有列,而不仅仅是单个指定的列; 它支持更复杂的连接操作; 其他注意事项 1....查找和替换 Excel 查找对话框将您带到匹配的单元格。在 Pandas 中,这个操作一般是通过条件表达式一次对整个列或 DataFrame 完成。
1.ctrl+F打开“查找与替换”对话框; 2.在查找对话框输入李*; 3.勾选“单元格匹配”,点击确定即可。 ?...1.选择数据,单击【数据】,选择【删除重复项】,会出现【删除重复项】对话框; 2.我们将“重复项”定义为所有字段的内容都完全相同的记录,那么在这里就要把所有列都勾选上。 ?...注:如果只是把某列相同的记录定义为重复项那么只需要勾选那一列字段即可。 3 快速删除数据 在Excel表格中,如果有很多无用的空行,我们的需求是想把它们全部删除。...1.点击Excel“开始”选项卡中的“查找和选择”按钮,选择下拉菜单中的“定位条件”选项; 2.打开定位条件对话框后,点击“空值”选项; 3.选中“空值”选项后,再点击“确定”按钮; 4....5 小结 对于数据分析,Excel可以被当做一款入门的软件。EXCEL凭借其功能强大的函数、可视化图表、以及整齐排列的电子表格功能,使你能够快速而深入的洞察到数据不轻易为人所知的一面。
第3行和第4行包含相同的用户名,但国家和城市不同。 删除重复值 根据你试图实现的目标,我们可以使用不同的方法删除重复项。最常见的两种情况是:从整个表中删除重复项或从列中查找唯一值。...我们将了解如何使用不同的技术处理这两种情况。 从整个表中删除重复项 Python提供了一个方法.drop_duplicates()可以帮助我们轻松删除重复项!...此方法包含以下参数: subset:引用列标题,如果只考虑特定列以查找重复值,则使用此方法,默认为所有列。 keep:保留哪些重复值。’...如果我们指定inplace=True,那么原始的df将替换为新的数据框架,并删除重复项。 图5 在列表或数据表列中查找唯一值 有时,我们希望在数据框架列的列表中查找唯一值。...图7 Python集 获取唯一值的另一种方法是使用Python中的数据结构set,集(set)基本上是一组唯一项的集合。由于集只包含唯一项,如果我们将重复项传递到集中,这些重复项将自动删除。
题目的要求是包含“长安”这两个关键字的整个单元格替换成“长安保险公司”,而不是部份文字变动。而且“长安”这两字可能位于开头,也可以是中间或者是结尾,这两个关键字的位置不确定。...本题我们用星号通配符比较合适,选中抵押权人这一列里的内容,Ctrl+F 快捷键打开【查找和替换】对话框。...在【查找和选择】下拉列表中选择【定位条件】,也可以使用快捷键F5,弹出【定位】对话框。 点击左下角的“定位条件”按钮,弹出的【定位条件】窗口。...本例的最终公式为两个函数嵌套使用,具体如下: image.png 当姓名固定不变时,住宅电话在整张表的第3列,所以INDEX函数的第三参数变成3表示在整个表格中,第1行第3列的值就是李项的住宅电话,...具体的设置如下,选中要输入身份证的区域,【数据验证】,打开以下对话框并像以下这样设置好设置好内容: image.png 输入的公式具体为: image.png 当身份证的长度是是15位或者18位并且没有重复值时为
当我们鼠标单击“显示值”列的任一单元格,在编辑栏里,我们可以看到其“内核”其实是和输入值一致的。 例如,点击单元格C4,在编辑栏里会看到其实质和输入值“猴子”是一致的。...在“设置单元格格式”对话框中,我们可以看到文本的数字格式代码为@。 既然@代表一个文本占位符,那么,如果想文本重复显示,是不是重复@就能实现呢?...有人说,我直接用【查找和选择】里的替换功能,把“北”字替换为“练习”不就行了吗?看清楚题意,在案例里,是把含有“北”字的单元格内容进行替换,而不是对一个“北”字进行替换。...通过观察籍贯列,可以发现,“北”字在不同的籍贯里,可能是位于第1位,也可能是位于第2位,或第5位等,总之,“北”字字符位置是不确定的。 在excel里,可以使用通配符来进行模糊查找。...选中籍贯列,Ctrl+F 快捷键打开【查找和替换】对话框,在“查找内容”框里输入“*北*”,在“替换为”对话框里输入“练习”,再点击【全部替换】。
方法用途示例示例说明info查看数据框的索引和列的类型、费控设置和内存用量信息。...例如可以从dtype的返回值中仅获取类型为bool的列。 3 数据切片和切块 数据切片和切块是使用不同的列或索引切分数据,实现从数据中获取特定子集的方式。...4 数据筛选和过滤 数据筛选和过滤是基于条件的数据选择,本章2.6.3提到的比较运算符都能用于数据的筛选和选择条件,不同的条件间的逻辑不能直接用and、or来实现且、或的逻辑,而是要用&和|实现。...a或col3值为True的记录使用isin查找范围基于特定值的范围的数据查找In: print(data2[data2['col1'].isin([1,2])]) Out: col1 col2...,默认计算方式为求均值 8 高级函数使用 Pandas能直接实现数据框级别高级函数的应用,而不用写循环遍历每条记录甚至每个值后做计算,这种方式能极大提升计算效率,具体如表8所示: 表8 Pandas
简而言之,向量化是一种同时操作整个数组而不是一次操作一个元素的方法,这也得益于Numpy数组。 我们先导入测试数据: 第一次向量化测试: 以这个函数为例。...或者使用如下方法: 接下来,我们尝试一下使用向量化。将整个Series作为参数传递到函数中,而不是对每一行。 但没有成功。...vectorize()主要是为了方便,而不是为了性能。实质上是一个for loop。 我们可以使用它的一种方式,包装我们之前的函数,在我们传递列时不起作用的函数,并向量化它。...代码如下: 如果添加了.values: 4 更复杂的 有时必须使用字符串,有条件地从字典中查找内容,比较日期,有时甚至需要比较其他行的值。我们来看看!...向量化所需要的所有函数都是在同一行上比较的值,这可以使用pandas.shift()实现! 确保你的数据正确排序,否则你的结果就没有意义! 很慢!
纠正错误 R有许多预先构建的方法来纠正数据错误,例如转换值,就像在Excel或SQL中那样,使用简单的逻辑,例如as.charater()将列转换为字符串。...它与plyr包非常相似,虽然年龄较大,但有些用户只是觉得它的使用更容易,功能也更标准化。 sqldf包 很多R用户更习惯用SQL语言而不是R编码。...这个函数允许你在R studio中编写SQL代码来选择你的数据元素 Janitor包 该软件包能够通过多个列查找重复项,并轻松地从您的数据框中创建友好列。...它甚至还有一个get_dupes()函数,用于在多行数据中查找重复值。如果您希望以更高级的方式重复数据删除,例如,查找不同的组合或使用模糊逻辑,您可能需要查看重复数据删除工具。...splitstackshape包 这是一个较旧的包,可以使用数据框列中的逗号分隔值。用于调查或文本分析准备。 R拥有大量的软件包,本文只是触及了它可以做的事情的表面。
从NumPy数组中获取数据的另一种超级有用的方法是布尔索引,它允许使用各种逻辑运算符,来检索符合条件的元素: ? 注意:Python中的三元比较3<=a<=5在NumPy数组中不起作用。...axis参数 在许多操作(例如求和)中,我们需要告诉NumPy是否要跨行或跨列进行操作。...但是当涉及一维数组与矩阵之间的混合堆叠时,vstack可以正常工作:hstack会出现尺寸不匹配错误。 因为如上所述,一维数组被解释为行向量,而不是列向量。...fromfunction如上所述,仅使用I和J参数一次调用提供的函数。 但是实际上,在NumPy中有一种更好的方法。无需在整个矩阵上耗费存储空间。...all和any两个函数也能使用axis参数: ? 矩阵排序 尽管axis参数对上面列出的函数很有用,但对二维排序却没有帮助: ? axis绝不是Python列表key参数的替代。
1.制作下拉列表 第1步:A列中的机构名称有很多是重复的,把这一列的值复制到表格空白处,然后删除重复值后,发现这一列的机构名称只有A、B、C共3家。...在Excel表空白的地方,写上A机构、B机构、C机构,用于后面制作下拉列表里的值(下图)。这样做的目的是防止重复值出现在下拉列表里。...同样的道理,如果B列的利率档没有重复值在创作下拉框时可以直接作为数据验证对话框里的来源。 如果有重复值的话,和机构处理的方式一样,在表格空白处写上这一列删除重复值后的利率作为数据验证对话框里的来源。...INDEX函数能根据指定的行号和列号来返回一个值,用法如下: image.png 例如在这个案例中,想要查找A机构,利率档是40%,24期的费用是976元,那么对应的公式是: =INDEX(A2:E17,1,3...由于是多条件查询,而INDEX和MATCH均不是数组公式,要同时按下【ctrl+shift+enter】才能显示正确答案。 这又涉及到另一个问题,什么是数组?
导读:此前的文章《一文看懂数据清洗:缺失值、异常值和重复值的处理》中,我们介绍了数据清洗的过程和方法,本文给出各步骤的详细代码,方便你动手操作。...() 方法来查找含有至少1个或全部缺失值的列,其中 any() 方法用来返回指定轴中的任何元素为 True,而 all() 方法用来返回指定轴的所有元素都为 True。...在判断逻辑中,对每一列的数据进行使用自定义的方法做Z-Score值标准化得分计算,然后与阈值2.2做比较,如果大于阈值则为异常。...判断方法为 df.duplicated(),该方法中两个主要的参数是 subset 和 keep。 subset:要判断重复值的列,可以指定特定列或多个列。默认使用全部列。...重复值的判断相对简单,而判断之后如何处理往往不是一个技术特征明显的工作,而是侧重于业务和建模需求的工作。
而特征选取恰恰是机器学习重要的先期步骤,虽然不如模型训练那样能产生直接可用的结果。本文作者将使用Python的featuretools库进行自动化特征工程的示例。...转换作用于单个表(从Python角度来看,表只是一个Pandas 数据框),它通过一个或多个现有的列创建新特征。 例如,如果我们有如下客户表。...我们可以通过查找joined列的月份或是获取income列的自然对数来创建特征。这些都是转换,因为它们仅使用来自一个表的信息。...每个实体都必须有一个索引,该索引是一个包含所有唯一元素的列。也就是说,索引中的每个值只能出现在表中一次。 clients数据框中的索引是client_id,因为每个客户在此数据框中只有一行。...聚合就是将深度特征合成依次将特征基元堆叠 ,利用了跨表之间的一对多关系,而转换是应用于单个表中的一个或多个列的函数,从多个表构建新特征。
除非另有指明,否则文件将保存在运行环境下的相同位置。 df.to_csv? 我们将使用的唯一参数是索引和标头。将这些参数设置为False将阻止导出索引和标头名称。...对数据框进行排序并选择顶行 使用max()属性查找最大值 # Method 1: Sorted = df.sort_values(['Births'], ascending=False) Sorted.head...与该表一起,最终用户清楚地了解Mel是数据集中最受欢迎的婴儿名称。plot()是一个方便的属性,pandas可以让您轻松地在数据框中绘制数据。我们学习了如何在上一节中找到Births列的最大值。...解释一下:df ['Names'] - 这是婴儿名字的整个列表,整个名字栏 df ['Births'] - 这是1880年的整个出生列表,整个出生列 df['Births'].max() - 这是Births...列中的最大值 [df['Births'] == df['Births'].max()] 等于 [查找出生列中等于973的所有记录] df ['Names'] [df [' Births'] == df
AdvancedFilter方法可以对多个列进行操作,如果只想筛选数据的子集,则可以限制其行范围。 可以跨列筛选唯一值。...: 图2 可以通过计算AdvancedFilter方法的输入和输出来检查原始数据是否有重复项。...如果值的数量相匹配,则原始数据没有任何重复项。方法之一是使用WorksheetFunction.Count方法。...") If iBeforeCount iAfterCount Then MsgBox ("原数据有重复值") End Sub 小结 本文展示了如何在单列或连续列中筛选出唯一的记录,如何将结果放在一个单独的位置供以后比较...一旦有了唯一的记录,就可以使用自动筛选对其进行排序和进一步筛选。
SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?...查找空值 在pandas检查空值是使用notna()和isna()方法完成的。...在pandas中的等价操作为 ? 注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!...pd.DataFrame({'key': ['B', 'D', 'D', 'E'], ....: 'value': np.random.randn(4)}) 内连接 内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行...上面是UNION ALL保留重复值,如果希望删除可以使用 drop_duplicates() ?
而计算机视觉的三大任务是图像分类、目标检测和目标分割。...基于候选区域的两阶段算法在检测准确性和定位精度上有优势,而一阶段算法在运算速度上占优势。 我们首先介绍一些目标检测涉及到的名词理解,如候选框、IOU交并比、NMS非极大值抑制等。...这个方法有一个缺点,因为我不知道目标的大小,设置不同大小的窗口对候选框查找结果有很大的影响,而且滑动窗的步长太小会产生过多的候选框,带来很大的计算量,步长太大又容易错过精确的目标候选框,对于实时性和速度要求较高时不推荐使用滑窗法...NMS(Non-Maximun Suppression)非极大值抑制就是抑制不是极大值的元素。...; 3)依次对得分越来越小的候选框重复步骤②,同样剔除IOU得分较小的候选框; 4)重复步骤③直到遍历完该列所有建议框; 5)遍历完2000×20维矩阵所有列,即所有物体种类都做一遍非极大值抑制; Python
领取专属 10元无门槛券
手把手带您无忧上云