开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

从具有多个列和字符串的DataFrame中删除连续的重复项

，你可以使用pandas库中的drop_duplicates函数来实现。

该函数的语法如下：

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

参数说明：

subset：指定要考虑的列名，默认为None，表示考虑所有列。
keep：指定保留哪一个重复项，默认为'first'，表示保留第一个重复项，其他重复项将被删除。可选值还有'last'，表示保留最后一个重复项，以及False，表示删除所有重复项。
inplace：指定是否在原始DataFrame上进行操作，默认为False，表示返回一个新的DataFrame，如果设置为True，则在原始DataFrame上进行操作。

下面是一个例子来演示如何删除连续的重复项：

import pandas as pd

# 创建示例DataFrame
data = {'col1': [1, 1, 2, 2, 3, 4, 5],
        'col2': ['a', 'a', 'b', 'b', 'c', 'd', 'e'],
        'col3': ['foo', 'foo', 'bar', 'bar', 'baz', 'qux', 'qux']}
df = pd.DataFrame(data)

# 删除连续的重复项
df.drop_duplicates(inplace=True)

print(df)

输出结果如下：

   col1 col2 col3
0     1    a  foo
2     2    b  bar
4     3    c  baz
5     4    d  qux
6     5    e  qux

在这个例子中，我们创建了一个包含多个列和字符串的DataFrame，并使用drop_duplicates函数删除了连续的重复项。最终输出的DataFrame中不再包含连续的重复项。

推荐的腾讯云产品：腾讯云数据库TDSQL for MySQL，它是一种高可用、可扩展、高性能的MySQL数据库，可以满足存储和管理数据的需求。具体产品介绍和链接地址请参考：腾讯云数据库TDSQL for MySQL

相关搜索:Python从列表中删除N个连续的重复项 SQL删除具有多个相同列的重复值从dataframe中删除具有特定值的连续重复从DataFrame中删除重复项的矢量化方法从pandas read excel dataframe中删除重复的列从spark dataframe中删除具有相同值的重复列从具有重复项的列中减去从向量中删除连续的重复符号具有多个列的Mysql DISTINCT (删除重复项)删除多个工作表中的重复项

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pandas 25 式

原文的数据集是 bit.ly 短网址的，我这里在读取时出问题，不稳定，就帮大家下载下来，统一放到了 data 目录里。

00

数据分析篇 | PyCon 大咖亲传 pandas 25 式，长文建议收藏

Kevin Markham，数据科学讲师，2002 年，毕业于范德堡大学，计算机工程学士，2014 年，创建了 Data School，在线教授 Python 数据科学课程，他的课程主要包括 Pandas、Scikit-learn、Kaggle 竞赛数据科学、机器学习、自然语言处理等内容，迄今为止，浏览量在油管上已经超过 500 万次。

02

盘点66个Pandas函数，轻松搞定“数据清洗”！

之前黄同学曾经总结过一些Pandas函数，主要是针对字符串进行一系列的操作。在此基础上我又扩展了几倍，全文较长，建议先收藏。

01

数据导入与预处理-课程总结-04~06章

数据经过采集后通常会被存储到Word、Excel、JSON等文件或数据库中，从而为后期的预处理工作做好数据储备。数据获取是数据预处理的第一步操作，主要是从不同的渠道中读取数据。Pandas支持CSV、TXT、Excel、JSON这几种格式文件、HTML表格的读取操作，另外Python可借助第三方库实现Word与PDF文件的读取操作。本章主要为大家介绍如何从多个渠道中获取数据，为预处理做好数据准备。

01

Pandas库常用方法、函数集合

Pandas是Python数据分析处理的核心第三方库，它使用二维数组形式，类似Excel表格，并封装了很多实用的函数方法，让你可以轻松地对数据集进行各种操作。

01

Python进阶之Pandas入门(三) 最重要的数据流操作

Pandas是数据分析中一个至关重要的库，它是大多数据项目的支柱。如果你想从事数据分析相关的职业，那么你要做的第一件事情就是学习Pandas。

02

python数据科学系列：pandas入门详细教程

前2篇分别系统性介绍了numpy和matplotlib的入门基本知识，今天本文自然是要对pandas进行入门详细介绍，通过本文你将系统性了解pandas为何会有数据分析界"瑞士军刀"的盛誉。

02

通宵翻译Pandas官方文档，写了这份Excel万字肝货操作！

这篇万字长文，是黄同学辛苦为大家辛苦翻译排版。希望大家一定从头到尾学习，否则，可能会找不到操作的数据源。

02

Python之数据规整化：清理、转换、合并、重塑

Python之数据规整化：清理、转换、合并、重塑 1. 合并数据集 pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。 pandas.concat可以沿着一条轴将多个对象

06

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记

参考链接： Python | pandas 合并merge，联接join和级联concat

00

Pandas全景透视：解锁数据科学的黄金钥匙

当许多人开始踏足数据分析领域时，他们常常会对选择何种工具感到迷茫。在这个充满各种选项的时代，为什么会有这么多人选择 Pandas 作为他们的数据分析工具呢？这个问题似乎简单，但背后涉及了许多关键因素。在探究这个问题之前，让我们先理解一下 Pandas 的背景和特点。

01

6个提升效率的pandas小技巧

pandas中的read_clipboard()方法非常神奇，可以把剪切板中的数据变成dataframe格式，也就是说直接在excel中复制表格，可以快速转化为dataframe。

02

快速提升效率的6个pandas使用小技巧

文章来源：towardsdatascience 作者：B.Chen 翻译\编辑：Python大数据分析

01

6个提升效率的pandas小技巧

文章来源：towardsdatascience 作者：B.Chen 翻译\编辑：Python大数据分析

02

《利用Python进行数据分析·第2版》第7章数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规变为想要的格式。如果你发现了一种本书或pandas库中没有的数据操作方式，请尽管

09

数据处理利器pandas入门

想入门 Pandas，那么首先需要了解Pandas中的数据结构。因为Pandas中数据操作依赖于数据结构对象。Pandas中最常用的数据结构是 Series 和 DataFrame。这里可以将 Series和 DataFrame分别看作一维数组和二维数组。

03

【Python】机器学习之数据清洗

数据清洗，是数据分析的星光耀眼的序幕，因为原始数据集可能蕴含各种幽灵，而这些隐患将影响最终分析和建模的辉煌表演。通过巧妙的数据清洗，数据的可靠性得以提升，为分析和模型的绚丽演绎打下坚实基石。

01

python数据分析——数据预处理

数据预处理是数据分析过程中不可或缺的一环，它的目的是为了使原始数据更加规整、清晰，以便于后续的数据分析和建模工作。在Python数据分析中，数据预处理通常包括数据清洗、数据转换和数据特征工程等步骤。

01

使用Pandas进行数据清理的入门示例

数据清理是数据分析过程中的关键步骤，它涉及识别缺失值、重复行、异常值和不正确的数据类型。获得干净可靠的数据对于准确的分析和建模非常重要。

06

Python数据分析笔记——Numpy、Pandas库

Python数据分析——Numpy、Pandas库总第48篇 ▼ 利用Python进行数据分析中有两个重要的库是Numpy和Pandas，本章将围绕这两个库进行展开介绍。 Numpy库 Numpy

08

针对SAS用户：Python数据分析库pandas

Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。

02

整理了 25 个 Pandas 实用技巧，拿走不谢！

来源：www.cnblogs.com/jclian91/p/12305471.html

01

Python-pandas的fillna()方法-填充空值[通俗易懂]

函数形式：fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

01

Pandas入门2

对于DataFrame，对齐会同时发生在行和列上，两个DataFrame对象相加后，其索引和列会取并集，缺省值用NaN。

02

Pandas知识点-缺失值处理

数据处理过程中，经常会遇到数据有缺失值的情况，本文介绍如何用Pandas处理数据中的缺失值。

04

【精心解读】用pandas处理大数据——节省90%内存消耗的小贴士

本文我们讨论 pandas 的内存使用，展示怎样简单地为数据列选择合适的数据类型，就能够减少 dataframe 近 90% 的内存占用。

05

Pandas

Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具，其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力，Pandas 离这个目标已经越来越近了。

03

Pandas图鉴(二)：Series 和 Index

Pandas[1]是用Python分析数据的工业标准。只需敲几下键盘，就可以加载、过滤、重组和可视化数千兆字节的异质信息。它建立在NumPy库的基础上，借用了它的许多概念和语法约定，所以如果你对NumPy很熟悉，你会发现Pandas是一个相当熟悉的工具。即使你从未听说过NumPy，Pandas也可以让你在几乎没有编程背景的情况下轻松拿捏数据分析问题。

02

Python 数据分析（PYDA）第三版（三）

读取数据并使其可访问（通常称为数据加载）是使用本书中大多数工具的必要第一步。术语解析有时也用于描述加载文本数据并将其解释为表格和不同数据类型。我将专注于使用 pandas 进行数据输入和输出，尽管其他库中有许多工具可帮助读取和写入各种格式的数据。

00

强烈推荐Pandas常用操作知识大全！

https://github.com/SeafyLiang/Python_study

02

Pandas入门教程

大家好，我是皮皮。其实这个pandas教程，卷的很严重了，才哥，小P等人写了很多的文章，这篇文章是粉丝【古月星辰】投稿，自己学习过程中整理的一些基础资料，整理成文，这里发出来给大家一起学习。

03

Python数据分析——以我硕士毕业论文为例

首先是在Python官网下载你计算机对应的Python软件，然后安装。安装过程基本都是傻瓜式，不做过多叙述，一路回车即可。

02

Pandas使用技巧：如何将运行内存占用降低90%！

当使用 pandas 操作小规模数据（低于 100 MB）时，性能一般不是问题。而当面对更大规模的数据（100 MB 到数 GB）时，性能问题会让运行时间变得更漫长，而且会因为内存不足导致运行完全失败。

02

Python常用小技巧总结

数据分析中pandas的小技巧，快速进行数据预处理，欢迎点赞收藏，持续更新，作者：北山啦

02

Python科学计算之Pandas

在我看来，对于Numpy以及Matplotlib，Pandas可以帮助创建一个非常牢固的用于数据挖掘与分析的基础。而Scipy（会在接下来的帖子中提及）当然是另一个主要的也十分出色的科学计算库，但是我认为前三者才是真正的Python科学计算的支柱。

00

Python数据分析--Pandas知识

利用drop_duplicates()函数删除数据表中重复多余的记录, 比如删除重复多余的ID.

05

Python 全栈 191 问（附答案）

作为程序员，你的电脑里、书架上，一定少不了 Python 的资料和课程。免费的电子书，花钱买的课，实体书籍...

02

数据分析 ——— pandas基础（三）

接着之前的文章，在这里我们来看一些利用pandas处理文本数据，利用索引，loc, iloc,ix，属性选取数据

02

13个Pandas奇技淫巧

先按Mt列进行分组，然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列，再用iloc位置索引将行取出。有重复值的情况

03

灰太狼的数据世界（三）

一期我们了解了Pandas里面Series数据结构，了解了如何创建修改，清理Series，也了解了一些统计函数，例如方差，标准差，峰度这些数学概念。那么今天我们就来了解Pandas里面的另一个数据结构-----DataFrame。

03

13个Pandas实用技巧，有点香！

归纳整理了一些工作中常用到的pandas使用技巧，方便更高效地实现数据分析。文章很短，不用收藏就能Get~

02

13个Pandas奇技淫巧

先按Mt列进行分组，然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列，再用iloc位置索引将行取出。有重复值的情况

02

Pandas必知必会的使用技巧，值得收藏！

本期的主题是关于python的一个数据分析工具pandas的，归纳整理了一些工作中常用到的pandas使用技巧，方便更高效地实现数据分析。文章很短，不用收藏就能Get~

01

教程 | 简单实用的pandas技巧：如何将内存占用降低90%

选自DATAQUEST 作者：Josh Devlin 机器之心编译参与：Panda pandas 是一个 Python 软件库，可用于数据操作和分析。数据科学博客 Dataquest.io 发布了一篇关于如何优化 pandas 内存占用的教程：仅需进行简单的数据类型转换，就能够将一个棒球比赛数据集的内存占用减少了近 90%，机器之心对本教程进行了编译介绍。当使用 pandas 操作小规模数据（低于 100 MB）时，性能一般不是问题。而当面对更大规模的数据（100 MB 到数 GB）时，性能问题会让运行

pandas技巧4

本文中记录Pandas操作技巧，包含：导入数据导出数据查看、检查数据数据选取数据清洗数据处理：Filter、Sort和GroupBy 数据合并常识 # 导入pandas import pandas as pd # axis参数：0代表行，1代表列导入数据 pd.read_csv(filename) # 从CSV文件导入数据 pd.read_table(filename) # 从限定分隔符的文本文件导入数据 pd.read_excel(filename) # 从Excel文件导入数据

02

【干货日报】用Python做数据分析更加如鱼得水！Pandas必会的方法汇总，建议收藏！

用Python做数据分析光是掌握numpy和matplotlib可不够，Pandas是必须要掌握的一个重点，numpy虽然能够帮我们处理处理数值型数据，但是这还不够，很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等，比如：我们通过爬虫获取到了存储在数据库中的数据。

04

7步搞定数据清洗－Python数据清洗指南

作者：KOALA https://zhuanlan.zhihu.com/p/60241672

02

yyds！1w 字的 pandas 核心操作知识大全。

工作中最近常用到pandas做数据处理和分析，特意总结了以下常用内容。 pandas常用速查引入依赖 # 导入模块 import pymysql import pandas as pd import numpy as np import time # 数据库 from sqlalchemy import create_engine # 可视化 import matplotlib.pyplot as plt # 如果你的设备是配备Retina屏幕的mac，可以在jupyter notebook中，使用下

03

Pandas图鉴(三)：DataFrames

Polars[2]是Pandas最近的转世（用Rust编写，因此速度更快，它不再使用NumPy的引擎，但语法却非常相似，所以学习 Pandas 后对学习 Polars 帮助非常大。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭