为什么我的csv文件在使用Python Pandas dataframe删除重复项后变大

在使用Python Pandas dataframe删除重复项后，csv文件变大的原因可能有以下几个方面：

数据处理错误：在删除重复项时，可能出现了错误的数据处理操作，导致数据量增加。例如，可能没有正确指定删除重复项的列，或者使用了错误的删除方法。
数据类型转换：在删除重复项之前，可能对某些列进行了数据类型转换操作。这可能导致数据在转换过程中增加了额外的字符或空格，从而导致csv文件变大。
缺失值处理：在删除重复项之前，可能对缺失值进行了处理。例如，使用了填充方法或删除缺失值的方法。这些处理可能导致数据量增加，因为填充方法可能会添加额外的值，而删除缺失值的方法可能会删除一些原本不重复的数据。
数据编码问题：在读取csv文件时，可能没有正确指定文件的编码方式，导致数据在读取过程中出现乱码或字符转换错误。这可能导致数据量增加，因为乱码或错误的字符可能被错误地处理为多个字符。

为了解决这个问题，可以尝试以下方法：

检查数据处理操作：仔细检查删除重复项的代码，确保正确指定了删除重复项的列，并使用正确的删除方法。
检查数据类型转换：在删除重复项之前，检查数据类型转换的代码，确保转换操作不会引入额外的字符或空格。
检查缺失值处理：在删除重复项之前，检查缺失值处理的代码，确保填充方法不会引入额外的值，删除缺失值的方法不会删除原本不重复的数据。
检查数据编码问题：在读取csv文件时，确保正确指定文件的编码方式，以避免乱码或字符转换错误。

如果问题仍然存在，可以提供更多关于数据处理的细节，以便更好地理解问题并提供更具体的解决方案。

为什么我的csv文件在使用Python Pandas dataframe删除重复项后变大

、、、、

我写这段代码是为了去掉一个大的(800000) tweets csv文件中的重复项，但当我运行它时，我得到的文件比原始文件大:原始文件是1,580,307KB，结果文件是1,852,462KB。我尝试了一个20行的小文件，原始文件是45KB，在这种情况下我得到的</e

浏览 39提问于2021-01-20得票数 0

3回答

熊猫-在从字典中创建数据数据时重复行。

、、、、

karnatakaVaccinations': 9892349, 'keralaVaccinations': 7508437, 'mangaloreDeath': 4, 'indiaDailyConfirmed': 382602} 我希望将这些值存储在CSV文件中，为此我使用Pandas创建了一个脚本，然后将其保存到CSV文件中。在创建文件

浏览 3提问于2021-05-04得票数 0

回答已采纳

3回答

Pandas处理大型CSV数据

、、

我正在使用pandas处理至少8 8GB大小的大型数据集。在我的理解中，分块整个文件将创建许多不同的数据帧。因此，使用我现有的例程，这只删除特定数据帧上的重复值，而不是整个文件上的

浏览 33提问于2020-03-11得票数 3

回答已采纳

1回答

python pandas，删除用于任何DataFrame特定列的重复功能，但有一个例外：

、、、、

我使用python读取.csv文件，然后操作它的Series和DataFrames。无论如何，我正在试图弄清楚如何为从.csv文件读取的DataFrame的一个或多个列的所有单元格实现删除重复项功能，在python脚本中，您可以设置要在DataFrame<e

浏览 1提问于2021-04-05得票数 0

2回答

如果两个文件具有相同的列值，则合并这些文件中的行

、、

目前，我正在亚马逊的网站上搜寻一些数据。我遇到的问题是，我不能真正从同一个页面获得一个产品的所有数据。我最终得到的是两个文件，它们具有相同的列标题，但列本身的数据不同。例如，在一个.csv文件中，产品包含信息的“代码”、“名称”、“url”、“大小”，而在另一个文件中，它包含“代码”、“价格”、“image1

浏览 10提问于2019-02-01得票数 1

回答已采纳

1回答

在Python中操作CSV文件

、、、

import csv writer=csv.writer(open('Names_NoDuplicates.csv', 'w'),delimiter=',') for row in reader: if row[0] n

浏览 1提问于2015-11-17得票数 0

1回答

如何将一列添加到多个具有不同值的.csv文件

、、

我有以下场景:我有一个包含多个.csv文件的文件夹，我最终希望合并并删除重复的文件。我目前遇到的问题是，我只想删除合并文件时产生的重复项。换句话说:一些单独的.csv文件已经有了我不想

浏览 22提问于2019-09-03得票数 0

回答已采纳

1回答

根据头部使用python从文件中删除重复内容

、

我是python的新手，我必须根据某些条件删除重复数据，即如果symb变量与相同的symb变量匹配，则删除重复的symb变量并关联数据，如( dtype，iotype，bias，slpe，unit，下面的fil链接

浏览 1提问于2020-11-28得票数 0

2回答

如何使用数据提供程序读取python中的excel文件

、

在python中有没有办法读取excel文件，就像我们在testng中有数据提供程序一样?我有一个test方法(使用python单元测试框架)，从这个测试中我调用了另一个实际读取excel工作表的方法，我只想要一些类似数据提供程序的东西，这样每个数据都应该被视为新的测试用例。

浏览 3提问于2020-06-23得票数 0

1回答

如何在Chromebook上将NetCDF文件转换为CSV

、、

我习惯于使用Chromebooks 我想开始使用一些数据集(最新的HadCRUT4月度平均温度数据系列)，但我只能找到NetCDF下载。可以在Chromebook上将NetCDF转换为CSV吗是否有我没有找到的数据集的现成转换副本可供下载？

浏览 35提问于2021-08-20得票数 0

2回答

如何查看CSV列中的变量列表？

、

我有一个csv文件，它有超过5,000,000行数据，如下所示(除了波斯语外)：我希望有一个代码来列出特定列中的变量例如，我希望它返回'city'

浏览 4提问于2022-02-22得票数 0

2回答

删除熊猫框架中的列

、

在过去的40分钟里，我一直试图从数据框架中删除一个特定的列(Name)，但是似乎没有一种方法有效。顺便说一句，我正在使用jupyter笔记本，不确定这是否是一个问题。我也100%确信列名名为Name，而且它不是数据帧的索引--我使用的是泰坦尼克号数据集。我尝试过的： df.drop('Name&#

浏览 5提问于2020-04-24得票数 0

回答已采纳

2回答

在python中将字符串从多个csv导入到一个主csv

、、、

我有很多包含字符串的csv文件。我想将python 3中的字符串从多个csv导入到一个主csv中，但要确保没有添加已经包含在主csv中的重复项。我已经写了一些代码，但我不确定如何将打印写入主csv，以及如何检查重复项。我当前的代码是： output = [

浏览 0提问于2018-02-05得票数 0

1回答

熊猫:如何删除重复但保留某些行值的列值

、、

我有一个Pandas dataframe，它有重复的名称，但是有不同的值，我想删除重复的名称，但是保留行。我的dataframe片段如下所示：我想要的输出应该如下所示：我尝试使用内置的熊猫函数.drop_duplicates()，但最后删除</em

浏览 8提问于2022-09-11得票数 0

1回答

pandas read_csv()从CSV内容返回带有.1和.2的重复条目

、、

我正在使用pandas read_csv()方法将CSV文件的第一行读入列表，如下所示。如上所述，当我使用Pandas read_csv()读取CSV时，它将CSV文件的内容返回为"NewYork“、"Sydney.1”、“sydney2”。所以，基本上read_csv是从第二个重复

浏览 3提问于2021-07-23得票数 0

1回答

假设我有一个CSV文件，如下所示：1980-12-12,0.515625,0.5133928656578064,0.5133928656578064,0.5133928656578064,117258400.0,0.0230070594698190715,0.4888392984867096,0.4866071343421936,0.4888392984867096,0.4866071343421936,43971200.0,0.0218066982924

浏览 0提问于2019-03-28得票数 0

2回答

将多个CSV文件合并成数据并输出给主CSV

、、

我在找人帮我写下面的剧本。我正在尝试将一个月的csv文件连接到一个“主文件”中。这些文件真的很大，所以我希望在脚本中做一些事情来缩短它们。以下是我遇到的麻烦：最后，我一直<em

浏览 3提问于2015-11-18得票数 0

回答已采纳

3回答

在使用pandas的csv中满足条件时，需要删除行并更新其他行

、、、

我正在使用包含以下内容的csv文件Comp1, comp desc, 60Comp1, comp desc我正在尝试读取该文件，如果有任何重复项(基于名称)，请删除它们。然后，如果价格< 50，则删除这些。然后添加一个名为“Quality”的新列。我正在尝试<e

浏览 40提问于2018-08-21得票数 2

1回答

将熊猫DataFrame作为PickledObjectField存储在Django Model中是不是一种坏做法？

、、

我在Django模型中存储一个熊猫DataFrame作为PickledObjectField。我需要根据特定的逻辑访问和修改这个DataFrame。Pandas使这项工作变得容易得多，我有一个使用Pandas选择和过滤器的engine类。我是否应该有一个单独的模型，将每一行存储在DataFrame中，然后使用d

浏览 0提问于2018-12-15得票数 0

2回答

Google Translate with a CSV* file*

、、、

我正在Python与一个CSV文件，我想转换一些列到英语，我一直使用谷歌翻译，但它指的是他们需要一个JSON文件，有没有可能使用谷歌翻译的CSV文件。下面是我收到的错误：import numpy as npfrom googletrans import T

浏览 2提问于2019-02-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么我的csv文件在使用Python Pandas dataframe删除重复项后变大

相关·内容

为什么我的csv文件在使用Python Pandas dataframe删除重复项后变大

熊猫-在从字典中创建数据数据时重复行。

Pandas处理大型CSV数据

python pandas，删除用于任何DataFrame特定列的重复功能，但有一个例外：

如果两个文件具有相同的列值，则合并这些文件中的行

在Python中操作CSV文件

如何将一列添加到多个具有不同值的.csv文件

根据头部使用python从文件中删除重复内容

如何使用数据提供程序读取python中的excel文件

如何在Chromebook上将NetCDF文件转换为CSV

如何查看CSV列中的变量列表？

删除熊猫框架中的列

在python中将字符串从多个csv导入到一个主csv

熊猫:如何删除重复但保留某些行值的列值

pandas read_csv()从CSV内容返回带有.1和.2的重复条目

在Python中仅将新值从DataFrame追加到CSV

将多个CSV文件合并成数据并输出给主CSV

在使用pandas的csv中满足条件时，需要删除行并更新其他行

将熊猫DataFrame作为PickledObjectField存储在Django Model中是不是一种坏做法？

Google Translate with a CSV* file*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐