检查pandas dataframe中是否有不同值的对

在检查pandas DataFrame中是否有不同值的对时，可以使用duplicated函数来实现。duplicated函数用于标记DataFrame中的重复行，默认将第一个出现的重复行标记为True，后续的重复行标记为False。

以下是完善且全面的答案：

在pandas中，可以使用duplicated函数来检查DataFrame中是否有不同值的对。duplicated函数可以标记DataFrame中的重复行，即检测到具有相同值的行。默认情况下，duplicated函数将第一个出现的重复行标记为True，而将后续的重复行标记为False。

duplicated函数的使用方法如下：

import pandas as pd

# 创建一个示例DataFrame
data = {'A': [1, 1, 2, 3, 4],
        'B': [1, 1, 2, 3, 4]}
df = pd.DataFrame(data)

# 检查DataFrame中是否有不同值的对
duplicates = df.duplicated()

print(duplicates)

运行以上代码，输出结果为：

0    False
1     True
2    False
3    False
4    False
dtype: bool

以上结果表示，第一行为False，表示该行不是重复行。第二行为True，表示该行与第一行的值完全相同，因此被标记为重复行。而其他行为False，表示没有重复。

除了使用duplicated函数外，还可以使用drop_duplicates函数来删除DataFrame中的重复行。drop_duplicates函数默认将第一个出现的重复行保留，而删除后续的重复行。

以下是使用drop_duplicates函数删除重复行的示例代码：

import pandas as pd

# 创建一个示例DataFrame
data = {'A': [1, 1, 2, 3, 4],
        'B': [1, 1, 2, 3, 4]}
df = pd.DataFrame(data)

# 删除DataFrame中的重复行
df_unique = df.drop_duplicates()

print(df_unique)

运行以上代码，输出结果为：

以上结果中，第二行被删除，因为它与第一行的值完全相同。而其他行保留了下来。

总结起来，检查pandas DataFrame中是否有不同值的对，可以使用duplicated函数来标记重复行，或使用drop_duplicates函数来删除重复行。这些函数在数据清洗和数据预处理中非常有用，可以帮助我们识别和处理重复数据。

腾讯云相关产品和产品介绍链接地址：

腾讯云数据库TencentDB：腾讯云提供的一种稳定、可靠、安全且易于扩展的云数据库服务，适用于各种应用场景和规模的业务。
腾讯云云服务器CVM：腾讯云提供的灵活可扩展的云服务器，支持多种实例规格和操作系统，满足各种业务需求。
腾讯云人工智能AI Lab：腾讯云提供的一站式人工智能开发平台，提供丰富的人工智能开发工具和资源，帮助开发者快速构建和部署人工智能应用。
腾讯云物联网IoT Hub：腾讯云提供的物联网通信平台，支持海量设备连接和数据传输，为物联网应用提供稳定可靠的基础服务。
腾讯云移动开发MSDK：腾讯云提供的移动开发工具包，包含丰富的移动开发资源和服务，支持开发者构建高质量的移动应用。
腾讯云对象存储COS：腾讯云提供的高可靠、低成本的对象存储服务，适用于各种场景下的数据存储和管理。
腾讯云区块链BCS：腾讯云提供的一站式区块链服务平台，支持快速搭建、部署和管理区块链应用。
腾讯云元宇宙Qcloud Metaverse：腾讯云提供的一体化元宇宙解决方案，支持构建虚拟现实、增强现实和混合现实应用。

希望以上答案能满足您的需求。如有任何问题，请随时提问。

Pandas DataFrame在str计数中的奇怪行为

、、、

我有以下Pandas DataFrame： >>> sample_dataframe P 0 107.35 1 99.35 2 75.85 3 92.34 当我尝试以下操作时，输出如下： >>> sample_dataframe[sample_dataframe['P'].astype(str).str.count('.') == 1] Empty DataFrame Columns: [P] Index: [] 使用regex转义字符时，会发生以下情况： >>> sample

浏览 1提问于2019-11-11得票数 1

回答已采纳

1回答

如何检查Pandas Dataframe列是否包含值？

我想检查pandas.DataFrame列是否包含特定值。例如，这个玩具Dataframe在"two"列中有一个"h" import pandas as pd df = pd.DataFrame( np.array(list("abcdefghi")).reshape((3, 3)), columns=["one", "two", "three"] ) df one two three 0 a b c 1 d e f 2 g h i

浏览 1提问于2021-11-12得票数 0

1回答

找出分组数据帧的索引是否与另一个数据帧的列匹配？

、、、、

我有一个名为df_grouped的分组数据框架，其中AF和Local是索引。我想断言df_grouped中的索引是否等于来自另一个df[A]的列。这是我的代码的一个例子 import pandas as pd data = {'Number': [5678, 2934], 'Age': [93, 88],} df_grouped= pd.DataFrame(data, index=["AF","Local"]) data2 = {"A":["AF","Local"

浏览 1提问于2022-08-03得票数 0

回答已采纳

27回答

如何检查Pandas DataFrame中是否有任何值是DataFrame

、、、

在Pandas中，检查DataFrame是否有一个(或多个) NaN值的最佳方法是什么？我知道函数pd.isnan，但它为每个元素返回布尔值的DataFrame。这里的也没有完全回答我的问题。

浏览 31提问于2015-04-09得票数 657

回答已采纳

1回答

是否有一种方法可以根据行/列绘制数据的热图？

、、

我想问的是，是否有人在Pandas DataFrame上做过热图，但在每个列上都是这样(相同的颜色梯度显示“低”到“高”)。它更像是Excel中每个列的条件格式(参见包含的图像)。我试过了sns.heatmap，但它给出了总体情况。我有一个DataFrame，如下所示： import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0.1, 100, size = 30).reshape(5,6), columns= ['A','B','C','D&

浏览 3提问于2021-11-08得票数 2

回答已采纳

2回答

如何忽略pandas断言帧相等的索引比较

、

我尝试比较下面两个"check_index_type“设置为False的数据帧。根据文档，如果它设置为False，则不应该“检查索引类，dtype和inferred_type是否相同”。我是不是误解了文档？对于下面的测试，如何比较忽略索引和返回True？我知道我可以重置索引，但我不希望这样做。 from pandas.util.testing import assert_frame_equal import pandas as pd d1 = pd.DataFrame([[1,2], [10, 20]], index=[0,2]) d2 = pd.DataFrame([[1, 2]

浏览 66提问于2018-08-02得票数 49

回答已采纳

1回答

为什么熊猫DataFrame比矮胖的熊猫更贵？

、、

我正在对pandas DataFrame创建进行基准测试，发现它比numpy ndarray创建更昂贵。基准代码 from timeit import Timer setup = """ import numpy as np import pandas as pd """ numpy_code = """ data = np.zeros(shape=(360,),dtype=[('A', 'f4'),('B', 'f4'),('C',

浏览 4提问于2014-10-24得票数 1

回答已采纳

1回答

如何从每一列中选择一个特定的索引？

、

想象一下，我有一个pandas.Dataframe，类似于： x = DataFrame({ 'a': [7,6,8,0,2,5], 'b': [3,4,5,6,7,8], 'c': [3,8,5,6,0,1]}, index=[1,2,3,4,5,6]) 然后，我有一个pandas.Series，它为每个键提供了一个我想要选择的特定索引： y = Series([4,1,6], index=['a','b','c']) 有什么办法可以用最好的熊猫方法

浏览 2提问于2015-05-17得票数 3

回答已采纳

1回答

Pandas中的行系列与Col系列

、、

行和列在本质上是否与数据对象相同？例如，在以下方面： import pandas as pd df = pd.DataFrame([ {"Title": "Titanic", "ReleaseYear": 1997, "Director": "James Cameron"}, {"Title": "Spider-Man", "ReleaseYear": 2002, "Director": "Sam Raimi"}

浏览 2提问于2020-08-16得票数 2

回答已采纳

1回答

如何获取熊猫np.datetime64中包含无效DataFrame日期的所有行

、、、

我有一个熊猫DataFrame，它有一个列"date_col“的日期字符串。我希望对列中的日期字符串将抛出一个DataFrame (如果由numpy.datetime64解析)的所有行进行numpy.datetime64筛选。我要找的东西是： bad_rows = df[numpy.datetime64(df["date_col"]) is False] 除了检查False之外，我还想检查是否引发了ValueError。有什么方法可以在熊猫DataFrame中进行这种过滤吗？我试着做以下几件事： df = pd.DataFrame({"date_col"

浏览 0提问于2015-12-10得票数 2

1回答

将字典保存到.XLSX中

、、

使用Python + Pandas，是否有一种快速简便的方法将Dict (由键的文件名和值的几列数据组成)保存到.XLSX文件中？经过一些研究之后，我尝试使用以下代码将其转换为Pandas DataFrame (因为我知道您可以使用Pandas DataFrame编写一个.XLSX文件)： import pandas as pd import glob f_list = glob.glob("C:\\Users\\me\\dt\\xx\\*.xlsx") sheets = {f: pd.read_excel(f) for f in f_list} new_df = pd.D

浏览 4提问于2015-10-09得票数 3

2回答

检查数据框列中是否存在浮点数

、

我需要检查一个浮点是否在dataframe列中。请参阅以下代码： import pandas as pd list1 = [24.02, 149, 123.11] imp = 149.0 df = pd.DataFrame() df['List1'] = list1 如果我运行： imp in df['List1'] >> False 我希望得到True作为回报。我应该如何改进我的代码？

浏览 0提问于2021-11-30得票数 0

1回答

熊猫到RDD

、、、、

我可以将Pandas DataFrame转换为RDD吗？ if isinstance(data2, pd.DataFrame): print 'is Dataframe' else: print 'is NOT Dataframe' 是DataFrame 下面是尝试使用.rdd时的输出 dataRDD = data2.rdd print dataRDD AttributeError Traceback (most recent call last) <ipython-input-56-7

浏览 7提问于2015-08-19得票数 12

2回答

如何确定数据与南的相关性？

、、、、

我使用来自Pandas的DataFrame.corr()方法。结果，它返回相关矩阵，但它删除了列，其中甚至是一个南值。是否有可能计算DataFrame与Nan的相关性？

浏览 0提问于2018-05-10得票数 1

回答已采纳

2回答

索引到Dask系列可以返回Dask系列

、、

我有Dask系列的Dask数据帧。我想在本系列中建立索引，以获取dask数据帧以供后续工作使用。但是，使用loc[0]会导致另一个dask系列。使用to_frame也不起作用，因为结果是"Dask系列Dask数据帧的Dask数据帧“。下面是一个使用Dask系列Pandas数据帧的最小示例(不完全相同，但说明了问题)： import pandas as pd import dask.dataframe as dd pdf1 = pd.DataFrame({'a': [1,2,3,4], 'b': [4,3,2,1]}) pdf2 = pd.Data

浏览 3提问于2020-02-03得票数 1

1回答

生成Pandas+Uncertainties AttributeError:类型对象'dtype‘没有属性’AttributeError‘

、、、

我想使用 + 。我收到了一个奇怪的错误，在MWE下面： from uncertainties import ufloat import pandas number_with_uncertainty = ufloat(2,1) df = pandas.DataFrame({'a': [number_with_uncertainty]}) # This line works fine. df.loc[0,'b'] = ufloat(3,1) # This line fails. 我注意到，如果我尝试添加ufloat的“动态”(就像我通常对float或其他东西所

浏览 3提问于2022-01-26得票数 1

9回答

Pandas DataFrames中的相等-列顺序重要吗？

、

作为单元测试的一部分，我需要测试两个DataFrames是否相等。DataFrames中列的顺序对我来说并不重要。然而，这对熊猫来说似乎很重要： import pandas df1 = pandas.DataFrame(index = [1,2,3,4]) df2 = pandas.DataFrame(index = [1,2,3,4]) df1['A'] = [1,2,3,4] df1['B'] = [2,3,4,5] df2['B'] = [2,3,4,5] df2['A'] = [1,2,3,4] df1 == df2 结果

浏览 0提问于2013-01-09得票数 29

回答已采纳

1回答

在python框图中调整X轴上的间距

、、

我在Python3.x中使用sns.boxplot和pandas.DataFrame.boxplot绘制框图。我想问一下，是否可以在boxplot中调整框之间的间距，这样Group_b的框就比输出的图更靠近Group_a的框。谢谢代码： import pandas as pd import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns dict_a = {'value':[1,2,3,7,8,9],'name':['Group_a']*3+['G

浏览 108提问于2019-03-20得票数 3

2回答

如何跳过循环中的项

、、、

我试图创建一个清单，所有的报纸文章来自5个不同的来源。它们以JSON格式存储。所有文章都存储在包含报纸和年份的不同文件中(时间垃圾邮件2005-2015年)。问题是，其中一份报纸只在2014至15年间发行，因此，当我将所有内容循环在一起时，就会出现错误。这是我的尝试： import json import nltk import re import pandas appended_data = [] for i in range(2005,2016): df0 = pandas.DataFrame([json.loads(l) for l in open('SDM_%d.j

浏览 4提问于2016-05-25得票数 1

回答已采纳

1回答

状态模型镶嵌图-如何排序类别

、、、

这是dataframe： import pandas as pd from statsmodels.graphics.mosaicplot import mosaic df = pd.DataFrame({'size' : ['small', 'large', 'large', 'small', 'large', 'small'], 'length' : ['long', 'short', 'short', '

浏览 1提问于2016-09-30得票数 3

回答已采纳

5回答

熊猫如何检查数据栏中的所有列？

、、

看来dtype只为pandas.DataFrame.Series工作，对吗？是否有一个函数可以同时显示所有列的数据类型？

浏览 7提问于2016-11-01得票数 170

回答已采纳

1回答

相当于np.where的pandas

、、

np.where具有向量化的if/else的语义(类似于Apache Spark的when/otherwise DataFrame方法)。我知道我可以在pandas Series上使用np.where，但是pandas通常定义自己的Series来使用，而不是原始的numpy函数，这通常使用pd.Series/pd.DataFrame更方便。果然，我找到了pandas.DataFrame.where。然而，乍一看，它具有完全不同的语义。我找不到一种使用pandas where重写np.where最基本示例的方法 # df is pd.DataFrame # how to write this

浏览 2提问于2016-07-26得票数 67

回答已采纳

1回答

理解.groupby().first()在压缩Pandas DataFrame时的含义？

、、

因为我不确定确切的术语--比方说，我有这个文件： dataA.csv： event,car,bike,bus 63175,,18, 65641,45,9, 65805,,,54 68388,,65, 68388,,,39 73041,7,,18 79336,,44, 79423,,,5 与dataA = pd.read_csv("dataA.csv", dtype='Int64')一起阅读这篇文章，我们得到了一只熊猫DataFrame： dataA: event car bike bus 0 63175 <NA> 18 &

浏览 1提问于2020-04-11得票数 1

回答已采纳

2回答

使用循环按pd.dataframe列生成列表

、

我对python很陌生，我想知道是否有一种方法可以使用循环从pandas.dataframe生成一组列表(按列名)。pd.dataframe(s)是通过使用pd.read.excel导入.xlsx文件生成的，我现在试图避免花费数小时编写我认为可能是多余的代码。举一个例子： import pandas as pd a=[1,2,3,4] b=[5,6,7,8] c=["a","b","c","d"] df=pd.DataFrame({'b':b,'c':c}, index=a) 有关如何设置和运行循

浏览 0提问于2018-10-17得票数 2

回答已采纳

1回答

查看DataFrame中是否存在一个值

、、

在Python中，要检查一个值是否在列表中，只需执行以下操作： >>>9 in [1,2,3,6,9] True 我也想为Pandas DataFrame做同样的事情，但不幸的是，Pandas没有意识到这种表示法： >>>import pandas as pd >>>df = pd.DataFrame([[1,2,3,4],[5,6,7,8]],columns=["a","b","c","d"]) a b c d 0 1 2 3 4 1 5 6 7

浏览 3提问于2016-01-03得票数 5

回答已采纳

2回答

循环，以不断地重新检查Pandas数据帧中的更改。

、、、

我有两个相同的数据格式：new和old。new数据将在一天内随机更新。下面的代码检查是否有任何更改。 import pandas as pd import numpy as np new = {'name': ['Sheldon', 'Penny', 'Amy', 'Bernadette', 'Raj', 'Howard'], 'episodes': [42, 24, 31, 29, 37, 40],

浏览 1提问于2021-09-18得票数 1

回答已采纳

3回答

如果列值为NaN，则返回布尔值。

我有多个列的Pandas DataFrame，我想检查特定的列值是否为NaN，如果是，我需要返回布尔值(真或假)。我试过了 pandas_df['col1'].isnull() 但是它返回所有带有索引和布尔值的行。

浏览 4提问于2019-05-21得票数 0

回答已采纳

2回答

在使用iterrows()时修改数据不起作用

、

我正在使用iterrows()来遍历数据帧。使用for循环和嵌套的if语句，我能够识别出我想要更改的单元格。我使用了一条print语句来验证我是否能够更改数据，但是当我打印出数据帧时，信息没有改变。我能够在较小的数据框架上做到这一点。有什么想法吗？我原来的代码是这样的： data.loc[(data.ID.isin([10,45])) & (data.source.notnull()), 'ID'] = 50 但我需要添加以下内容： data.loc[(data.ID.isin([23,45])) & (data.source.notnull()), '

浏览 1提问于2019-04-05得票数 1

回答已采纳

2回答

创建带有权重的Pandas DataFrame列，如果1列中的值介于其他2列中的值之间

、、

如果一列中的值介于其他列中的两个值之间，则无法向新的Pandas DataFrame列添加权重(int)。但是，我可以使用True/False值(如果使用astype)创建列(或者0/1值)。 import pandas as pd df = pd.DataFrame({'a': [1,2,3], 'b': [4,5,6], 'c': [3,6,4]}) df a b c 0 1 4 3 1 2 5 6 2 3 6 4 这样做是可行的： df['between_bool'] = df[

浏览 6提问于2017-03-08得票数 0

回答已采纳

2回答

sort_values和sort_index有什么区别？

、

Python Pandas提供了两种排序DataFrame的方法： (或过时的) 这两种方法有什么不同？

浏览 115提问于2013-10-12得票数 25

回答已采纳

1回答

Python :在比较过程中获取ValueError

、

我想检查和比较pandas dataframe column的长度，检查dataframe列的值是否存在于特定的列表中，我为此编写了以下代码： def validation(dataset,column,length): dataset['A'] = 10 if(len(column) < int(length)) & (dataset.A.isin(['10']).astype(int)): dataset['A']= 11 validation(df,df.name,2) 但是在执行过程中，

浏览 0提问于2018-08-01得票数 0

1回答

如何在python中从pandas更改/访问Dataframe中的特定值

、、、、

我有一个来自pandas的dataframe对象，我想知道是否有任何方法可以访问特定列中的特定值并对其进行更改。 from pandas import DataFrame as df gameboard = df([['#','#',"#"],['#','#',"#"],['#','#',"#"]], columns = [1, 2, 3], index = [1,2,3]) print(gameboard) 例如，我想更改第二个“second”列

浏览 10提问于2020-03-23得票数 0

1回答

训练和测试数据中缺失值的机器学习问题

、、

我在为二进制分类训练文本分类器。在我的培训数据中，文本部分的.csv文件中有空值，测试文件中也有空值。我已经将这两个文件转换为一个dataframe (Pandas)。这是总体数据的一小部分(小于0.01)。了解这一点--用空字符串替换空文本字段更好，还是将其保留为空？如果答案是用空字符串替换，那么在针对模型运行测试csv文件之前，对它执行同样的操作是否“可以接受”？

浏览 4提问于2022-05-22得票数 0

1回答

如何通过比较两个数据帧来计算丢失的值

、、

我只想计算出两个数据帧之间缺少的值，所以.这是我试过的代码，运行良好 import pandas as pd df1 = pd.DataFrame([1, 2, 3, 4, 5, 6], columns=["my_column"]) df2 = pd.DataFrame([1, 2, 3], columns=["my_column"]) result = df1[~df1.set_index(list(df1)).index.isin(df2.set_index(list(df2)).index)].dropna() print(result) 输出：

浏览 0提问于2020-02-03得票数 2

回答已采纳

2回答

pandas如何将所有字符串值转换为浮点型

、

我希望将Pandas DataFrame中的所有string值转换为float，我可以定义一个简短的函数来完成此操作，但这不是Pythonic式的方法。我的DataFrame看起来像这样： >>> df = pd.DataFrame(np.array([['1', '2', '3'], ['4', '5', '6']])) >>> df 0 1 2 0 1 2 3 1 4 5 6 >>> df.dtypes 0 obj

浏览 0提问于2015-09-26得票数 7

回答已采纳

1回答

在dataframe中检查值的存在不起作用

、、

请看下面的代码。我有一个df，在第一个方法中，我简单地检查了整个dataframe中'Ankit‘的存在，但是第二个方法没有。为什么？ import pandas as pd # dictionary with list object in values details = { 'Name' : ['Ankit', 'Aishwarya', 'Shaurya', 'Shivangi', 'Priya', 'Swapnil'], 'Age'

浏览 1提问于2021-11-12得票数 1

回答已采纳

1回答

Openpyxl：“Worksheet”对象没有属性“values”

、、、、

我的目标是读取excel文件并查看pandas数据帧中的代码(即'= A3')，而不是excel执行代码的结果值，如果使用pandas读取，这是pandas的默认设置。我的目标在这里描述： Openpyxl应该支持这一点，但我无法让导入正常工作。有人发现错误了吗？ import pandas as pd from openpyxl import load_workbook from openpyxl.utils.dataframe import dataframe_to_rows df = pd.DataFrame() wb = load_workbook(filename

浏览 2提问于2017-02-23得票数 0

回答已采纳

1回答

存储多对多关系的最佳方式，以便将来快速查询

、、

我有一个数据框，我在其中对一个字段执行多个regex子字符串搜索，以确定此字符串属于哪个“家族”。这是一个相当昂贵的搜索，所以我想将结果保存在一个Pandas列中，以便更快地检索。Pandas有一个很好的isin()方法，用于确定单个检索到的项是否在给定的查询集中，但我不确定如何进行反向操作。下面是一个简单的单行示例： >>> from pandas import DataFrame >>> example = DataFrame({"text": "the quick brown fox jumps over the lazy d

浏览 0提问于2015-08-10得票数 0

7回答

检查熊猫数据索引中是否存在值

、、

我相信有一个显而易见的方法来做到这一点，但现在想不出任何光滑的东西。基本上，我不想提出例外，我想让True或False来看看熊猫df指数中是否存在一个值。 import pandas as pd df = pd.DataFrame({'test':[1,2,3,4]}, index=['a','b','c','d']) df.loc['g'] # (should give False) 我现在的工作是： sum(df.index == 'g')

浏览 2提问于2014-05-08得票数 203

回答已采纳

3回答

如何用条件来计算行数？

、

我有这样的数据集： import pandas as pd # initialize data of lists. data = {'name':['x', 'y', 'z'], 'value':['fb', 'nan', 'ti']} # Create DataFrame df = pd.DataFrame(data) 现在，我想检查value的列，如果value没有'fb‘和'nan’(null值)，则计数行数。我该怎么做

浏览 9提问于2022-05-05得票数 0

1回答

如何检查一个dataframe列中的值是否包含在另一个完整列中？

、

在我的项目中，我需要检查整个dataframe列中是否存在一些值。示例dataframe： df=pd.DataFrame([['abc', 'a'], ['def', 'x'], ['aef', 'f']]) df.columns=['a', 'b'] >>>df a b 0 abc a 1 def x 2 aef f 这个静态代码运行良好： df['a'].str.contains('f')

浏览 0提问于2019-09-25得票数 1

回答已采纳

2回答

当不存在NaNs时，any(df.isna())返回true

、、

当我创建一个浮点数的DataFrame并执行any(df.isna())时，无论数组的内容是什么，它总是返回True。我希望这会给出与df.isna().any().any()相同的结果。我错过了什么？ import pandas as pd import numpy as np import sys print(f'Pandas version {pd.__version__}') print(f'Numpy version {np.__version__}') print(f'Python version: {sys.version}')

浏览 49提问于2020-12-12得票数 0

回答已采纳

1回答

从系列中为熊猫数据添加行

、

让df成为一个pandas.DataFrame对象。让se成为一个pandas.Series对象。 df列是se的指标。我希望从df中向se添加一个新行，并将索引设置为555。我使用的命令是df.loc[555]=se。似乎起作用了？我知道A值正试图从DataFrame错误/警告中在片的副本上设置。我明白了，我看过文件了。不过，有两个问题：我真的应该关心这个警告吗？这样做的推荐方法是什么，这样就不会弹出警告？谢谢。

浏览 3提问于2014-12-08得票数 0

回答已采纳

6回答

如果pandas.DataFrame中的列是绝对的，什么是一个很好的启发式方法？

、、

我一直在开发一个工具，可以自动地以pandas.DataFrame格式对数据进行预处理。在这个预处理步骤中，我想以不同的方式处理连续数据和分类数据。特别是，我希望能够只对分类数据应用(例如，OneHotEncoder )。现在，让我们假设我们被提供了一个pandas.DataFrame，并且没有关于DataFrame中数据的其他信息。使用什么好的启发式方法来确定pandas.DataFrame中的列是否是绝对的？我最初的想法是： 1)如果列中有字符串(例如，列数据类型为object)，则该列很可能包含分类数据。 2)如果列中某些值的百分比是唯一的(例如，>=20%)，那么该列很可能包

浏览 4提问于2016-03-06得票数 29

1回答

Python Pandas。使用Series创建DataFrame不保留dtype

、

我有一个用例，我认为这个用例很常见，所以我认为我的这个问题应该很容易回答，但是我在任何地方都找不到答案。请考虑以下几点。 df = pandas.DataFrame({"id": numpy.random.choice(range(100), 5, replace=False), "value": numpy.random.rand(5)}) df2 = pandas.DataFrame([df["id"], df["value"]*2]).T 基本上，我正在创建一个DataFrame

浏览 4提问于2016-02-09得票数 3

回答已采纳

2回答

如何检查一个值是否属于或可推广到熊猫中的列类型？

、、

例如，假设我有以下DataFrame。 import pandas as pd df = pd.DataFrame([['a', 1.3, 10], ['b', 2, 20]], columns=['id', 'v1', 'v2']) df = df.astype({col: 'category' for col in df.columns[df.dtypes == object]}) print(df) print() print(df.dtypes) id v1 v2 0 a

浏览 9提问于2022-02-08得票数 0

2回答

更新Pandas数据帧中的值似乎更新了所有数据帧

、、

我已经构建了两个这样的Pandas数据帧： import panda as pd d = {'FIPS' : pd.Series(['01001', '01002']), 'count' : pd.Series([3, 4])} df1 = pd.DataFrame(d) df2 = df1 我想要更改df2中的一个值。这是我尝试过的： df2.loc[df2['FIPS'] == '01001','FIPS'] = '01003' 这一行似乎同时更新了df1和d

浏览 1提问于2017-02-05得票数 0

1回答

dask的本地使用:客户端()还是不客户机()？

、、、

我正在尝试理解本地机器上Dask的使用模式。具体来说，我有一个适合记忆的数据集我想做一些熊猫手术集体..。日期解析等。熊猫通过一个核心来执行这些操作，这些操作对我来说需要几个小时。我在我的机器上有8个核心，因此，我想使用Dask尽可能地并行化这些操作。我的问题如下:在Dask中，这两种方法有什么区别？ import pandas as pd from sklearn.datasets import load_iris iris = load_iris() (1) import dask.dataframe as dd df = dd.f

浏览 0提问于2018-05-30得票数 6

回答已采纳

1回答

为什么pandas DataFrame.iloc返回的是类别数据类型的标量，而是对象数据类型的系列？

、

在pandas 0.23.0和python 3.6.5中，我看到了在DataFrame上使用iloc[int]时不理解的行为。如果DataFrame只有一列，并且该列的类型是“category”，则iloc[int]将返回标量值而不是系列。当"answer“列是一个对象数据类型时，我会得到一个预期的Series： >>> df = pandas.DataFrame({'answer': ['no', 'no', 'yes']}) >>> df['answer'] =

浏览 1提问于2018-08-24得票数 0

2回答

熊猫索引-视图-对-复制

、、

我有一个有几列的数据格式。稍后，添加一个名为“Active”的列。如果“音量”列包含大于0的内容，则需要将“Active”设置为1。这是一个简单的例子，说明我是如何尝试的： import pandas as pd active_df = pd.DataFrame(columns=['Volume']) active_df['Volume'] = 0, 0, 22, 22, 0, 22, 0, 22, 0, 22 active_df['Active'] = 0 active_df['Active'].loc[active_df

浏览 0提问于2018-01-18得票数 3

回答已采纳