基于列中的值的Pandas数据帧示例

基础概念

Pandas是一个强大的Python数据分析库，提供了高性能、易于使用的数据结构和数据分析工具。Pandas的核心数据结构是DataFrame，它是一个二维的、大小可变、潜在异构的表格数据结构，类似于Excel表格或SQL表。

类型

Pandas DataFrame中的列可以是多种类型，包括：

数值型：整数（int）、浮点数（float）
字符串：object
日期时间：datetime
布尔型：bool
分类数据：category

应用场景

Pandas广泛应用于数据科学、金融分析、统计建模、机器学习等领域。例如：

数据清洗：处理缺失值、重复值、异常值等。
数据转换：数据格式转换、数据聚合、数据透视表等。
数据分析：统计描述、相关性分析、时间序列分析等。
数据可视化：结合Matplotlib等库进行数据可视化。

示例代码

假设我们有一个包含学生信息的DataFrame，列包括姓名、年龄、成绩等。我们可以通过以下代码进行一些基本操作：

import pandas as pd

# 创建一个示例DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [20, 22, 21, 23],
    'Score': [85, 90, 78, 88]
}
df = pd.DataFrame(data)

# 查看DataFrame的基本信息
print(df.info())

# 查看DataFrame的前几行数据
print(df.head())

# 根据年龄筛选数据
filtered_df = df[df['Age'] > 21]
print(filtered_df)

# 计算平均成绩
average_score = df['Score'].mean()
print(f'Average Score: {average_score}')

参考链接

常见问题及解决方法

问题：DataFrame中的某些列数据类型不正确

原因：可能是由于数据导入时数据类型未正确识别，或者在数据处理过程中数据类型被错误地转换。

解决方法：

# 检查数据类型
print(df.dtypes)

# 转换数据类型
df['Age'] = df['Age'].astype(int)
df['Score'] = df['Score'].astype(float)

问题：DataFrame中存在缺失值

原因：数据源中可能存在缺失值，或者在数据处理过程中引入了缺失值。

解决方法：

# 检查缺失值
print(df.isnull().sum())

# 填充缺失值
df.fillna(0, inplace=True)  # 用0填充缺失值

# 删除包含缺失值的行
df.dropna(inplace=True)

通过以上方法，可以有效地处理Pandas DataFrame中的常见问题，确保数据的准确性和完整性。

Python Pandas DataFrame数据标识

、、、

我从.xlsx文件中提取数据并将其存储在数据帧中。数据帧称为df，数据帧的大小为(51,3)。51行。3列。列是未命名的，编号为0、1、2。行的索引从0到50。在python中，我将使用什么语法从带有pandas的数据帧中提取数据并将其放入csv？我知道我会使用DataFrame.to_csv("outputFile.csv" )，但是我不确定如何识别特定的数据(行/列对)，所以我可以将它放在csv表中的新位置，而不是旧的excel表。

浏览 1提问于2016-03-09得票数 0

2回答

从pandas df更新数据库中的现有行

、、

我有一个PostgreSQL数据库。Pandas有一个“to_sql”函数，可以将数据帧的记录写入数据库。但我还没有找到任何文档，说明在我使用完dataframe时如何使用pandas更新现有的数据库行。目前，我可以使用pandas read_sql_table将数据库表读取到数据帧中。然后，我会根据需要处理数据。但是，我还不能弄清楚如何将该数据帧写回数据库以更新原始行。我不想覆盖整个表。我只需要更新最初选择的行。

浏览 73提问于2015-04-13得票数 25

1回答

从现有数据帧的某些列创建新的pandas数据帧

、、

我已经阅读了将csv文件加载到pandas数据帧中，并希望对该数据帧进行一些简单的操作。我不知道如何根据从原始数据框中选择的列来创建新的数据框。我的尝试是： names = ['A','B','C','D'] dataset = pandas.read_csv('file.csv', names=names) new_dataset = dataset['A','D'] 我想用原始数据帧中的列A和D创建一个新的数据帧。

浏览 1提问于2017-07-11得票数 24

回答已采纳

2回答

如何在数据框某些行的所有列上使用pandas apply函数

、、

我有一台dataframe。我想要将某些行的所有列的值替换为默认值。有没有办法通过pandas apply函数做到这一点？这是数据帧 import pandas as pd temp=pd.DataFrame({'a':[1,2,3,4,5,6],'b':[2,3,4,5,6,7],'c':['p','q','r','s','t','u']}) mylist=['p','t'] 如何将列a和b中的值替换为默认值0，其中

浏览 13提问于2016-07-21得票数 2

回答已采纳

2回答

将根据给定需求选择的某些行放入另一个数据帧中

、

我已经使用Pandas将csv文件读取到数据帧中，csv格式如下。我想把“时间列信息”在6/3/2011-10/20/2011间隔之间的行放到另一个数据帧中。我怎样才能在Pandas中高效地做到这一点？

浏览 4提问于2018-08-10得票数 0

2回答

如何将不同列大小的pandas数据帧拆分成独立的数据帧？

、、

我有一个大型的pandas数据帧，它在整个数据帧中包含不同数量的列。下面是一个示例：Current dataframe example 我想根据数据帧的列数将其拆分成多个数据帧。示例输出图像如下：Output image 谢谢。

浏览 12提问于2019-10-13得票数 1

1回答

Pandas中的列名(Python)

、

Python : Pandas :数据框:列名我有大量的列，列名也很大。我希望看到一些列和行，但视图变得限制在列名的大小上。如何在没有列名的Python中临时查看数据帧(仅显示数据)

浏览 12提问于2018-05-09得票数 2

1回答

向不带标题的pandas添加列

、、

如何将常量值列附加到没有标头的pandas数据帧中？我想在末尾追加这一列。有了headers，我可以用的方式来做： df['new'] = pd.Series([0 for x in range(len(df.index))], index=df.index)

浏览 1提问于2017-02-27得票数 5

回答已采纳

4回答

在pandas dataframe python中使用pii匿名特定列

、、、、

我已经加载了一个包含json文件的s3存储桶，并将其解析/平整成一个pandas数据帧。现在我有了一个175列的数据帧，其中有4列包含个人身份信息。我正在寻找一个快速解决方案匿名这些列(名称和地址)。我需要保持信息的倍数，以便如果同一个人的姓名或地址出现多次具有相同的哈希。 pandas或其他包中是否有我可以利用的现有功能？

浏览 4提问于2017-12-28得票数 7

2回答

如何将Python Dataframe转换为列表列表？

、、

我有一个尺寸为21392x1972的Python数据帧。我想要完成的是将数据帧转换为列表列表，这样我的数据帧的第一列是长列表中的第一个列表，数据帧的第二列是具有一个长列表的第二个列表，依此类推。我尝试使用tolist()将数据帧转换为列表列表。现在发生的情况是，我的数据帧的每一行都变成了长列表中的一个列表。但是，我想要完成的是，数据框的每一列都应该成为长列表中的一个列表。我刚开始使用Pandas和Python，所以在这方面的任何帮助都是非常感谢的。干杯! import pandas as pd mydataset = pd.read_csv('final_merged_data.c

浏览 21提问于2019-01-18得票数 0

回答已采纳

1回答

Deedle，删除除一列之外的所有列

、

在pandas中，如果我只想保留目标列，可以这样做： >>> import numpy as np >>> import pandas as pd >>> df = pd.DataFrame(np.random.randn(3,3), columns=list("abc")) >>> df[["a"]] a 0 0.057213 1 0.162161 2 1.351165 >>> type(res) <class 'pandas.co

浏览 2提问于2016-09-07得票数 0

2回答

pandas等同于R的cbind (垂直连接/堆叠向量)

、、、

假设我有两个数据帧： import pandas .... .... test1 = pandas.DataFrame([1,2,3,4,5]) .... .... test2 = pandas.DataFrame([4,2,1,3,7]) .... 我尝试过test1.append(test2)，但它相当于R的rbind。如何将这两列合并为数据帧的两列，类似于R中的cbind函数？

浏览 4提问于2015-02-19得票数 45

回答已采纳

2回答

检查当前行中的所有列值是否小于pandas数据帧中的所有前一行

、

有没有办法检查当前行中的所有列值是否小于pandas数据帧(整个数据帧)中所有前一行(直到当前行)中的相应列值，并相应地创建一个值为1或0的新列？

浏览 0提问于2017-06-15得票数 1

2回答

如何在不占用RAM的情况下创建额外的列，然后将其用于ML算法？

、、、、

我有一个包含3m+ (有序)行和100列的数据集，我可以使用Pandas将其加载到我的笔记本中。我想追加大约900列，这些列是使用100个现有的列计算得出的。最终目标是训练几个机器学习模型(NN，随机森林)。当我尝试使用Pandas添加列时，由于RAM不足(我有25 to )，我的机器崩溃了。因此，我尝试使用Dask，它允许我毫无问题地计算900列。然而，Dask数据帧不能用作随机森林(Sklearn)和Keras模型的输入，所以我猜在某些时候您必须将其转换回pandas数据帧。在这一点上我被卡住了。速度是相当重要的，因为我需要经常改装模型。有没有人有好的建议？

浏览 18提问于2021-05-22得票数 1

2回答

使用pandas在dataframe中创建动态列

、

如何从此pandas数据帧创建动态列。 Name, Sex a, M b, F c, M d, F 预期的数据帧： Name, M, F a, 1, 0 b, 0, 1 c, 1, 0 d, 0, 1 我试过pandas.pivot()，但是没有用，你们能推荐点什么吗？

浏览 4提问于2016-08-01得票数 1

3回答

筛选出超过一定数量的NaN的行

、、、

在Pandas数据帧中，我想过滤掉所有超过2个NaN的行。本质上，我有4列，我只想保留那些至少有2列有限定值的行。有人能建议一下如何实现这一点吗？

浏览 10提问于2014-04-22得票数 9

回答已采纳

2回答

列子集和过滤器Pandas

、

如何在一个命令中过滤Pandas数据帧中的行并仅获取pandas数据帧中的列的子集。我正在试着应用像这样的东西... frame[(frame.DESIGN_VALUE > 20) & (frame['mycol3','mycol6']))] 谢谢。

浏览 0提问于2015-10-02得票数 17

回答已采纳

3回答

Pandas:在一个数据帧中使用来自另一个数据帧的匹配键创建新列

、

我有两个pandas数据帧，第一个数据帧有两列，假设它们是键和值，第二个数据帧只包含键，我想在第二个数据帧中添加一个新列。此列的值应该是第一个数据帧中匹配的键的值 df = pd.DataFrame({'vi' : ['a','b','c','d','e'],'s':[2,5,7,0,1]}) tf = pd.DataFrame({'vi' : ['b','d','c','a','e'

浏览 0提问于2015-12-22得票数 0

1回答

尝试跨越两个数据帧，一个带有值，另一个带有布尔值

、、、

我正在尝试从两个源数据帧中获取新的数据帧。第一个将包含数据，第二个将只包含True或False。两者具有相同的列名、相同的列数和相同的行数。 import pandas as pd data1 = [['Alex',10],['Bob',12],['Clarke',13]] df1 = pd.DataFrame(data1,columns=['Name','Age']) data2 = [[True,False],[False,True],[False,False]] df2 = pd.DataFrame(dat

浏览 0提问于2019-10-31得票数 1

4回答

比较两个dataframe列的匹配百分比

、、、、

我想将一个列的数据帧与另一个多列的数据帧进行比较，并返回具有最大匹配百分比的列的标题。我在pandas中找不到任何匹配函数。第一个数据帧第一列： cars ---- swift maruti wagonor hyundai jeep 第一个数据帧第二列： bikes ----- RE Ninja Bajaj pulsar 单列数据帧： words --------- swift RE maruti waganor hyundai jeep bajaj 所需输出： 100% match header - cars

浏览 41提问于2019-06-17得票数 5

5回答

多个熊猫数据帧中列值的频率

、、

我有多个熊猫数据帧(超过70个)，每个都有相同的列。假设每个数据帧中只有10行。我希望在每个数据帧中找到列A‘值，并列出它。示例： # Import pandas library import pandas as pd # initialize list of lists data = [['tom', 10], ['nick', 15], ['juli', 14]] # Create the pandas DataFrame df = pd.DataFrame(data, columns = ['Name'

浏览 11提问于2020-09-06得票数 0

回答已采纳

3回答

如何使用for循环从dataframe中删除许多行，这些循环遍历需要删除的值？

、、、

我正在尝试通过它的名称删除超过数百万行，这是超过1000个唯一值。有一个主数据帧(df_summary)和另一个数据帧，其中包含必须从主数据帧中删除的行的名称。删除一些列不是问题，但是需要删除的唯一值的数量太多了，无法手动执行。因此，我尝试遍历它。 “两个数据帧的整体外观，列后面有许多列” 以下是我尝试过的方法： from pandas import read_csv import pandas as pd df_summary = read_csv ('path.csv', sep=',') rows_to_remove = read_csv ('

浏览 28提问于2019-10-25得票数 0

回答已采纳

11回答

如何在pandas中获取数据帧的列切片

、、、、

我从CSV文件加载一些机器学习数据。前2列是观测值，其余列是特征。目前，我做了以下工作： data = pandas.read_csv('mydata.csv') 这给出了一些类似的东西： data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde')) 我想将这个数据帧分成两个数据帧:一个包含列a和b，另一个包含列c、d和e。不可能写出像这样的东西 observations = data[:'c'] features = data['c':] 我不确

浏览 4提问于2012-05-19得票数 304

回答已采纳

1回答

如何重新建立索引以合并两个数据帧？

、

我正在尝试合并两个都有'product_desc‘列的数据帧。我使用的是Pandas 0.13和Python 2.7。 small_df = pd.merge(small_df, linregress_df, on = 'product_desc', how = 'left') 但是，我得到以下错误： pandas.core.index.InvalidIndexError: Reindexing only valid with uniquely valued Index objects 我将两个数据帧导出到平面文件中，其中的索引或其他列都没有重复值。我需

浏览 8提问于2014-06-09得票数 2

4回答

Pyspark:有没有等同于pandas info()的方法？

、、、

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

Pandas:使用set_index()将列设置为索引创建一个子索引。为什么会发生这种情况，以及如何删除它？

、、、

我想使用pandas数据帧中的第一列作为行索引，所以我尝试使用来实现，但这样做的副作用是添加了额外的列索引。 (运行选项InteractiveShell.ast_node_interactivity = "all"的jupyter notebook代码)： import pandas as pd df = pd.DataFrame([[l+r*10 for l in range(1, 5)] for r in range(1, 5)]) df # before df.set_index(0, inplace=True) df # after set_index()之前的

浏览 9提问于2018-08-16得票数 3

回答已采纳

1回答

如何根据另外两列中满足的条件对最后一列中的pandas DataFrame元素进行索引？

、、、

pandas数据帧有4列： df.columns = ['col1', 'col2', 'question', 'answer'] 如何根据满足第一列的标准对数据帧进行索引，从而为'answer'列的单个条目编制索引？即： df['col1'=='apple' and 'col2'=='guitar'].answer

浏览 10提问于2021-01-11得票数 0

1回答

比较不同pandas数据帧的列

、、

我刚接触Python，并且使用pandas数据帧来存储和处理大型数据集。我想知道是否可以比较名称相似的列的数据帧之间的值。例如，我所追求的功能类似于比较此数据帧中的列'A‘： A 0 9 1 9 2 5 3 8 4 7 5 9 6 2 7 2 8 5 9 7 此列中的“A”列： A 0 6 1 3 2 7 3 8 4 2 5 5 6 1 7 8 8 4 9 9 然后，对于每一行，我将确定两个'A‘值中哪一个较小，并将其添加到第一个数据帧中名为’B‘的新列中： A B 0 9 6 1 9 3 2 5 5 3

浏览 2提问于2016-11-15得票数 2

1回答

将列表追加到pandas数据帧的第一行和第一列

、、、

我有一个4300x4300的pandas数据帧(行和列)，并希望在第一行和第一列中添加一个列表。我不知道如何做到这一点，如果不完全用零…填充数据帧旧的4300 x 4300数据帧示例(摘录)： ? 要添加的列表示例：“轴”，“输出”，“组”，“多”，“记录” 新的A x A数据帧示例： ?

浏览 11提问于2019-06-13得票数 1

回答已采纳

1回答

使用pandas dataframe创建年度预测数据

、

我最近开始使用pandas数据透视表功能，并希望在输出中添加额外的数据。我现在有下面的数据框数据帧：我想在最后一列旁边多加一列，这将给出12个月的费用预测，即平均*12。结果数据帧：提前感谢同行python专家的帮助。

浏览 2提问于2020-07-31得票数 0

2回答

pyspark数据帧中所有列的总计数为零

、、

我需要找出pyspark dataframe中所有列中0的百分比。如何在数据帧中找到每一列的零计数？附言:我尝试过将数据帧转换为pandas数据帧，并使用了value_counts。但是，对于大型数据集来说，推断它的观察值是不可能的。

浏览 0提问于2018-08-20得票数 4

4回答

使用多列的pandas数据帧列表理解的内存高效方法

、、

我想在列表理解中对熊猫数据帧的行运行一个函数。Dataframe可以有不同数量的列。如何利用这些数据帧的列？ import pandas as pd df = {'chrom': ['chr1', 'chr1','chr1'], 'start': [10000, 10100, 12000], 'end':[10150,10120,12250], 'S1':[1, 1, 1],'S2':[2, 2, 2],'S3':[3, 3, 3] } df =

浏览 0提问于2019-10-26得票数 1

3回答

如何在数据帧中居中对齐头和值，以及如何删除数据帧中的索引

、、、

我有以下数据帧： import pandas as pd df = pd.DataFrame({'text': ['foo foo', 'bar bar'], 'number': [1, 2]}) df ? 如何在数据帧中居中对齐列标题/标题和值，以及如何在数据帧中删除索引(值为0和1的列)？

浏览 34提问于2020-04-22得票数 1

回答已采纳

1回答

当第3行的数据长度大于标题长度时，Python pandas.readexcel(文件路径，header=[0,1])会失败。欢迎任何解决方案的建议

、、、、

我已经定义了我的excel(xlsx)的前两行，即0,1作为头文件。为简单起见，excel文件只有一张工作表。在最初的两行之后，文件中的数据行很少。由于有两个头文件，pandas给了我一个多索引的数据帧，这很好。 dataframe = pandas.readexcel(filepath, header=[0,1]) 当一个文件的所有行都达到头的宽度时，上面这行代码就会给我一个有效的数据帧。这是问题所在。在我的一个excel文件中，标题行有65个excel列，有些数据行有66列。熊猫无法执行 dataframe = pandas.readexcel(filepath, header=[0,

浏览 0提问于2018-11-29得票数 0

1回答

Python Pandas识别错误数据

、、

我有一个用逗号分隔的csv文件，每行有215列。文件非常大，我使用pandas dataframe pd.read_csv()和块来读取数据。文件中的一行有214列，而不是215列，但dataframe读取数据时将NaN应用于最后一列。有没有办法在pandas dataframe中标识此行，因为我更喜欢dataframe而不是csv_reader。注意:最后一列也可以为null，因此按等于null的最后一列过滤数据帧将不起作用

浏览 19提问于2020-09-30得票数 0

1回答

Python:将df中的行数添加到另一个df中作为新列

、、、、

假设我计算了熊猫数据帧中的行数。我使用以下代码来完成此操作： df.shape 它给出了以下结果：(1700，12) 如何将1700值添加到现有的pandas数据帧中？我们将把与该值相关联的列称为D。当前数据帧： A B C 30 40 text 所需数据帧： A B C D 30 40 text 1700

浏览 2提问于2018-04-18得票数 0

2回答

如何在pandas dataframe中使用列表作为值？

、、、、

我有一个数据帧，它要求列的子集具有具有多个值的条目。下面是一个包含“runtime”列的dataframe，其中包含程序在各种条件下的运行时： df = [{"condition": "a", "runtimes": [1,1.5,2]}, {"condition": "b", "runtimes": [0.5,0.75,1]}] df = pandas.DataFrame(df) 这就形成了一个数据帧： condition runtimes 0 a [1,

浏览 0提问于2014-11-08得票数 8

回答已采纳

6回答

如果pandas DataFrame中的另一列不为null，则用另一列替换该列

、、

我正在使用Pandas处理数据帧，其中如果另一个列的值不为空，则必须替换列。我的数据帧是这样的： v_4 v5 s_5 vt_5 ex_5 pfv pfv_cat 0-50 StoreSale Clothes 8-Apr above 100 FatimaStore Shoes 0-50 StoreSale Clothes 8-Apr 0-50 DiscountWorld Clothes 51-100 Cl

浏览 101提问于2019-10-09得票数 9

1回答

使用类从dataframe中删除列

、、、

我正在努力减少数据帧中不需要的数据列，但让它在OOP的范围内工作。数据帧中的列是从'A‘到'M’。示例： import pandas as pd # columns 'A' 'B' and 'C' are what I want kept vibe_df = pd.read_csv('C:Location/Document.csv') vibe_df = vibe_df[['DateTime', 'A', 'B', 'C']] 上面的工作，但是，我

浏览 0提问于2020-08-27得票数 1

3回答

Pandas打印的行数比预期的多

、、

目前我在一个数据库上工作，我试着用pandas对我的行进行排序。我有一个名为'sessionkey‘的列，它引用了一个会话。因此可以将每一行分配给一个会话。我尝试将数据分离到这些会话中。此外，还可以有重复的行。我试着从pandas中删除那些带有drop_duplicates函数的代码。 df = pd.read_csv((path_of_data+'part-00000-9d3e32a7-87f8-4218-bed1-e30855ce6f0c-c000.csv'), keep_default_na=False, engine='python') tmp

浏览 2提问于2019-04-02得票数 3

2回答

根据另一行向前或向后填充

、

我有一个数据帧，如下所示： loc status ID 0 LA NaN NaN 1 CHC NaN NaN 2 NYC ARR 32 3 CHC DEP 45 4 SEA NaN NaN 我正在尝试根据status列来填充ID列中缺少的值。如果status列是"ARR"：我想向后填充，如果status列是"DEP"：我想向前填充，这样我的最终数据帧将如下所示： loc status ID 0 LA NaN 32 1 CHC NaN 32 2 NYC ARR 32

浏览 5提问于2017-02-02得票数 1

回答已采纳

1回答

熊猫数据串接

、、

我有两张数据。第一列只有两列和N行。N是几百到数千。每一列都是一个分子名称，因此，它是一对分子的数据。第二个dataframe:我有一个dataframe，它是1600列和M行。每一列都有一个分子的描述符。因此，每个分子都有1600个描述符。考虑到这两个数据格式，我想要创建一个包含3200列(1600*2)和N行的第3数据帧。对于每一对分子，我想要有第一个分子的1600个描述符，然后是第二个分子的1600个描述符。因此，我将有一个新的数据，每一对分子有3200个描述符。是否有一种pandas方法来组合来自不同DataFrames的列？我的MWE只适用于我的小例子。我有一个MWE，但是

浏览 5提问于2022-06-07得票数 0

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala api？

、、、

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我想返回一个新的数据帧，其中包含每个组的一行和两列，一列包含groupby值，另一列包含结果。使用PandasUDF这将是一个相对简单的任务，但是我不知道如何在Scala中做到这一点。我尝试使用group by列对

浏览 28提问于2020-04-22得票数 0

1回答

检查Pandas Dataframe中的异常值

、

我在一个包含8个电极的传感器上做了一个实验。上图是电极输出随时间变化的曲线图。正如您在图中看到的，8个电极中的一个明显是异常值(可能是由于某些电气故障)。该图是由Pandas DataFrame生成的，它基本上有10列(1列表示时间，8列表示电极，1列平均8个电极)。在统计上检测某一列是否为异常值的最佳方法是什么？我想可以将离群列从数据帧中删除。谢谢!

浏览 0提问于2018-01-04得票数 3

回答已采纳

1回答

如何在spark sql dataframe中映射一列以创建新列？

、、、

在python和pandas中，我可以创建一个新的专栏，如下所示：使用pandas dataframe中的两列来创建字典。 dict1 = dict(zip(data["id"], data["duration"])) 然后，我可以应用这个字典在第二个dataframe中创建一个新列。 df['id_duration'] = df['id'].map(lambda x: dict1[x] if x in dict1.keys() else -1) 如果我有一个数据帧id_duration (有两列：id和duration)和

浏览 38提问于2021-01-22得票数 0

回答已采纳

11回答

如何确定Pandas列是否包含特定值

、

我试图确定Pandas列中是否有具有特定值的条目。我试着用if x in df['id']做这件事。我认为这是可行的，但当我给它一个我知道不在43 in df['id']列中的值时，它仍然返回True。当我只包含匹配缺少的id df[df['id'] == 43]的条目的数据帧子集时，很明显，其中没有条目。如何确定Pandas数据帧中的列是否包含特定值，以及为什么我的当前方法不能工作？(FYI，当我在这个中使用类似的问题时，我也遇到了同样的问题)。

浏览 7提问于2014-01-23得票数 288

回答已采纳

1回答

使用dataframe索引数据的pandas数据透视表

、

我想使用dataframe.pivot()从pandas数据帧创建一个数据透视表，不仅包括数据帧列，还包括数据帧索引中的数据。找不到任何说明如何做到这一点的文档。有什么建议吗？

浏览 0提问于2014-02-08得票数 5

1回答

Pandas如何在不丢失列标题的情况下连接两个数据帧

、

我有以下玩具代码： import pandas as pd df = pd.DataFrame() df["foo"] = [1,2,3,4] df2 = pd.DataFrame() df2["bar"]=[4,5,6,7] df = pd.concat([df,df2], ignore_index=True,axis=1) print(list(df)) 输出：[0,1] 预期输出：[foo,bar] (顺序并不重要) 如果我能保证两个数据帧的标题是唯一的，有没有办法在不丢失原始列标题的情况下连接两个数据帧呢？我想到了遍历这些列，然后

浏览 1提问于2017-04-14得票数 16

回答已采纳

2回答

检查两个数据文件的相等性

、、

检查两个数据格式是否相等的Pythonic方法是什么？我现在所做的是：用pandas.DataFrame.sort_values()对具有唯一值的列对数据帧进行排序使用pandas.DataFrame.reset_index()重新设置数据帧排序后的索引使用pandas.DataFrame.sort_index()按行和列对数据帧索引进行排序然后使用pandas.DataFrame.all()对两个数据帧进行比较。示例代码： (df1.sort_values(['Symbol']).reset_index(drop=True).sort_in

浏览 2提问于2017-02-13得票数 2

1回答