在数据框中创建指示另一列中的重复值的列

，可以通过以下步骤实现：

import pandas as pd
import numpy as np

创建一个包含重复值的数据框。假设我们有一个名为df的数据框，其中包含一个名为column_name的列，我们想要创建一个新的列来指示column_name中的重复值。可以使用以下代码创建一个示例数据框：

data = {'column_name': ['A', 'B', 'C', 'A', 'B', 'D']}
df = pd.DataFrame(data)

使用duplicated()函数检测重复值。duplicated()函数可以用于检测数据框中的重复值。默认情况下，它返回一个布尔值的Series，指示每个元素是否为重复值。可以使用以下代码创建一个名为is_duplicate的新列，其中包含column_name中的重复值：

df['is_duplicate'] = df['column_name'].duplicated()

如果需要，可以将布尔值的列转换为整数值。根据需要，可以使用astype()函数将布尔值的列转换为整数值。可以使用以下代码将is_duplicate列转换为整数值：

df['is_duplicate'] = df['is_duplicate'].astype(int)

至此，我们已经成功创建了一个指示另一列中重复值的新列。可以根据具体的应用场景和需求，进一步处理和分析数据框中的重复值。

相关·内容