DataFrame，如何向多索引列pandas添加列

基础概念

DataFrame 是 pandas 库中的一个核心数据结构，用于处理和分析表格数据。它类似于 Excel 表格或 SQL 表，但功能更强大。DataFrame 可以包含多个索引（MultiIndex），这使得数据可以按多个层次进行组织和访问。

向多索引列添加列

假设你已经有一个多索引列的 DataFrame，以下是如何向其中添加新列的步骤：

示例代码

import pandas as pd

# 创建一个多索引列的 DataFrame
arrays = [
    ['A', 'A', 'B', 'B'],
    ['one', 'two', 'one', 'two']
]
index = pd.MultiIndex.from_arrays(arrays, names=('first', 'second'))
df = pd.DataFrame({'value': [10, 20, 30, 40]}, index=index)

print("原始 DataFrame:")
print(df)

# 向多索引列添加新列
new_column_data = [50, 60, 70, 80]
df['new_column'] = new_column_data

print("\n添加新列后的 DataFrame:")
print(df)

输出

原始 DataFrame:
              value
first second       
A     one       10
       two       20
B     one       30
       two       40

添加新列后的 DataFrame:
              value  new_column
first second                  
A     one       10         50
       two       20         60
B     one       30         70
       two       40         80

应用场景

数据清洗：处理缺失值、重复值、数据类型转换等。
数据分析：统计分析、分组聚合、数据透视表等。
数据可视化：结合 Matplotlib 等库进行数据可视化。

常见问题及解决方法

问题：如何处理索引不匹配的情况？

原因：当尝试向 DataFrame 添加新列时，如果新列的长度与 DataFrame 的行数不匹配，会导致索引不匹配的错误。

解决方法：

# 确保新列的长度与 DataFrame 的行数匹配
new_column_data = [50, 60, 70, 80]
if len(new_column_data) == len(df):
    df['new_column'] = new_column_data
else:
    print("新列的长度与 DataFrame 的行数不匹配")