首页
学习
活动
专区
圈层
工具
发布
50 篇文章
1
【原创佳作】介绍Pandas实战中一些高端玩法
2
pandas 如何实现 excel 中的汇总行?
3
pandas多级索引的骚操作!
4
40000字 Matplotlib 实操干货,真的全!
5
利用Python搞定女朋友的小情绪~
6
Python 绘制惊艳的瀑布图
7
6种方式创建多层索引
8
Python 进阶指南(编程轻松进阶):三、使用 Black 工具来格式化代码
9
数据科学 IPython 笔记本 9.6 聚合:最小、最大和之间的任何东西
10
精通 Pandas 探索性分析:1~4 全
11
高手系列!数据科学家私藏pandas高阶用法大全 ⛵
12
总结了67个pandas函数,完美解决数据处理,拿来即用!
13
PyAutoGUI,一个Python办公自动化利器!
14
解放双手|利用 PyAutoGUI 快速构建自动化操作脚本
15
Python中内置数据库!SQLite使用指南! ⛵
16
数据分析索引总结(中)Pandas多级索引
17
数据分析索引总结(下)Pandas索引技巧
18
数据分析索引总结(上)Pandas单级索引
19
网友需求系列01-Python-matplotlib定制化刻度(主副)绘制
20
用Python自动生成数据分析报告
21
手把手教你用Python操纵Word自动编写离职报告
22
pandas transform 数据转换的 4 个常用技巧!
23
30段极简Python代码:这些小技巧你都Get了么
24
数据处理遇到麻烦不要慌,5个优雅的Numpy函数助你走出困境
25
数据分析最有用的Top 50 Matplotlib图(带有完整的Python代码)(上)
26
数据分析最有用的Top 50 Matplotlib图(带有完整的Python代码)(下)
27
数据分析之Pandas变形操作总结
28
数据分析之Pandas缺失数据处理
29
数据分析之Pandas合并操作总结
30
数据分析之Pandas分组操作总结
31
学习用Pandas处理分类数据!
32
如何用Pandas处理文本数据?
33
Pandas处理时序数据(初学者必会)!
34
Python高阶函数使用总结!
35
机器学习在金融风控的经验总结!
36
你知道怎么用Pandas绘制带交互的可视化图表吗?
37
6个提升效率的pandas小技巧
38
Python数据分析库pandas高级接口dt和str的使用
39
pandas 拼接 concat 5 个常用技巧!
40
pandas分组8个常用技巧!
41
pandas 文本处理大全
42
pandas 筛选数据的 8 个骚操作
43
pandas 分类数据处理大全(附代码)
44
68 个Python内置函数,你用过几个?
45
太秀了!用 pandas 搞定 24 张 Excel 报表
46
用 Python 的 Template 类生成文件报告
47
码如其人,同学你能写一手漂亮的Python函数吗
48
Python处理图片九宫格,炫酷朋友圈
49
Python排序傻傻分不清?一文看透sorted与sort用法
50
python-docx操作word文件(
清单首页python文章详情

pandas 拼接 concat 5 个常用技巧!

本次给大家介绍关于数据拼接concat函数的几种常用技巧。

1.处理索引和轴

假设我们有2个关于考试成绩的数据集。

代码语言:javascript
复制
df1 = pd.DataFrame({ 
    'name':['A','B','C','D'],
    'math':[60,89,82,70],
    'physics':[66, 95,83,66],
    'chemistry':[61,91,77,70] 
})
df2 = pd.DataFrame({ 
    'name':['E','F','G','H'],
    'math':[66,95,83,66],
    'physics':[60, 89,82,70],
    'chemistry':[90,81,78,90] 
})

最简单的用法就是传递一个含有DataFrames的列表,例如[df1, df2]。默认情况下,它是沿axis=0垂直连接的,并且默认情况下会保留df1和df2原来的索引。

代码语言:javascript
复制
pd.concat([df1,df2])

如果想要合并后忽略原来的索引,可以通过设置参数ignore_index=True,这样索引就可以从0到n-1自动排序了。

代码语言:javascript
复制
pd.concat([df1,df2],ignore_index = True)

如果想要沿水平轴连接两个DataFrame,可以设置参数axis=1

代码语言:javascript
复制
pd.concat([df1,df2],axis = 1)

以上是一些基本操作,我们继续往下看。

2.避免重复索引

我们知道了concat()函数会默认保留原dataframe的索引。那有些情况,我想保留原来的索引,并且我还想验证合并后的结果是否有重复的索引,该怎么办呢?

可以通过设置参数verify_integrity=True,将此设置True为时,如果存在重复的索引,将会报错。比如下面这样。

代码语言:javascript
复制
try:
    pd.concat([df1,df2], verify_integrity=True)
except ValueError as e:
    print('ValueError', e)
ValueError: Indexes have overlapping values: Int64Index([0, 1, 2, 3], dtype='int64')

3.使用keys和names选项添加层次结构索引

添加层次结构索引非常的有用,可以进行更多层的数据分析。

举个例子,某些情况下我们并不想合并两个dataframe的索引,而是想为两个数据集贴上标签。比如我们分别为df1df2添加标签Year 1Year 2

这种情况,我们只需指定keys参数即可。

代码语言:javascript
复制
res = pd.concat([df1,df2],keys = ['Year 1','Year 2'])
res

如果我们想要获取Year 1的数据集,可以直接使用loc像下面这样操作:

代码语言:javascript
复制
res.loc['Year 1']

另外,参数names可用于为所得的层次索引添加名称。例如,将名称Class添加到刚创建的的标签上。

代码语言:javascript
复制
pd.concat(
    [df1,df2],
    keys = ['Year 1','Year 2'],
    names = ['Class',None],
)

如果要重置索引并将其转换为数据列,可以使用 reset_index(),这一步操作也是非常的实用。

代码语言:javascript
复制
pd.concat(
    [df1, df2], 
    keys=['Year 1', 'Year 2'],
    names=['Class', None],
).reset_index(level=0)   
# reset_index(level='Class')

4.列匹配和排序

concat()函数还可以将合并后的列按不同顺序排序。虽然,它会自动将两个df的列对齐合并。但默认情况下,生成的DataFrame与第一个DataFrame具有相同的列排序。例如,在以下示例中,其顺序与df1相同。

如果想要按字母顺序对结果DataFrame进行排序,则可以设置参数sort=True

代码语言:javascript
复制
pd.concat([df1, df2], sort=True)

或者也可以自定义排序,像下面这样:

代码语言:javascript
复制
custom_sort = ['math', 'chemistry', 'physics', 'name']
res = pd.concat([df1, df2])
res[custom_sort]

5.连接CSV文件数据集

假设我们需要从一堆CSV文件中加载并连接数据集。常规做法,我们可能会使用for循环解决,比如下面这样。

代码语言:javascript
复制
import pathlib2 as pl2
ps = pl2.Path('data/sp3')
res = None
for p in ps.glob('*.csv'):
    if res is None:
        res = pd.read_csv(p)
    else:
        res = pd.concat([res, pd.read_csv(p)])

但上面pd.concat()在每次for循环迭代中都会被调用一次,效率不高,推荐使用列表推导式的写法。

代码语言:javascript
复制
import pathlib2 as pl2
ps = pl2.Path('data/sp3')
dfs = (
    pd.read_csv(p, encoding='utf8') for p in ps.glob('*.csv')
)
res = pd.concat(dfs)
res

这样就可以用一行代码读取所有CSV文件并生成DataFrames的列表dfs。然后,我们只需要调用pd.concat(dfs)一次即可获得相同的结果,简洁高效。

使用%%timeit测试下上面两种写法的时间,第二种列表推导式大概省了一半时间。

代码语言:javascript
复制
# for-loop solution
298 ms ± 11.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
# list comprehension solution
153 ms ± 6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

以上就是5个concat日常操作。

推荐阅读

👉pandas进阶宝典

👉数据挖掘实战项目

👉机器学习入门

下一篇
举报
领券