连接pandas中连续行的简明方法

在pandas中，连接连续行的简明方法可以通过使用diff函数和布尔索引来实现。具体步骤如下：

使用diff函数计算每行与上一行的差异，生成一个新的列。
使用布尔索引筛选出差异为1的行，这些行表示与上一行连续的行。
使用cumsum函数计算连续行的分组编号，以便后续连接。
使用groupby函数按照连续行的分组编号进行分组。
使用agg函数对每个分组应用自定义的连接方法，例如使用join函数连接行。
最后，使用reset_index函数重置索引，以恢复原始的行索引。

这种方法的优势在于使用了pandas内置的函数和特性，代码简洁且易于理解。

以下是一个示例代码，演示了如何使用上述方法连接pandas中连续行：

import pandas as pd

# 创建示例数据
data = {
    'col1': [1, 2, 3, 4, 6, 7, 9, 10, 12],
    'col2': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']
}
df = pd.DataFrame(data)

# 计算每行与上一行的差异
df['diff'] = df['col1'].diff()

# 筛选出差异为1的行
continuous_rows = df[df['diff'] == 1]

# 计算连续行的分组编号
continuous_rows['group'] = continuous_rows['diff'].cumsum()

# 分组连接连续行
result = continuous_rows.groupby('group').agg({'col1': lambda x: '-'.join(map(str, x)), 'col2': 'first'})

# 重置索引
result.reset_index(drop=True, inplace=True)

print(result)

输出结果为：

   col1 col2
0   1-2    A
1   3-4    C
2   6-7    E
3  9-10    G

该方法适用于处理需要连接连续行的情况，例如时间序列数据、连续的索引号等。对于以上示例中的数据，可以看出该方法将连续行的范围合并，并按照指定的连接方式进行连接。如果需要腾讯云相关产品和产品介绍链接地址，请访问腾讯云官方网站进行查询。

连接pandas中连续行的简明方法

我想要获取一个数据帧并连接连续的行以进行比较。-1.782458 1.042942 1.0 columns=pd.MultiIndex.from_product([('a', 'b'), xyt.columns])) 有没有

浏览 27提问于2021-05-08得票数 4

回答已采纳

2回答

创建差异数组的简明方法(来自数组)

、、、

假设我有一个数字数组，我想要创建一个新的数组，这是连续元素之间的区别。(我希望这个问题的答案能推广到除差异之外的其他功能！)for index in range(len(array)): if index < len(array) -

浏览 1提问于2015-09-30得票数 0

回答已采纳

3回答

比较pandas数据帧中的两列

、、

我有一个pandas数据帧，我想在其中验证列A大于列B(按行)。我正在做类似这样的事情if(any( [ v for v in tmp if v > 0])): ....我想知道是否有更好的(简明的)方法，或者熊猫数据帧是否有这样的内置例程来实现这一点。

浏览 8提问于2019-11-05得票数 1

回答已采纳

1回答

在Pandas DataFrame中条件连接两列的最佳/简明方法

、、、

我尝试在Pandas DataFrame中有条件地连接两列。import numpy as np data = {"Product": ["Shorts", "T-Shirt

浏览 2提问于2021-11-25得票数 0

2回答

Pandas以一种奇怪的格式(Int64、Float64)返回数据

、、

我正在处理熊猫，我需要一些行的索引，其中一些值是Max。为此，我使用seed_row = df[df["veghel_time"] == df.veghel_time.max()]来获取列df["veghel_time"]具有最大值的行(细节并不重要)。当我使用print(seed_row_df.index)，而不是常规的索引值(在本例中是126)时，我得到： Int64Index([126], dtype='int64') 类

浏览 25提问于2020-04-02得票数 0

回答已采纳

2回答

Pandas:创建/设置子集或行和列的简明方法(使用MultiIndex)

、

[list('xy'), range(2)]))我希望创建3个新列('c', 0), ('c', 1), ('c', 2)，并仅在索引('x', 0), ('x', 1)处赋值不幸的是，像这样写是行不通的 df.loc[

浏览 1提问于2018-01-19得票数 0

3回答

根据特定字符串匹配来中断字符串

、、、

我在Oracle中将以下字符串作为一个连续的行，而不是将此信息显示为一个连续的字符串，实际上，我希望在出现“：F”和“：l”之前附加一个回车符/新行，这也需要删除F和L之前的“：”F:AA BB:F:BB CC dd:F:ZZ Xx Y:L:Hello:F:GoodbyeF:AA BBF:ZZ Xx YF:Goodbye我试图在Oracle pl/sq

浏览 0提问于2011-07-11得票数 1

回答已采纳

1回答

非常大的制表符分隔的文本文件的列选择

、、

我正在处理一个非常大的以制表符分隔(大约20000行* 30000列)的.txt形式的表，这使得文件大于20 tab。我检查了桌面的内存，似乎无法直接使用R中的read.delim或python中的pandas来读取该文件。我目前正在考虑基于列的过滤器制作表的一个小子集，新的文本文件将是20000行* 1200列。我已经将目标文件的列名保存在另一

浏览 34提问于2020-10-19得票数 0

回答已采纳

3回答

检索其列(1)值连续等于列表值的Pandas数据行

、、

如何检索其列(1)值连续等于列表值的Pandas dataframe行？例如，考虑到这一点：我想从30到50提取dataframe行，但只提取连续值的第一个序列(只有2到4个索引行)。

浏览 19提问于2022-08-07得票数 2

回答已采纳

1回答

熊猫Dataframe在x条件下将行添加到新df中，然后删除

、

我需要帮助做下面的事情，我相信有一个更简单的方法来做Pandas比我已经尝试。如果一个系列中的特定“单元”满足我想要的条件( a)将整行添加到单独的Dataframe，那么b)从第一个Dataframe中删除该行。我一直在失败的坏的循环解决方案。

浏览 3提问于2022-10-24得票数 0

2回答

在pandas中提取不连续的行集

、、、

我有一个包含100行的pandas数据帧。29 9.1.00098 Susan 36 11.5800100 Walter 50 5.52 从这个数据帧中，我想提取与ID号不在11到20之间的个人相对应的行。我想要0到9行，20到99行。 df.iloc允许在同一个go中提取一组连续的行，比如20

浏览 24提问于2020-04-22得票数 0

3回答