可以使用pandas
库中的str.contains()
和str.count()
方法来实现。
首先,使用str.contains()
方法筛选出包含子字符串的行,然后使用str.count()
方法统计每个子字符串在列中出现的次数。
以下是一个示例代码:
import pandas as pd
# 创建示例数据
data = {'col1': ['apple', 'banana', 'orange', 'apple,banana', 'banana,orange']}
df = pd.DataFrame(data)
# 子字符串列表
substrings = ['apple', 'banana']
# 统计子字符串列表在列中的出现次数
counts = {}
for substring in substrings:
df_subset = df[df['col1'].str.contains(substring)]
count = df_subset['col1'].str.count(substring).sum()
counts[substring] = count
# 打印结果
for substring, count in counts.items():
print(f"子字符串 '{substring}' 出现的次数为: {count}")
输出结果为:
子字符串 'apple' 出现的次数为: 2
子字符串 'banana' 出现的次数为: 3
在这个例子中,我们创建了一个包含字符串的DataFrame,并定义了一个子字符串列表。然后,我们遍历子字符串列表,使用str.contains()
方法筛选包含子字符串的行,并使用str.count()
方法统计每个子字符串在列中出现的次数。最后,打印出每个子字符串的出现次数。
请注意,这只是一个示例代码,实际应用中需要根据具体情况进行调整。另外,腾讯云提供了多个与数据处理和分析相关的产品,例如云数据库 TencentDB、云原生数据库 TDSQL、云数据仓库 CDW 等,可以根据具体需求选择适合的产品。
领取专属 10元无门槛券
手把手带您无忧上云