开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

根据'find‘结果从数据帧的列中提取'n’个字符(使用str.contains() & str.find()和df.loc[]

要从数据帧（DataFrame）的列中根据find的结果提取n个字符，可以使用str.contains()和str.find()方法结合df.loc[]进行筛选和提取。以下是具体的步骤和示例代码：

基础概念

DataFrame：Pandas库中的一个二维表格数据结构，类似于Excel表格。
str.contains()：用于检查字符串是否包含某个子字符串。
str.find()：用于查找子字符串在字符串中的位置，返回第一个匹配项的索引，如果没有找到则返回-1。
df.loc[]：用于根据条件筛选数据帧中的行。

示例代码

假设我们有一个数据帧df，其中有一列名为text，我们希望提取包含特定子字符串的行的前n个字符。

import pandas as pd

# 创建示例数据帧
data = {
    'text': ['hello world', 'foo bar', 'baz qux', 'hello python']
}
df = pd.DataFrame(data)

# 定义要查找的子字符串和要提取的字符数
substring = 'hello'
n = 5

# 使用str.contains()筛选包含子字符串的行
mask = df['text'].str.contains(substring)

# 使用df.loc[]筛选行
filtered_df = df.loc[mask]

# 使用str.find()获取子字符串的位置
positions = filtered_df['text'].str.find(substring)

# 提取前n个字符
filtered_df['extracted'] = filtered_df['text'].str[:n]

print(filtered_df)

输出

              text extracted
0       hello world     hello
3  hello python     hello

解释

创建示例数据帧：我们创建了一个包含text列的数据帧。
定义子字符串和字符数：我们定义了要查找的子字符串'hello'和要提取的字符数5。
筛选包含子字符串的行：使用str.contains()方法筛选出包含子字符串的行，并创建一个布尔掩码mask。
使用df.loc[]筛选行：根据布尔掩码mask筛选出符合条件的行。
获取子字符串的位置：使用str.find()方法获取子字符串在每行中的位置。
提取前n个字符：使用字符串切片提取每行中的前n个字符，并将结果存储在新列extracted中。

应用场景

这种方法常用于文本数据处理和分析，例如：

从日志文件中提取特定关键字的上下文信息。
从社交媒体数据中提取特定主题的帖子。
从产品评论中提取包含特定关键词的评价。

参考链接

通过这种方法，你可以灵活地从数据帧中提取和处理包含特定子字符串的行，并进行进一步的分析或处理。

相关搜索:从数据帧的列中对数据进行排序和提取？使用列元素中的字典从数据帧中提取数据如何根据R中某一列中的变量从数据帧中提取数据如何从2个数据帧中获取基于date列和list列的结果？通过使用行和列的索引向量从数据帧中拉取值？根据数据帧中包含多个字符的列之一，使用R将data.frame转换为字符列表使用Spark和Java8从数据帧中获取多个列的非重复值计数 Pandas根据当前行值从另一个数据帧中以列表形式获取最后N条记录的列值如何根据从['Seen_A']列中挑选2的随机列表，将数据帧分割为训练和验证数据集(如下图所示)动画平移开关

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

pandas 筛选数据的 8 个骚操作

日常用Python做数据分析最常用到的就是查询筛选了，按各种条件、各种维度以及组合挑出我们想要的数据，以方便我们分析挖掘。

03

pandas 筛选数据的 8 个骚操作

日常用Python做数据分析最常用到的就是查询筛选了，按各种条件、各种维度以及组合挑出我们想要的数据，以方便我们分析挖掘。

01

Pandas中选择和过滤数据的终极指南

Python pandas库提供了几种选择和过滤数据的方法，如loc、iloc、[]括号操作符、query、isin、between等等

01

通宵翻译Pandas官方文档，写了这份Excel万字肝货操作！

这篇万字长文，是黄同学辛苦为大家辛苦翻译排版。希望大家一定从头到尾学习，否则，可能会找不到操作的数据源。

02

【Quant102】经典技术指标 Pandas 实现（第一部分）

01

3000字详解Pandas数据查询，建议收藏

大家好，又是新的一周，也是2021年的最后一周，今天小编来和大家说一说怎么从DataFrame数据集中筛选符合指定条件的数据，希望会对读者朋友有所帮助。

02

数据分析 ——— pandas基础（三）

接着之前的文章，在这里我们来看一些利用pandas处理文本数据，利用索引，loc, iloc,ix，属性选取数据

02

python之pandas数据筛选和csv操作

本博主要总结DaraFrame数据筛选方法（loc,iloc,ix,at,iat），并以操作csv文件为例进行说明

01

教程：基于 ChatGPT 构建奥斯卡金像奖问答机器人

本教程将引导您通过一个实际示例，使用 GPT 3.5 的检索增强生成功能，根据自定义数据集回答问题。

01

如何利用维基百科的数据可视化当代音乐史

翻译校对：丁雪吴怡雯程序验证修改：李小帅 “我相信马塞勒斯·华莱士，我的丈夫，你的老板吩咐你带我出门做我想做的任何事。现在，我想跳舞，我要赢，我想得到那个奖杯，把舞跳好来！” 《黑色追缉令》

07

pandas数据清洗，排序，索引设置，数据选取

df.isnull() df的空值为True df.notnull() df的非空值为True

02

Pandas入门学习

DataFrame # 显示所有列 pd.set_option('display.max_columns', None) # 显示所有行 pd.set_option('display.max_rows', None) 创建构造方法介绍 ''' data：一组数据(ndarray、series, map, lists, dict 等类型)。 index：索引值，或者可以称为行标签。 columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。 dt

02

pandas系列 - （三）关于时点时期数据的处理

实际工作场景中，会遇到需要处理时序表。对于少量的时点时序数据，明细数据+数据透视表，也是很快能处理完成。大量的话，可能会出现有一点慢，同时一些计算字段的每次都要设置，不太方便处理。整理一个思路：将系统的时点时序数据进行汇总整合，并形成时序表。

02

听说数据分析师挺火，我们来数据分析一下

经常看见各种数据分析师培训的运营推荐，那么数据分析师的就业行情究竟如何？让我们用数据说话，一探究竟！

03

Python 数据分析初阶

这里可以单独查看其中的内容 data['nick']，计算其中的大小则使用 data['nick'].value_counts()。

02

嘀~正则表达式快速上手指南（下篇）

上面的代码中用 for 循环去遍历 contents 这样我们就可以一个一个处理每封邮件。我们创建一个字典， emails_dict,这将保存每个电子邮件的所有细节，如发件人的地址和姓名。事实上，这些是我们要寻找的第一项信息。

01

TMDB电影数据分析报告

本次报告的主要任务是：根据历史电影数据，分析哪种电影收益能力更好，未来电影的流行趋势，以及为电影拍摄提供建议。细化为以下几个小问题：

05

帮助数据科学家理解数据的23个pandas常用代码

返回给定轴缺失的标签对象，并在那里删除所有缺失数据（’any’：如果存在任何NA值，则删除该行或列。）。

04

pandas分析excel数据

在python中，读写excel数据方法很多，比如xlrd、xlwt和openpyxl，实际上限制比较多，不是很方便。比如openpyxl也不支持csv格式。有没有更好的方法？

02

pandas处理字符串方法汇总

字符串是一种常见的数据类型，我们遇到的文本、json数据等都是属于字符串的范畴。Python内置了很多处理字符串的方法，这些方法为我们处理和清洗数据提供了很大的便利。

02

学会这 29 个函数，你就是 Pandas 专家

Pandas 无疑是 Python 处理表格数据最好的库之一，但是很多新手无从下手，这里总结出最常用的 29 个函数，先点赞收藏，留下印象，后面使用的时候打开此文 CTRL + F 搜索函数名称，检索其用法即可。

02

强烈推荐Pandas常用操作知识大全！

https://github.com/SeafyLiang/Python_study

02

5个例子学会Pandas中的字符串过滤

要处理文本数据，需要比数字类型的数据更多的清理步骤。为了从文本数据中提取有用和信息，通常需要执行几个预处理和过滤步骤。

02

Python pandas十分钟教程

Pandas是数据处理和数据分析中最流行的Python库。本文将为大家介绍一些有用的Pandas信息，介绍如何使用Pandas的不同函数进行数据探索和操作。包括如何导入数据集以及浏览，选择，清理，索引，合并和导出数据等常用操作的函数使用，这是一个很好的快速入门指南，如果你已经学习过pandas，那么这将是一个不错的复习。

05

pandas技巧4

本文中记录Pandas操作技巧，包含：导入数据导出数据查看、检查数据数据选取数据清洗数据处理：Filter、Sort和GroupBy 数据合并常识 # 导入pandas import pandas as pd # axis参数：0代表行，1代表列导入数据 pd.read_csv(filename) # 从CSV文件导入数据 pd.read_table(filename) # 从限定分隔符的文本文件导入数据 pd.read_excel(filename) # 从Excel文件导入数据

02

用 Pandas 进行数据处理系列二

获取行操作df.loc[3:6]获取列操作df['rowname']取两列df[['a_name','bname']] ，里面需要是一个 list 不然会报错增加一列df['new']=list([...])对某一列除以他的最大值df['a']/df['a'].max()排序某一列df.sorted_values('a',inplace=True,ascending=True) ， inplace 表示排序的时候是否生成一个新的 dataFrame ， ascending=True 表示升序，默认为升序，如果存在缺失的补值（ Nan )，排序的时候会将其排在末尾

03

50个超强的Pandas操作！！

首先给出一个示例数据，是一些用户的账号信息，基于这些数据，这里给出最常用，最重要的50个案例。

01

6000 多款 App，看我如何搞定她们并将其洗白白~

如果说 GitHub 是程序员的天堂，那么酷安则是手机 App 爱好者们（别称「搞机」爱好者）的天堂，相比于那些传统的手机应用下载市场，酷安有三点特别之处：

02

一看就会的Pandas文本数据处理

日常工作中我们经常接触到一些文本类信息，需要从文本中解析出数据信息，然后再进行数据分析操作。

03

pandas 文本处理大全

文本的主要两个类型是string和object。如果不特殊指定类型为string，文本类型一般为object。

02

再见了！Pandas！！

先把pandas的官网给出来，有找不到的问题，直接官网查找：https://pandas.pydata.org/

01

Pandas实现简单筛选数据功能

python的pandas库可以轻松的处理excel中比较难实现的筛选功能，以下简单的介绍几种利用pandas实现筛选功能方式：

01

使用Pandas&NumPy进行数据清洗的6大常用方法

数据科学家花了大量的时间清洗数据集，并将这些数据转换为他们可以处理的格式。事实上，很多数据科学家声称开始获取和清洗数据的工作量要占整个工作的80%。

01

yyds！1w 字的 pandas 核心操作知识大全。

工作中最近常用到pandas做数据处理和分析，特意总结了以下常用内容。 pandas常用速查引入依赖 # 导入模块 import pymysql import pandas as pd import numpy as np import time # 数据库 from sqlalchemy import create_engine # 可视化 import matplotlib.pyplot as plt # 如果你的设备是配备Retina屏幕的mac，可以在jupyter notebook中，使用下

03

【Quant102】50 个形态学指标的 Pandas 代码

在这个示例中，downpour函数计算了倾盆大雨指标，并将结果保存在名为downpour的新列中。你可以将这个函数和示例数据一起运行来查看计算结果。

00

01.loc & iloc & ix 区别使用标签选取数据

当用行号索引的时候, 尽量用 iloc 来进行索引; 而用标签索引的时候用 loc , ix 尽量别用。

02

分析B站100万+视频，发现竟然有这么多干货资源。

共产生了41亿次的观看，2千万的弹幕，1.3亿的点赞，近7千万的投币，1.1亿的收藏，1.5千万的分享，以及1.8千万的评论。

05

pandas 文本处理大全（附代码）

文本的主要两个类型是string和object。如果不特殊指定类型为string，文本类型一般为object。

02

盘点66个Pandas函数，轻松搞定“数据清洗”！

之前黄同学曾经总结过一些Pandas函数，主要是针对字符串进行一系列的操作。在此基础上我又扩展了几倍，全文较长，建议先收藏。

01

使用Pandas&NumPy进行数据清洗的6大常用方法

数据科学家花了大量的时间清洗数据集，并将这些数据转换为他们可以处理的格式。事实上，很多数据科学家声称开始获取和清洗数据的工作量要占整个工作的80%。

02

python数据分析——数据的选择和运算

在数据分析中，数据的选择和运算是非常重要的步骤。数据选择和运算是数据分析中的基础工作，正确和高效的选择和运算方法对于数据分析结果的准确性和速度至关重要。

01

pandas每天一题-题目13：文本筛选

这是一个关于 pandas 从基础到进阶的练习题系列，来源于 github 上的 guipsamora/pandas_exercises 。这个项目从基础到进阶，可以检验你有多么了解 pandas。

02

太赞了！30 个 Python 函数，加速你的数据分析处理速度！

Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法，可以加快「数据分析」和「预处理」步骤。

06

Pandas中的数据转换[细节]

Pandas中的axis参数=0时，永远表示的是处理方向而不是聚合方向，当axis='index'或=0时，对列迭代对行聚合，行即为跨列，axis=1同理 💥

01

筛选功能（Pandas读书笔记9）

今天和大家分享如果使用Pandas实现单、多条件筛选、模糊筛选。还是老套路，我们需要先读取一组数据作为测试文件。测试文件使用读书笔记7的材料，传送门如下：文件读取功能（Pandas读书笔记7）

06

干货！直观地解释和可视化每个复杂的DataFrame操作

大多数数据科学家可能会赞扬Pandas进行数据准备的能力，但许多人可能无法利用所有这些能力。操作数据帧可能很快会成为一项复杂的任务，因此在Pandas中的八种技术中均提供了说明，可视化，代码和技巧来记住如何做。

02

十分钟入门Pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

03

十分钟入门 Pandas

Pandas是基于Numpy的一种工具，目的是解决数据分析任务。通过纳入大量库和一些标准数据模型，提供了高效操作大型数据集所需工具；

03

肝了3天，整理了50个Pandas高频使用技巧，强烈建议收藏！

今天小编来分享在pandas当中经常会被用到的方法，篇幅可能有点长但是提供的都是干货，读者朋友们看完之后也可以点赞收藏，相信会对大家有所帮助，大致本文会讲述这些内容

01

3. Pandas系列 - DataFrame操作

概览 pandas.DataFrame 创建DataFrame 列表字典系列（Series）列选择列添加列删除 pop/del 行选择，添加和删除标签选择 loc 按整数位置选择 iloc 行切片附加行 append 删除行 drop 数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列数据帧(DataFrame)的功能特点：潜在的列是不同的类型大小可变标记轴(行和列) 可以对行和列执行算术运算 pandas.DataFrame 构造函数： pandas.Data

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭