首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

盘点一个Pandas提取Excel包含特定关键词行(上篇)

一、前言 前几天在Python白银交流群【上海新年人】问了一个Pandas数据提取问题,问题如下:大佬们,请教个小问题,我要查找某中具体值,譬如df[df['作者'] == 'abc'],但实际上这样子我找不到...ABC,因为对方实际是小写abc。...再次反应是加个或进行处理,也可以用如下代码: # 创建布尔Series mask = df['作者'].isin(['ABC', 'abc']) # 使用布尔Series来索引DataFrame result...但是粉丝需求又发生了改变,下一篇文章我们一起来看看这个“善变”粉丝提问。 三、总结 大家好,我是皮皮。...这篇文章主要盘点了一个Pandas数据提取问题,文中针对该问题,给出了具体解析和代码实现,帮助粉丝顺利解决了问题。

19910

盘点一个Pandas提取Excel包含特定关键词行(下篇)

一、前言 前几天在Python白银交流群【上海新年人】问了一个Pandas数据提取问题,上一篇中已经给出了代码,粉丝自己可能还没有领悟明白,一用就废,遇到了问题。...他代码照片如下图: 这个代码这么写,最后压根儿就没有得到他自己预期结果,遂来求助。这里又回归到了他自己最开始需求澄清!!!论需求表达清晰重要性!...二、实现过程 后来【莫生气】给了一份代码,如下图所示: 本以为顺利地解决了问题,但是粉丝又马上增改需求了,如下图所示: 真的,代码写,绝对没有他需求改快。得亏他没去做产品经理,不然危矣!...能给你做出来,先实现就不错了,再想着优化事呗。 后来【莫生气】给了一个正则表达式写法,总算是贴合了这个粉丝需求。 如果要结合pandas的话,可以写为下图代码: 至此,粉丝不再修改需求。...这篇文章主要盘点了一个Pandas数据提取问题,文中针对该问题,给出了具体解析和代码实现,帮助粉丝顺利解决了问题。 最后感谢粉丝【上海新年人】提出问题,感谢【鶏啊鶏。】

22610
您找到你想要的搜索结果了吗?
是的
没有找到

盘点一个Pandas提取Excel包含特定关键词行(中篇)

一、前言 前几天在Python白银交流群【上海新年人】问了一个Pandas数据提取问题,但是粉丝又改需求了,需求改来改去,就是没个定数。 这里他最新需求,如上图所示。...他意思在这里就是要上图中最下面这3个。 二、实现过程 后来【论草莓如何成为冻干莓】给了一份代码,如下图所示: 顺利地解决了粉丝问题。...可以看到,代码刚给出来,但是粉丝需求又发生了改变,不过不慌,这里又给出了对应代码,如下图所示: 一看就会,一用就废,粉丝自己刚上手,套用到自己数据里边,代码就失灵了。...下一篇文章,我们再来看这位粉丝新遇到问题。 三、总结 大家好,我是皮皮。这篇文章主要盘点了一个Pandas数据提取问题,文中针对该问题,给出了具体解析和代码实现,帮助粉丝顺利解决了问题。...最后感谢粉丝【上海新年人】提出问题,感谢【鶏啊鶏。】、【论草莓如何成为冻干莓】给出思路,感谢【莫生气】等人参与学习交流。

15310

Excel公式练习32: 包含空单元格多行多单元格区域转换成单独并去掉空单元格

本次练习是:如下图1所示,单元格区域A1:D6中是一系列数据,其中包含空单元格,现在要将它们放置到一中,并删除空单元格,如图中所示单元格区域G1:G13,如何使用公式实现? ?...这个结果传递给INDIRECT函数: INDIRECT(“R1C00004”,0) 结果取出第1行第4值,即单元格D4中值。 为什么选用10^5,并且使用R0C00000作为格式字符串呢?...使用足够大数值,主要是为了考虑行和扩展后能够准确地取出相应行列所在单元格数据。 注意到,在TEXT函数中,先填充C之后五个零,剩下在填充R之后部分。...TEXT(SMALL(IF(rngData"",10^5*ROW(rngData)+COLUMN(rngData)),ROWS($1:1)),"R0C00000"),0),"") 这个公式不需要辅助。...这个公式缺点是,当下拉很多行时,如果有许多行都为空,则仍会进行很多计算,占有资源,不会像前面给出公式,第一个IF判断为大于非空单元格值后,直接输入空值。有兴趣朋友可以仔细研究。

2.3K10

Excel公式练习33: 包含空单元格多行多单元格区域转换成单独并去掉空单元格(续)

本次练习是:这个练习题本系列上篇文章练习题相同,如下图1所示,不同是,上篇文章中将单元格区域A1:D6中数据(其中包含空单元格)转换到单独(如图中所示单元格区域G1:G13)中时,是以行方式进行...这里,需要以方式进行,即先放置第1数据、再放置第2数据……依此类推,最终结果如图中所示单元格区域H1:H13,如何使用公式实现? ? 图1 先不看答案,自已动手试一试。...公式解析 公式中主要部分上篇文章相同,不同: TEXT(SMALL(IF(rngData"",10^5*ROW(rngData)+COLUMN(rngData)),ROWS($1:1)),..."),{8,2},5) 应该获取单元格C2中值,即数据区域第2行第3。...相关参考 Excel公式练习32:包含空单元格多行多单元格区域转换成单独并去掉空单元格 Excel公式练习4:矩形数据区域转换成一行或者一

2.1K10

Python数据分析-pandas库入门

pandas使用最多数据结构对象是 DataFrame,它是一个面向(column-oriented)二维表结构,另一个是 Series,一个一维标签化数组对象。...,可以 DataFrame 获取为一个 Series,代码示例: frame2['state'] frame2.state 可以通过赋值方式进行修改,赋值方式类似 Series。...例如,我们可以给那个空 “debt” 赋上一个标量值或一组值(数组或列表形式),代码示例: frame2.debt = np.arange(6.) frame2 注意:列表或数组赋值给某个时,...另一种常见数据形式是嵌套字典,如果嵌套字典传给 DataFrame,pandas 就会被解释为:外层字典键作为,内层键则作为行索引,代码示例: #DataFrame另一种常见数据形式是嵌套字典... python 集合不同,pandas Index 可以包含重复标签,代码示例: dup_labels = pd.Index(['foo','foo','bar','alice']) dup_labels

3.7K20

一个数据集全方位解读pandas

使用索引 使用.loc.iloc 查询数据集 分类和汇总数据 对进行操作 指定数据类型 数据清洗 数据可视化 一、安装数据介绍 pandas安装建议直接安装anaconda,会预置安装好所有数据分析相关包...因此,我们暂不使用庞大NBA数据,从头开始构建一些较小Pandas对象分析。...我们知道Series对象在几种方面列表和字典相似之处。也就意味着我们可以使用索引运算符。现在我们来说明如何使用两种特定于pandas访问方法:.loc和.iloc。...这些object大多数包含任意文本,但是也有一些数据类型转换候选对象。...九、数据清洗 数据清洗主要是对空值无效值或者异常值等数据进行处理。我们以缺失值为例。 处理包含缺失值记录最简单方法是忽略它们。

7.4K20

零基础5天入门Python数据分析:第五课

在第一第二课已经讲了notebook基础使用,python基础语法及常用数据结构及其运算,包括: 整型: int 浮点型: float 布尔型: bool 字符串: str 元组: tuple 列表...对于groupby方法返回值结构,因为其实一个可循环对象,所以我们可以直接转化为列表,来查看这个对象结构: list(groups) 在notebook中会显示: [('女',...,使用pandasplot基本也是够,如果是一些比较复杂,那就需要使用Matplotlib包了。...Pandas 适用于处理以下类型数据: SQL 或 Excel 表类似的,含异构表格数据; 有序和无序(非固定频率)时间序列数据; 带行列标签矩阵数据,包括同构或异构型数据; 任意其它形式观测...,二维异构表格 从理解上说,可以Series理解为Excel中,一就对应一个Series结构数据,而DataFrame可以理解为对应一个Excel表格,一个表格可以包含(Series)。

1.5K30

没错,这篇文章教你妙用Pandas轻松处理大规模数据

对象(object columns)主要用于存储字符串,包含混合数据类型。为了更好地了解怎样减少内存使用量,让我们看看 Pandas 是如何数据存储在内存中。...我们将使用 DataFrame.select_dtypes 来选择整数列,然后优化这些包含类型,并比较优化前后内存使用情况。...内存使用量降低主要原因是我们对对象类型(object types)进行了优化。 在动手之前,让我们仔细看一下,数字类型相比,字符串是怎样存在 Pandas。...对象列表每一个元素都是一个指针(pointer),它包含了实际值在内存中位置“地址”。...此外,对象内存使用量已经从 752MB 将至 52MB,减少了 93%。现在,我们将其数据框其余部分结合起来,再与我们最开始 861MB 内存使用量进行对比。

3.6K40

Pandas 实践手册(一)

我们可以简单地 Pandas 对象理解为 Numpy 数组增强版本,其中行可以通过标签进行识别,而不仅是简单数字索引。Pandas 为这些基本数据结构提供了一系列有用工具方法。...字典是一种任意键映射到任意值上数据结构,而 Series 则是包含类型信息键映射到包含类型信息值上数据结构。「类型信息」可以为 Series 提供比普通字典更高效操作。...对象可以看做是二维 Numpy 数组推广,其行都拥有广义索引以方便进行数据查询。...2.3 Index 对象 在 Series 对象 DataFrame 对象中,都包含由于查找修改数据「索引」(index),其结构为一个 Index 对象。...我们可以 Index 对象看做一个「不可变数组」或是一个「有序集合」(多重集,因为可能包含重复值)。下面分别从这两个角度进行介绍。

2K10

Pandas 秘籍:6~11

另见 Pandas Index官方文档 生成笛卡尔积 每当两个序列或数据帧另一个序列或数据帧一起操作时,每个对象索引(行索引和索引)都首先对齐,然后再开始任何操作。...我们可以这些相互比较,通常是而不是情况。 例如,直接 SAT 口语成绩大学生人数进行比较是没有意义。...让我们将此过滤后数据帧shape原始数据进行比较。...再次,将其步骤 9 中显示 pandas Timedelta构造器进行比较,该构造器接受这些相同参数以及字符串和标量数字。...步骤 6 验证每种性别最早雇用雇员年份步骤 4 输出相匹配。步骤 5 显示了当我们尝试女性工资男性工资进行比较时,这如何导致不一致。 他们没有相同 10 年期限。

33.8K10

直观地解释和可视化每个复杂DataFrame操作

大多数数据科学家可能会赞扬Pandas进行数据准备能力,但许多人可能无法利用所有这些能力。...包含转换为两:一用于变量(值名称),另一用于值(变量中包含数字)。 ? 结果是ID值(a,b,c)和值(B,C)及其对应值每种组合,以列表格式组织。...“inner”:仅包含元件键是存在于两个数据帧键(交集)。默认合并。 记住:如果您使用过SQL,则单词“ join”应立即添加相联系。...尽管可以通过axis参数设置为1来使用concat进行列式联接,但是使用联接 会更容易。 请注意,concat是pandas函数,而不是DataFrame之一。...因此,它接受要连接DataFrame列表。 如果一个DataFrame另一包含,默认情况下包含,缺失值列为NaN。

13.3K20

数据分析利器--Pandas

详解:标准安装Python中用列表(list)保存一组值,可以用来当作数组使用,不过由于列表元素可以是任何对象,因此列表中所保存对象指针。...这样为了保存一个简单[1,2,3],需要有3个指针和三个整数对象。对于数值运算来说这种结构显然比较浪费内存和CPU计算时间。...(参考:Python 科学计算 – Numpy) Series: Series是一个一维类似的数组对象包含一个数组数据(任何NumPy数据类型)和一个数组关联数据标签,被叫做 索引。...(参考:SeriesDataFrame) DataFrame:一个Datarame表示一个表格,类似电子表格数据结构,包含一个经过排序列表集,它们每一个都可以有不同类型值(数字,字符串,布尔等等...(参考:NaN 和None 详细比较) 3、pandas详解 3.1 简介: pandas是一个Python语言软件包,在我们使用Python语言进行机器学习编程时候,这是一个非常常用基础编程库

3.6K30

Python可视化数据分析05、Pandas数据分析

Series Series是一种类似于一维数组对象,它由一组数据以及一组之相关数据标签(索引)组成,创建Series对象语法如下: #导入Pandas模块中Series类 from Pandas...对Series对象进行NumPy数组运算,都会保留索引和值之间连接。 Series看成是一个定长有序字典,因为它是一个索引值到数据值一个映射。 ...它包含一个经过排序列表集,列表集中每个数据都可以有不同类型值(数字、字符串、布尔等)。...在DataFrame对象中使用columns属性获取所有的,并显示所有名称 DataFrame对象每竖列都是一个Series对象 from pandas import Series, DataFrame...obj.index print(index) # 获取第二位及之后元素 print(index[1:]) Index类函数列表见下表: 函数 属性 append 链接另一个Index对象,产生一个新

2.5K20

针对SAS用户:Python数据分析库pandas

我们说明一些有用NumPy对象来作为说明pandas方式。 对于数据分析任务,我们经常需要将不同数据类型组合在一起。...一个例子是使用频率和计数字符串对分类数据进行分组,使用int和float作为连续值。此外,我们希望能够附加标签到、透视数据等。 我们从介绍对象Series和DataFrame开始。...用于检测缺失值另一种方法是通过对链接属性.isnull().any()使用axis=1参数逐进行搜索。 ? ? ? ?...NaN被上面的“下”替换为相邻单元格。下面的单元格将上面创建DataFrame df2使用“前向”填充方法创建数据框架df9进行对比。 ? ?...NaN被上面的“上”替换为相邻单元格。下面的单元格将上面创建DataFrame df2使用“后向”填充方法创建数据框架df10进行对比。 ? ?

12.1K20

数据科学 IPython 笔记本 7.8 分层索引

在本节中,我们探索MultiIndex对象直接创建,在对多重索引数据执行索引,切片和计算统计数据时注意事项,以及在数据简单和分层索引表示之间进行转换有用例程。...具体而言,我们可能希望,每年为每个州添加另一人口统计数据(例如,18 岁以下的人口); 使用MultiIndex就像在DataFrame中添加另一一样简单: pop_df = pd.DataFrame...,包含每个级别的可用索引值)和labels(引用这些标签列表列表),直接使用其内部编码构造MultiIndex: pd.MultiIndex(levels=[['a', 'b'], [1, 2]],...和``DataFrame`中数据进行交互,就像本书中许多工具一样,熟悉它们最好方法就是尝试它们!...''' 索引设置和重设 重排分层数据另一种方法是索引标签转换为;这可以通过reset_index方法完成。

4.2K20

《利用Python进行数据分析·第2版》第5章 pandas入门5.1 pandas数据结构介绍5.2 基本功能5.3 汇总和计算描述统计5.4 总结

20]: c 3 a -5 d 6 dtype: int64 ['c', 'a', 'd']是索引列表,即使它包含是字符串而不是整数。...另一种用法是通过布尔型DataFrame(比如下面这个由标量比较运算得出进行索引: In [134]: data < 5 Out[134]: one two three...表5-4 DataFrame索引选项 整数索引 处理整数索引pandas对象常常难住新手,因为它与Python内置列表和元组索引语法不同。...后面的频率值是每个中这些值相应计数。 5.4 总结 在下一章,我们讨论用pandas读取(或加载)和写入数据集工具。...之后,我们更深入地研究使用pandas进行数据清洗、规整、分析和可视化工具。

6K70
领券