为什么在Pandas中使用apply时会有额外的索引

在Pandas中使用apply函数时会有额外的索引，这是因为apply函数默认会将传入的函数应用于每一列或每一行，并返回一个Series对象。这个Series对象的索引是原始DataFrame的列或行索引，而值则是应用函数后的结果。

这种额外的索引可以通过设置参数axis来控制。当axis=0时，apply函数将函数应用于每一列，并返回一个以列名为索引的Series对象；当axis=1时，apply函数将函数应用于每一行，并返回一个以行索引为索引的Series对象。

在使用apply函数时，如果我们不需要额外的索引，可以通过设置参数result_type为'reduce'来消除。这样，apply函数将返回一个标量值而不是Series对象，且不会有额外的索引。

总结起来，使用apply函数时会有额外的索引，是因为apply函数默认返回一个以原始DataFrame的列或行索引为索引的Series对象。可以通过设置参数axis来控制应用函数的方向，通过设置参数result_type为'reduce'来消除额外的索引。

相关·内容

【DB笔试面试565】在Oracle中，为什么索引没有被使用?

♣ 题目部分在Oracle中，为什么索引没有被使用? ♣ 答案部分 “为什么索引没有被使用”是一个涉及面较广的问题。有多种原因会导致索引不能被使用。...还有很多其它原因会导致不能使用索引，这个问题在MOS（MOS即My Oracle Support）“文档1549181.1为何在查询中索引未被使用”中有非常详细的解释，作者已经将相关内容发布到BLOG（...下面是一些非常有用的检查项目。一、快速检查 n 表上是否存在索引？ n 索引是否应该被使用？二、索引本身的问题 n 索引的索引列是否在WHERE条件中（Predicate List）？...n 索引列是否用在连接谓词中（Join Predicates）？ n 连接顺序（Join Order）是否允许使用索引? n 索引列是否在IN或者多个OR语句中？...n 一个索引是否与其它的索引有相同的等级或者成本（Cost）？ n 索引的选择度是否不高？ n 在总体成本中，表扫描的成本是否占大部分？ n 访问空索引并不意味着比访问有值的索引高效？

1.2K2 0

Elasticsearch--Date math在索引中的使用

在Elasticsearch，有时要通过索引日期来筛选某段时间的数据，这时就要用到ES提供的日期数学表达式　　描述：　　特别在日志数据中，只是查询一段时间内的日志数据，这时就可以使用日期数学表达式...，这样可以限制检索的索引数量，减少集群的负载，提高系统性能。　　...几乎所有的API都支持日期索引中的数学参数值。　　...　　date_math_expr:动态的日期表达式　　date_format:格式化，默认是YYYY.MM.dd 　　time_zone:时区，默认是UTC 需要注意的是，在使用时要把索引以及日期表达式的部分放在...,支持日期索引中数学参数值。

1.8K9 0

稀疏索引在MongoDB中的使用场景是什么？

由于稀疏索引只对包含指定字段的文档进行索引，因此可以减少存储空间。当使用稀疏索引时，MongoDB将不会为每个文档创建一个索引条目，从而减少索引占用的存储空间。...例如，如果需要查询包含某个字段的文档，并且该字段只在部分文档中存在，那么使用稀疏索引可以减少查询无用的文档，从而提高查询速度。稀疏索引还可以帮助MongoDB应用程序缩短查询时间。...由于稀疏索引不对缺失特定字段的文档进行索引，因此在查询时可以避免查询无用的文档，从而减少查询时间。...除了选择适当的场景使用稀疏索引外，还有一些最佳实践可以帮助优化索引的性能：稀疏索引虽然可以减少索引占用的存储空间和提高查询效率，但是在某些情况下可能会影响查询性能。...在MongoDB应用程序中，根据实际需求和查询模式来选择是否使用稀疏索引，并遵循稀疏索引的最佳实践，可以优化查询性能、减少存储空间和提高数据访问效率。

541 0

为什么范围后索引会失效存储引擎不能使用索引中范围条件右边的列

) (a=2 b=5 c=1) (a=2 b=5 c=2) 然后根据b=5查到两条 (a=2 b=5 c=1) (a=2 b=5 c=2) 最后根据c=2查到目标数据 (a=2 b=5 c=2) 现在使用了范围条件...所以索引失效！总结因为前一个条件相同的情况下当前条件才会是有序的。...但是排序的时间复杂度高于遍历数据的时间复杂度 ps:再慢也不会慢过o(n)，所以会直接遍历所有数据索引失效。...至于为什么在c后面的索引也会失效(范围后全失效)，难道不能查完c之后，把c的结果当成索引继续吗？...综上所述，范围后的查询字段都不是有序的，所以索引都失效了。

2.1K2 0

【DB笔试面试562】在Oracle中，如何监控索引的使用状况？

♣ 题目部分在Oracle中，如何监控索引的使用状况？...♣ 答案部分在开发应用程序时，可能会建立很多索引，那么这些索引的使用到底怎么样，是否有些索引一直都没有用到过，在这种情况下就需要对这些索引进行监控，以便确定它们的使用情况，并为是否可以清除它们给出依据...监控索引有两种方式： 1、直接监控索引的使用情况（1）设置所要监控的索引：ALTER INDEX IDX_T_XX MONITORING USAGE; （2）查看该索引有没有被使用：SELECT *...，分析索引的使用情况可以从视图DBA_HIST_SQL_PLAN中获取到数据库中所有索引的扫描次数情况，然后根据扫描次数和开发人员沟通是否需要保留索引。...从图中可以看到有一个3.6G大的索引在13号到22号从没使用过，接下来，可以继续查询该索引是否是联合索引，创建是否合理，分析为何不走该索引，从而判断是否可以删除索引。

1.2K2 0

如何使用Lily HBase Indexer对HBase中的数据在Solr中建立索引

1.如上图所示，CDH提供了批量和准实时两种基于HBase的数据在Solr中建立索引的方案和自动化工具，避免你开发代码。本文后面描述的实操内容是基于图中上半部分的批量建立索引的方式。...2.首先你必须按照上篇文章《如何使用HBase存储文本文件》的方式将文本文件保存到HBase中。 3.在Solr中建立collection，这里需要定义一个schema文件对应到HBase的表结构。...注意Solr在建立全文索引的过程中，必须指定唯一键（uniqueKey），类似主键，唯一确定一行数据，我们这里的示例使用的是HBase中的Rowkey。如果没有，你可以让solr自动生成。...索引建立成功 5.在YARN的8088上也能看到MapReduce任务。 ? 6.在Solr和Hue界面中查询 ---- 1.在Solr的界面中进行查询，一共21条记录，对应到21个文件，符合预期。...7.总结 ---- 1.使用Lily Indexer可以很方便的对HBase中的数据在Solr中进行索引，包含HBase的二级索引，以及非结构化文本数据的全文索引。

4.8K3 0

为什么TCP在高时延和丢包的网络中传输效率差?

说明：有同学私信问到，为什么TCP在高时延和丢包的网络中传输效率差? Google可以搜到很多的信息，这里转译了部分IBM Aspera fasp技术白皮书的第一章节内容，作为参考。...在这个数字世界中，数字数据的快速和可靠移动，包括全球范围内的大规模数据传送，对于几乎所有行业的业务成功都变得至关重要。...TCP AIMD中基于丢包的拥塞控制对网络端到端传输吞吐量具有致命的影响:当一个分组丢失需要重传时，TCP大幅降低发送数据甚至停止发送数据到接收应用，直到重传确认。...TCP中可靠性(重传)与拥塞控制的这种耦合对文件传输造成严重的人为吞吐量损失，这从基于TCP的传统文件传输协议(如广域网上的FTP、HTTP、CIFS、NFS )的性能较差可见一斑。...下面条形图显示了在使用TCP (黄色显示)的文件传输技术的OC-1 (51 Mbps)链路上，在各种数据包丢失和网络延迟条件下可实现的最大吞吐量。

4.6K11 0

如何使用Phoenix在CDH的HBase中创建二级索引

3.Covered Indexes(覆盖索引) ---- 1.使用覆盖索引获取数据的过程中，内部不需要再去HBase的原表获取数据，查询需要返回的列都会被存储在索引中。...如果你使用的表达式正好就是索引的话，数据也可以直接从这个索引获取，而不需要从数据库获取。 1.在建立函数索引时，我们先执行两个查询语句好方便与建立索引以后的性能进行对比。...如果查询项包含substr(s7,1,10)，则查询时间在毫秒级，而之前需要30多秒。如果查询项不包含substr(s7,1,10)，则跟不建索引时是一样的。...3.在查询项中不包含索引字段的条件下，一样查询比较快速。...因为s2并没有包含在索引中。所以使用全局索引，必须要所有的列都包含在索引中。那么怎样才能使用索引呢？有三种方法。

7.4K3 0

数据分析实际案例之：pandas在餐厅评分数据中的使用

简介为了更好的熟练掌握pandas在实际数据分析中的应用，今天我们再介绍一下怎么使用pandas做美国餐厅评分数据的分析。...：食物评分 service_rating：服务评分我们使用pandas来读取数据： import numpy as np path = '.....U1068 132733 1 1 0 1159 U1068 132594 1 1 1 1160 U1068 132660 0 0 0 1161 rows × 5 columns 分析评分数据如果我们关注的是不同餐厅的总评分和食物评分...，我们可以先看下这些餐厅评分的平均数，这里我们使用pivot_table方法： mean_ratings = df.pivot_table(values=['rating','food_rating']...135082 0.971825 132706 0.957427 Name: rating, dtype: float64 本文已收录于 http://www.flydean.com/02-pandas-restaurant

1.7K2 0

数据分析实际案例之：pandas在泰坦尼特号乘客数据中的使用

事故已经发生了，但是我们可以从泰坦尼克号中的历史数据中发现一些数据规律吗？今天本文将会带领大家灵活的使用pandas来进行数据分析。...接下来我们来看一下怎么使用pandas来对其进行数据分析。...使用pandas对数据进行分析引入依赖包本文主要使用pandas和matplotlib，所以需要首先进行下面的通用设置： from numpy.random import randn import...10名的age使用柱状图来表示： import seaborn as sns sns.barplot(x=ageset.index, y=ageset.values) 接下来我们来做一个复杂的矩阵变换...60.5 32 61.0 34 62.0 22 63.0 38 64.0 27 67.0 26 76.0 30 dtype: int64 从agg_counts中取出最后的

1.3K3 0

Python数据处理神器pandas，图解剖析分组聚合处理

在pandas中，为我们提供了一些聚合方法用于处理组数据。 apply apply 只是一种对每个分组进行处理的通用方式。来看看流程动图： apply 方法中传入一个用于处理的方法。...因此，为什么很多文章说，apply 不能使用 python 内置函数，实际是 python 内置函数不能处理 DataFrame 而已。...apply 在处理的最后一步，把每个分组的处理结果合并成一个 DataFrame 返回。 ---- apply 中还可以传入自定义函数，比如我们希望用 value 减去 age 。...---- 有时候，自定义函数也需要额外的参数。比如，希望返回 value 列减去指定值的新列在调用 apply 时，传入命名参数值即可。...从所需结果的情况分析，是完全保持原样，因此选用 transform 。一般在使用 transform 时，在 groupby 之后指定一列。自定义函数中可以很容易求得 value 的均值。

1.2K2 1

nextline函数_在JAVA中Scanner中的next（）和nextLine()为什么不能一起使用？

对于 “” 的情况分析：在输入 2 的时候调用的是 nextInt返回：nextInt 返回的是结束符之前的内容，并不会返回结束符我们的输入：2 \r 以回车 ( \r ) 结尾，于是 2 被返回，...回车符 “\r” 它被丢弃在缓冲区中，现在缓冲区中，只有一个 \r ，于是下一次 nextLine 扫描的时候就又扫描到了 \r，返回它之前的内容，也是啥都没有 “” ，然后再把 \r 去掉，对于...，而我们在控制台中输入的数据也都是被先存入缓冲区中等待扫描器的扫描读取。...这个扫描器在扫描过程中判断停止的依据就是“结束符”，空格，回车，tab 都算做是结束符而坑点在于 next 系列的，也就是下面这些函数：next nextInt nextDouble nextFloat...这些函数与 nextLine 连用都会有坑坑点就是 next 系列的函数返回了数据后，会把回车符留在缓冲区，因此我们下一次使用 nextLine 的时候会碰到读取空字符串的情况解决方案：输入都用

2.6K1 0

python：Pandas里千万不能做的5件事

大部分时候，你必须只用索引找到一个值，或者只用值找到索引。然而，在很多情况下，你仍然会有很多不同的数据选择方式供你支配：索引、值、标签等。在这些不同的方法中，我当然会更喜欢使用当中最快的那种方式。...Modin DataFrames 不需要任何额外的代码，在大多数情况下会将你对 DataFrames 所做的一切加速 3 倍或更多。...请注意，Modin 还在开发中，虽然我在生产中使用它，但不可避免会有一些 bug。请查看 Issues in GitHub 和 Supported API 获取更多信息。...错误3：让Pandas消耗内存来猜测数据类型当你把数据导入到 DataFrame 中，没有特别告诉 Pandas 列和数据类型时，Pandas 会把整个数据集读到内存中，只是为了弄清数据类型而已。...在一行中把多个 DataFrame 修改链在一起（只要不使你的代码不可读）：df = df.apply(something).dropna() 正如国外大牛 Roberto Bruno Martins

1.5K2 0

Python数据分析 | Pandas数据变换高级函数

2.2 apply方法当我们需要完成复杂的数据映射操作处理时，我们会使用到Series对象的apply方法，它和map方法类似，但能够传入功能更为复杂的函数。我们通过一个例子来理解一下。...def apply_age(x,bias): return x+bias #以元组的方式传入额外的参数 data["age"] = data["age"].apply(apply_age,args...掌握DataFrame的apply方法需要先了解一下axis的概念，在DataFrame对象的大多数方法中，都会有axis这个参数，它控制了你指定的操作是沿着0轴还是1轴进行。...,axis=1) [1cd51024890e6cae8e4fe4fac14e7353.png] 当apply设置了axis=1对行进行操作时，会默认将每一行数据以Series的形式（Series的索引为列名...做个总结，DataFrame中应用apply方法：当axis=0时，对每列columns执行指定函数；当axis=1时，对每行row执行指定函数。

1.3K3 1

精品课 - Python 数据分析

教课理念有个人可能会问 NumPy-Pandas-SciPy 不都是免费资源吗，为什么还要花钱来上课？没错，我也是参考了大量书籍、优质博客和付费课程中汲取众多精华，才打磨出来的前七节课。...我先来谈谈我的学习思路和教课理念，看是不是符合你的胃口： WHY：为什么会有三者？每一个工具包的创建必是解决痛点。 WHAT：三者是什么？...DataFrame 数据帧可以看成是数据帧 = 二维数组 + 行索引 + 列索引在 Pandas 里出戏的就是行索引和列索引，它们可基于位置 (at, loc)，可基于标签 (iat...---- HOW WELL 比如在讲拆分-应用-结合 (split-apply-combine) 时，我会先从数据帧上的 sum() 或 mean() 函数引出无条件聚合，但通常希望有条件地在某些标签或索引上进行聚合...终止条件：任何金融产品都是支付函数，可设为 PDE 的终止条件边界条件：很多金融产品的支付在标的很大或很小时会确定比如看涨期权在标的为零时支付为零在标的很大时近似为一个远期。

3.3K4 0

其实你就学不会 Python

这里说的“你”，是指职场中的非专业人员。职场人员一般会用 Excel 处理数据，但也会有很多无助的情况，比如复杂计算、重复计算、自动处理等，再遇上个死机没保存，也常常能把人整得崩溃。...关键问题在于，Pandas 就不是为结构化数据设计的，会有许多不能如你所愿而且非常费解的东西....Pandas 中主要用一个叫 DataFrame 的东西来处理这类表格数据，上面的表格读入 DataFrame 后是这样的：看起来和 Excel 差不多，只是行号是从 0 开始的。...简单的过滤运算，比如取出研发部员工，我们想像中的结果应该是人员表的子集，但实际上是整个人员表（矩阵）和一些被选择的行位置（称为行索引），可以理解为子矩阵。...简单总结一下： DataFrame 本质是矩阵，不是记录的集合，编程要按矩阵的方法来思考，经常会有点绕，结果也会有“意想不到”。

881 0

这几个方法颠覆你对Pandas缓慢的观念！

相反，如果原始数据datetime已经是 ISO 8601 格式了，那么pandas就可以立即使用最快速的方法来解析日期。这也就是为什么提前设置好格式format可以提升这么多。...我们仍然在使用某种形式的Python for循环，这意味着每个函数调用都是在Python中完成的，理想情况是它可以用Pandas内部架构中内置的更快的语言完成。...▍使用Numpy继续加速使用Pandas时不应忘记的一点是Pandas Series和DataFrames是在NumPy库之上设计的。...你真的只想做一次，而不是每次运行你的模型，进行测试或分析。你可以在此处执行的一项非常有用的操作是预处理，然后将数据存储在已处理的表单中，以便在需要时使用。...以下是一些经验，可以在下次使用Pandas中的大型数据集时应用这些经验法则：尝试尽可能使用矢量化操作，而不是在df 中解决for x的问题。

2.9K2 0

还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法

3.4K1 0

Python替代Excel Vba系列（四）：课程表分析与动态可视化图表

本文要点：使用 pandas 快速按需求做汇总整理。注意：虽然本文是"Python替代Excel Vba"系列，但希望各位读者明白，工具都是各有所长，选择适合的工具，才是最好的。...---- 案例这次的数据是基于上一节已整理的教师课程表。如下图：表中的一行表示某一天的某课时是哪位教师负责的哪门科目。这里的名字按照原有数据做了脱敏(teach 列)。....size() ，即可求得每组的个数。这里使用 count 也可以，但你会注意到使用 count ，pandas 会把所有列都进行计数。并且 count 会忽略 nan ，而 size 则不会。...如下: 这次我们的汇总主键是级别和主科目。可以看到其实与之前的流程基本一致，只是在分组时加上了 grade 字段。...此时 apm 行索引中都有上午和下午的值。 .unstack() ，把 apm 从行索引移到列索引。那么就会有上午列和下午列。

1.7K2 0

新年Flag：搞定Python中的“功夫熊猫”，做最高效的数据科学家

Pandas就像是Python中的Excel：它的基本数据结构是表格（在pandas中叫“DataFrame”），可以对数据进行各种操作和变换。当然，它还能做很多其他的事。...基本的绘图函数能实现这个功能主要还是得益于matplotlib库。像我们在介绍中说的，这个库的大部分功能都可以直接通过pandas使用。...tqdm — 独一无二的模块当处理大规模数据集时，pandas需要花费一些时间来完成.map()，.apply()，.applymap()操作。...这就是在Jupyter中使用tqdm和pandas之后可以看到的进度条。...Pandas中的高级操作 SQL的连接功能连接操作在Pandas中非常简单。

1.1K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云