开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在groupby之后选择行时，获取空的数据帧。有人知道为什么吗？

在groupby之后选择行时，获取空的数据帧可能是由于以下原因之一：

分组操作导致某些组没有匹配的行。在groupby操作中，数据框根据指定的列进行分组，然后可以对每个组应用聚合函数或其他操作。如果某些组没有匹配的行，则在选择行时可能会得到空的数据框。
分组操作后的筛选条件不满足任何行。在groupby操作后，可能会使用筛选条件来选择特定的行。如果筛选条件不满足任何行，则结果将是空的数据框。
分组操作后的列名或索引名称不正确。在进行分组操作后，可能会更改列名或索引名称。如果在选择行时使用了错误的列名或索引名称，则可能无法找到匹配的行，导致结果为空的数据框。

为了解决这个问题，可以尝试以下方法：

检查分组操作是否正确。确保使用正确的列进行分组，并且没有遗漏任何组。
检查筛选条件是否正确。确保筛选条件与数据框中的值匹配，并且至少有一行满足条件。
确保使用正确的列名或索引名称。检查选择行时使用的列名或索引名称是否与分组操作后的结果一致。

如果以上方法仍然无法解决问题，可能需要进一步检查数据框的内容和结构，以确定为什么选择行时获取空的数据框。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Pandas 数据分析技巧与诀窍

它将分为以下几点: 1、在Pandas数据流中生成数据。 2、数据帧内的数据检索/操作。...拥有一个简单的工具或库来生成一个包含多个表的大型数据库，其中充满了您自己选择的数据，这不是很棒吗?幸运的是，有一个库提供了这样一个服务—— pydbgen。 pydbgen到底是什么?...2 数据帧操作在本节中，我将展示一些关于Pandas数据帧的常见问题的提示。注意：有些方法不直接修改数据帧，而是返回所需的数据帧。...在不知道索引的情况下检索数据: 通常使用大量数据，几乎不可能知道每一行的索引。这个方法可以帮你完成任务。因此，在因此，在“数据”数据框中，我们正在搜索user_id等于1的一行的索引。...missing = {‘tags’:’mcq’, ‘difficulty’: ‘N’} data.fillna(value = missing, inplace = True) 从数据帧中获取已排序的样本

11.5K4 0

python 下采样和上采样

前言由于工作数据量较大，训练模型很少直接单机python，一般都采用SparkML，最近把SparkML的工作使用python简单的写了一下，先写个上下采样，最终目的是为了让正负样本达到均衡（有人问：...正负样本必须是1：1吗？...基础知识准备如何获取dataframe的行数 pandas.DataFrame.shape 返回数据帧的形状 df.shape[0] 返回行数 de.shape[1] 返回列数只听到从架构师办公室传来架构君的声音.../test.csv') # 获取正样本的数量 z = data[data['label'] == 1] # 获取负样本的数量 f = data[data['label'] == 0] 上采样就是不断复制样本少的数据达到和样本多的数据平衡...frac = int(len(f) / len(z)) # 创建一个数据结构和之前一致，但空的dataframe zcopy = z.iloc[0:0].copy() # 上采样就是复制少量的样本直到和多量的达到平衡

1.4K1 0

利用 Pandas 的 transform 和 apply 来处理组级别的丢失数据

在这种情况下，你通常会用你猜测的最佳值（即，可用数据的平均值或中等值）替换丢失的值。让我们快速回顾一下为什么应该小心使用此方法。假设你调查了 1000 个男孩和 1000 个女孩的体重。...不幸的是，在收集数据的过程中，有些数据丢失了。...女孩的 KDE 有两个驼峰。有人可能会得出结论，在我们的样本中有一个子组的女孩体重较重。因为我们预先构建了分布，所以我们知道情况并非如此。但如果这是真实的数据，我们可能会从中得出错误的结论。 ?...下载数据帧中的数据示例让我们看看我们每年有多少国家的数据。 ?...扩展数据帧，所有国家在 2005 年到 2018 年间都有数据 2.在对每个国家分组的范围之外的年份内插和外推 # Define helper function def fill_missing(grp

1.9K1 0

你的C#代码是怎么跑起来的（二）

接上篇：你的C#代码是怎么跑起来的（一）通过上篇文章知道了EXE文件的结构，现在来看看双击后是怎样运行的：双击文件后OS Loader加载PE文件并解析，在PE Optional Header里找到基地址和..._CorExeMain()开始执行，选择加载合适版本的CLR，CLR开始运行，CLR运行时会分配一个连续的地址空间用作托管堆，并用一个指针NextObjPtr指到开始位置，下次分配内存时就从指针指的位置开始...JIT编译之前CLR会对Main方法的代码进行验证，确保类型安全且元数据正确，一切没问题后先检查类型方法表里这个方法的存根，不为空的话表示已经编译过就不需要再次编译，没有的话JIT把这段IL代码编译成本地代码保存到内存中并方法表的存根做上标记...说起栈帧，大家在调试代码时应该都喜欢用CallStack吧，这可以通过看调用栈很方便来定位出问题的具体原因，这个CallStack也就是方法的栈帧的具体显示，一级一级的。...，lock时同样改变标识位，然后去同步块数组找一个闲置项，后26则变成这项在数组中的索引，有人要问了，刚才hashcode不是用了这26位吗，现在变了，hashcode岂不是丢了。

1.2K9 0

写了挺久的代码，却还被异常支配?

咋看代码可以你觉得很奇怪，为什么有人会优先使用基于异常的循环，大部分会这样写的都会以为错误判断机制性能会比较高，因为 JVM 对每次数组访问都要检查是否越界。...getMessage() 方法有点类似于 toString()，可以获取异常类更加详细的信息。栈轨迹我们平时可以通过打断点的方式来调试代码，跟着代码一行一行的走下去，这是因为栈帧的帮组。...当异常的栈轨迹过长时，控制台会刷出一列下来的错误信息，不知道为什么，每次看到这种信息总有种心烦的感觉，真糟糕~ 不知道小伙伴有没有一样的感触。...空的 catch 块会使异常达不到应有的目的如果我们一定要选择忽略异常，那么明确的做法应该是：在 catch 块中包含一条注释，说明为什么可以这样做，并且将变量名称命名为 ignored 派生异常 ?...（在知道该如何处理的情况下菜捕获异常）解决问题并且重新调用产生异常的方法进行少许修补，然后绕过异常发生的地方继续执行用别的数据进行计算，以代替方法预计会返回的值把当前运行环境下能做的事情尽量做完

5711 0

Keep面经汇总

类型之后在获取的时候再强制类型转换为对应的类型。...result : -result; } hashmap是怎么实现的，是线程安全的吗知道hashmap的扩容机制么 arrylist实现原理怎么实现线程安全互斥同步：推荐使用 synchronized...程序计数器:记录正在执行的虚拟机字节码指令的地址（如果正在执行的是本地方法则为空）。 Java虚拟机栈:每个 Java 方法在执行的同时会创建一个栈帧用于存储局部变量表、操作数栈、常量池引用等信息。...Object Class Data(类定义数据)是存储在方法区的，此外，常量、静态变量、JIT编译后的代码也存储在方法区。运行时常量池：运行时常量池是方法区的一部分。...写线程安全的单例模式，为什么用volatile和synchronized，底层是怎么实现的，volatile是可重排序的吗 public class Singleton { private volatile

7733 0

期待已久的 JS 原生 groupBy() 分组函数即将到来

虽然还有一些需要注意的事情。 Object.groupBy 返回的是一个空原型对象，这意味着这个对象不会继承任何来自 Object.prototype 的属性。...这意味着您需要确保键对象是同一个，而不是一个相似但不同的对象。这是因为在 JavaScript 中，对象的引用是唯一的，只有引用相同才能够准确地从 Map 中检索数据。什么时候可以用呢？...总之，这些方法代表了 JavaScript 未来的发展方向，它们有望成为标准的一部分，并且已经开始在现代浏览器和 JavaScript 运行时中得到支持。为什么使用静态方法？...你可能会好奇为什么我们选择实施了 Object.groupBy 而不是像 Array.prototype.groupBy 这样的数组原型方法。...这是因为根据这个提案的说明，曾经有一个库尝试在 Array.prototype 上添加了一个不兼容的 groupBy 方法的补丁。在设计新的 API 时，特别是在网络环境下，保持向后兼容性非常重要。

1.3K2 0

如何从 Pandas 迁移到 Spark？这 8 个问答解决你所有疑问

我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。我仍然认为 Pandas 是数据科学家武器库中的一个很棒的库。...如果你有 DevOps 专业知识或有 DevOps 人员帮助你，EMR 可能是一个更便宜的选择——你需要知道如何在完成后启动和关闭实例。话虽如此，EMR 可能不够稳定，你可能需要花几个小时进行调试。...鉴于在 30/60/120 分钟的活动之后你可以关闭实例从而节省成本，我还是觉得它们总体上可以更便宜。...有时，在 SQL 中编写某些逻辑比在 Pandas/PySpark 中记住确切的 API 更容易，并且你可以交替使用两种办法。 Spark 数据帧是不可变的。不允许切片、覆盖数据等。...变换可以是宽的（查看所有节点的整个数据，也就是 orderBy 或 groupBy）或窄的（查看每个节点中的单个数据，也就是 contains 或 filter）。

4.4K1 0

太赞了，Intellij IDEA竟然把Java8的数据流问题这么完美的解决掉了！

从那时起，我们将大部分代码库迁移到lambda表达式、数据流和新的日期API上。我们也会使用Nashorn来把我们的应用中运行时发生改变的部分变成动态脚本。...()); 在迁移了300k行代码到数据流之后，我可以说，toList、toSet、和groupingBy是你的项目中最常用的终止操作。...下面我们可以通过右侧的+图标创建一个新的组，叫做Stream。接下来我们向组中添加所有数据流相关的实时模板。关注公众号Java面试那些事儿，回复关键字面试，获取最新的面试题。...在添加新的实时模板之后，你需要在对话框底部指定合适的上下文。你需要选择Java → Other，然后定义缩写、描述和实际的模板代码。...你可以用它来极大提升代码的生产力。你知道实时模板可以拯救生活的其它例子吗？仍然不满意吗？在我的数据流教程中学习所有你想要学到的东西。祝编程愉快！

1.1K1 0

Python pandas十分钟教程

也就是说，500意味着在调用数据帧时最多可以显示500列。默认值仅为50。此外，如果想要扩展输显示的行数。....unique()：返回'Depth'列中的唯一值 df.columns：返回所有列的名称选择数据列选择：如果只想选择一列，可以使用df['Group']....df.loc[0:4,['Contour']]：选择“Contour”列的0到4行。 df.iloc[:,2]：选择第二列的所有数据。 df.iloc[3,:]：选择第三行的所有数据。...Concat适用于堆叠多个数据帧的行。...按列连接数据 pd.concat([df, df2], axis=1) 按行连接数据 pd.concat([df, df2], axis=0) 当您的数据帧之间有公共列时，合并适用于组合数据帧。

9.8K5 0

一点一滴探究JVM之内存结构

前言我一直尝试着用不一样的文字来写博客！原因很简单，你讲的知识书上都有，那么每个人为什么不选择看书而选择看你的博文来学习呢？...[] args) { f(); } } 这个简单的递归，不对，它不算是递归，因为没有终止条件，但是你知道它最终会报什么错误，知道为什么会报这个错误吗？...当一个方法开始执行时，它的操作栈是空的，在方法的执行过程中，会有各种字节码指令（比如：加操作、赋值元算等）向操作栈中写入和提取内容，也就是入栈和出栈操作。...（在方法区中，后面介绍）中该栈帧所属方法的引用，持有这个引用是为了支持方法调用过程中的动态连接。...无论采用何种退出方式，在方法退出之后，都需要返回到方法被调用的位置，程序才能继续执行。方法返回时可能需要在栈帧中保存一些信息，用来帮助恢复它的上层方法的执行状态。

1.4K0 0

JavaScript如何工作：引擎，运行时和调用堆栈的概述

事实证明，有很多开发人员每天都在使用JavaScript，但不知道什么会发生什么。概览几乎所有人都已经听说过V8引擎的概念，大多数人都知道JavaScript是单线程的，或者是使用回调队列。...引擎由两个主要组成部分组成：内存堆 - 这是内存分配发生的地方调用堆栈 - 这是您的代码执行的堆栈帧运行时浏览器中已经有几个JavaScript开发人员使用的API（例如“setTimeout”...调用堆栈 JavaScript是单线程编程语言，这意味着它有一个单一的调用堆栈。因此，它可以一次做一件事。调用堆栈是一个数据结构，它基本上记录了我们在程序中什么位置。...之后，步骤如下： ? 调用堆栈中的每个条目称为堆栈帧。这正是抛出异常时构造堆栈跟踪的方式 - 当异常发生时，它基本上是调用堆栈的状态。...现在，这不是最好的用户体验，是吗？那么，如何在不阻塞UI并使浏览器无响应的情况下执行繁重的代码呢？那么解决方案是异步回调。

1.8K4 0

使用Dask DataFrames 解决Pandas中并行计算的问题

如何将20GB的CSV文件放入16GB的RAM中。如果你对Pandas有一些经验，并且你知道它最大的问题——它不容易扩展。有解决办法吗? 是的-Dask DataFrames。...它甚至可以在集群上运行，但这是另一个话题。今天你将看到Dask在处理20GB CSV文件时比Pandas快多少。运行时值将因PC而异，所以我们将比较相对值。...在开始之前，请确保在笔记本所在的位置创建一个数据文件夹。...你可以看到下面的总运行时间: 让我们来比较一下不同点: 这并不是一个显著的区别，但Dask总体上是一个更好的选择，即使是对于单个数据文件。...一个明显的赢家，毋庸置疑。让我们在下一节结束这些内容。结论今天，您学习了如何从Pandas切换到Dask，以及当数据集变大时为什么应该这样做。

4.3K2 0

【深度】函数运行时在内存中是什么样子？

接下来我们就好好看看到底什么是函数运行时栈，为什么彻底理解函数运行时栈对程序员来说非常重要。...再仔细看一下栈顶的轨迹，也就是A、B、D、B、A、C、A，实际上你会发现这里的轨迹就是任务依赖树的遍历过程，是不是很神奇，这也是为什么树这种数据结构的遍历除了可以用递归也可以用栈来实现的原因。...但调用函数除了提供函数名称之外还需要传递参数以及获取返回值，那么这又是怎样实现的呢？在x86-64中，多数情况下参数的传递与获取返回值是通过寄存器来实现的。...局部变量我们知道在函数内部定义的变量被称为局部变量，这些变量在函数运行时被放在了哪里呢？原来，这些变量同样可以放在寄存器中，但是当局部变量的数量超过寄存器的时候这些变量就必须放到栈帧中了。...因此：不要创建过大的局部变量函数栈帧，也就是调用层次不能太多总结本章我们从几个看似没什么关联的问题出发，详细讲解了函数运行时栈是怎么一回事，为什么我们不能创建过多的局部变量。

1.3K2 0

JVM内存模型浅析

看见别人就想抱大腿，最后运维说他不懂java，最后怀着紧绷的心态查阅日志，最后在tomcat的启动脚本中发现有人将java虚拟机的堆内存设为1024M，而引发OOM的原因是获取公司员工信息的大JSON，...2.元空间，永久代，方法区、运行时常量我们知道我们代码运行时，往往会加载很多类，这些类就是存在于元空间，java7叫做永久带，是独立的。...3.虚拟机栈我们的java代码运行其实是通过方法调用的，我们都知道方法执行完毕，里边的参数和数据就没了。这里数据没了的原因就是虚拟机栈。...当执行一个方法时，会将该方法的起始地址返回地址还有局部变量等信息以栈帧的形式插入到虚拟机栈，执行完毕就出栈，所以说如果发生死循环或者递归可能会引发虚拟机栈的OOM现象。...当然对于虚拟机栈来说程序计数器是有值的，但是本地方法栈因为不是我们自己编写的代码，所以也没办法进行记录其数值，所以为空。

2032 0

《Python for Excel》读书笔记连载12：使用pandas进行数据分析之理解数据

这部分仍免费呈现给有兴趣的朋友。附已发表内容链接： 1.为什么为Excel选择Python？ 2.为什么为Excel选择Python？...处理空单元格的方式一致，因此在包含空单元格的区域内使用Excel的AVERAGE公式将获得与应用于具有相同数字和NaN值（而不是空单元格）的系列的mean方法相同的结果。...例如，下面是如何获得每组最大值和最小值之间的差值： df.groupby(["continent"]).agg(lambdax: x.max() - x.min()) 在Excel中获取每个组的统计信息的常用方法是使用透视表...最后，margins与Excel中的总计（GrandTotal）相对应，即如果不使用margins和margins_name方式，则Total列和行将不会显示：总之，数据透视意味着获取列（在本例中为...使用聚合统计数据有助于理解数据，但没有人喜欢阅读一整页数字。为了使信息易于理解，没有什么比创建可视化效果更好的了，这是下一个要介绍的主题。

4.3K3 0

这10个 Python 技能，被低估了

例如，Chris 向我们展示了如何按组将函数（比如 Pandas 的 rolling mean（移动窗口均值）：.rolling()）应用到数据帧（DataFrame）： df.groupby('lifeguard_team...另外，请参看此数据科学工作流的完整指南：《模型选择综合指南》（Comprehensive Guide to Model Selection），该指南阐述了选择正确算法的系统方法。...但是，通过使用标准术语，我们可以让其他程序员知道，这个函数表示完成脚本主要任务的代码的起点。 main函数应该调用存储在模块中的其他函数，而不是在main()中包含完成任务的代码块。...在由 TWIML AI 播客主持的小组讨论中，专家们探讨了他们所选择编程语言的数据科学应用。...但是，嘿，这很有勇气，也很有创意不是吗？而且它有可能通过打破机器学习和传统软件开发之间的障碍，实现数据科学的民主化。

8543 0

关于JVM中的几大面试题

有人说了，是因为类加载器本身就是有不同的加载类职责范围。那么当我们进行类加载的时候，程序怎么知道这个类要用什么类加载器。然而就是这段不同的类，确定使用不同类加载器的过程，就是我们将的双亲委派机制。...简单的来说就是执行到哪一步了虚拟机栈：换个名字叫Java方法栈，这样好理解一下。Java在调用方法时，会将字节码方法入栈，这个东西叫做栈帧。栈这种数据结构，就是先入后出。...结构展示A在最底下，B在上。在结束的时候，是B方法栈帧先结束，然后才是A方法的栈帧。符合先入后出原则。...在栈帧结构内部，我们可以如下进行划分，分别是局部变量表：主要存储方法的参数、定义在方法内的局部变量，包括八大基本数据类型，对象的引用地址，返回值地址。...如执行复制、交换、求和等操作动态链接：每个栈帧都包含一个指向运行时常量池中该栈帧所属方法的引用，持有这个引用是为了支持方法调用过程中的动态链接。

1452 0

pandas技巧4

() # 从你的粘贴板获取内容，并传给read_table() pd.DataFrame(dict) # 从字典对象导入数据，Key是列名，Value是数据导出数据 df.to_csv(filename...to_excel(writer,sheet_name='单位') 和 writer.save()，将多个数据帧写入同一个工作簿的多个sheet(工作表) 查看、检查数据 df.head(n) # 查看DataFrame...df.at[5,"col1"] # 选择索引名称为5，字段名称为col1的数据 df.iat[5,0] # 选择索引排序为5，字段排序为0的数据 data.str.contains("s") # 数据中含有..."s"字符串的数据 data.astype(int).isin(list1) # 数据的某条数据的某个字段在列表list1中的数据 df[-df[column_name].duplicated()] #...：Filter、Sort和GroupBy df[df[col] > 0.5] # 选择col列的值大于0.5的行 df.sort_index().loc[:5] #对前5条数据进行索引排序 df.sort_values

3.4K2 0

jvm性能调优 - 03垃圾回收机制

然后线程执行时必须通过自己的程序计数器来记录执行到哪一个代码指令了另外线程在执行方法时，为每个方法都得创建一个栈帧放入自己的Java虚拟机栈里去，里面有方法的局部变量。...好，到这里为止，其实都是上篇文章讲解过的知识，我们就是重新串联了一遍 ~ ---- 一个方法执行完毕之后会怎么样？接着大家来回顾一下上面的代码。 ?...大家要知道，内存资源是有限的。...–GC 继续思考上面的图，既然“ReplicaManager”对象实例是不需要使用的，已经没有任何方法的局部变量在引用这个实例对象了，而且他还空占着内存资源，那么我们应该怎么处理呢？...到底什么是JVM中的“垃圾”？什么又是JVM的“垃圾回收”！ ---- 思考题既然今天提到了Java堆内存里的对象会被回收掉，那么加载到方法区的类会被垃圾回收吗？什么时候被回收？为什么呢？

2982 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭