为大型数据集汇总数据帧中的列_基于多列的数据帧汇总_汇总Pandas数据帧中的列的部分 - 腾讯云开发者社区

、

我有一个数据集(大约200K行)，它看起来像- timestamp,cell_id,crnti,enodeb_id,cqi,1603208435946,3,39063,21519,11603208435746,3,39065,21519,1,1603208435946,3,39065,21519,1, 我想以这种格式汇总所有记录(每个crnti) - cell_id,crnti,enodeb_id,cqi,dist

浏览 12提问于2020-11-06得票数 1

回答已采纳

2回答

Pandas复杂GroupBy及其在机器学习数据集上的应用

、、、

我有一个用于机器学习数据集的数据集。下面列出了我的数据帧。123333 1111 1 2016 99999 2222 我的目标是汇总数据集，并将年作为列名中的度量添加到整个数据帧</

浏览 14提问于2019-09-24得票数 0

回答已采纳

2回答

pyspark数据帧中所有列的总计数为零

、、

我需要找出pyspark dataframe中所有列中0的百分比。如何在数据帧中找到每一列的零计数？附言:我尝试过将数据帧转换为pandas数据帧，并使用了value_counts。但是，对于大型数据集来说，推断它的观察值是不可能的。

浏览 0提问于2018-08-20得票数 4

1回答

Panda的合并返回空，看不到原因

、、、

我有以下数据帧：然后，我通过列'Dia‘汇总了值'Hp’，使用以下语法获得了以下数据集：并获得以下时间序列(稍后我需要将to_frame()转换为合并)：我想要做的是，将每天的汇总值复制到与原始数据帧匹配的每天(在那里，日期“

浏览 0提问于2017-07-16得票数 1

回答已采纳

1回答

Pandas Dataframe:再一次就地与赋值相同的数据帧

、、、

下面是从pandas数据帧中实际删除列的两种方法。通过再次赋值给相同的变量。user = user.drop('gender' , axis = 1) 在处理大型数据集(数据文件大小为GB )时，哪种方法更有效？

浏览 0提问于2018-11-10得票数 0

2回答

pandas read_csv内存消耗

、、、、

我正在阅读以csv格式存储的巨型熊猫( 18.1版本，特意) DataFrames (~总计30 GB)。但是，使用read_csv时，内存消耗会增长到初始csv的两倍。文件--> 60 GB。然而，这要慢得多，而且并没有真正减少内存的使用。我用4 GB的DataFrame试过了。在读取了DataFrame之后，该脚本仍然消耗了大约7 GB内存。下面是我的代码：

浏览 2提问于2017-01-01得票数 5

2回答

在Pandas合并NULL值和colum2中，两列数据类型都是object，并且只有很少的值在第一列为colum1？

、、

数据帧有两列数据帧有两列col1 col2 B A C B D E E H这里两列都是对象类型，试图将列2的值与列1的值合并，其中列1的值为null。如何将其应用于大型<

浏览 20提问于2020-02-05得票数 0

2回答

摘要命令不生成摘要统计信息

、、、

summary(dataframe1)命令为我提供了该数据帧的汇总统计信息，如max、min和NA的数目。类似地，summary(dataframe1$column1)为数据框架内的特定变量(其列之一)提供了汇总统计信息。在我使用lm和plm运行一些回归之前，以及每当我试图通过dataframe1通过summary(dataframe1$column1)获取数据帧

浏览 20提问于2022-02-28得票数 0

回答已采纳

2回答

获取列表中嵌套数据帧的汇总统计信息

、、

我有一个数据帧列表，我希望将该列表中每个数据帧的摘要统计信息返回到一个新的数据帧中-能够选择每个初始数据帧中的列(值)来返回摘要统计信息。输出数据帧中的每一行对应于初始列表中的每个数据帧

浏览 8提问于2019-09-14得票数 0

回答已采纳

1回答

快速刷新摘要数据以最大限度地减少停机时间

、、

为了增加报告的响应时间，我创建了一个类似于物化视图的汇总表。我还没有确定刷新数据的频率，因为我仍然在决定如何实际交换数据。基于键更新数据不是当前结构的选项，因为每个记录都是从许多列的不同组合中创建的，其中一些列可能为null。当涉及空值时，这会导致更新匹配多个行。数据库中的数据每天只更新一到两

浏览 0提问于2012-04-06得票数 1

回答已采纳

1回答

python大熊猫无法显示大型数据摘要

、、、

最近我升级到了熊猫版本0.13，并且遇到了这样的问题:无论我的数据集有多大(最大的一个有25列和158430行)，熊猫都会打印出整个数据格式(不是全部，每列只有几行，但仍然很乱！)而不是打印出汇总表，在这样大的数据帧的情况下，汇总表要干净得多。我只是想知道是否有其他人有这个问题，或曾经有过这个问题，并知道如何解决它。提前感谢！

浏览 3提问于2014-02-12得票数 2

回答已采纳

3回答

如何对熊猫中具有布尔数据类型的变量执行.describe()方法

、

我试图获得数据帧列的汇总统计信息，数据类型为: Boolean。在这两种情况下，都不提供布尔数据类型的汇总</e

浏览 5提问于2018-01-13得票数 3

回答已采纳

1回答

基于列与行的匹配的数据帧子集-R

我正在尝试基于匹配来自另一个数据帧的ID来子集一个大型数据帧。我读了下面这个问题的答案： *1* 3.21 6 *4* 7.9

浏览 1提问于2014-10-09得票数 0

1回答

以最有效的方式对Pandas Dataframe进行排序和过滤

、

我想按列名'duration‘过滤，然后显示大于200的值。这只是数据集的一小部分。我有一个非常庞大的数据集。我可以使用dfdf.duration > 200。但是，这在整个数据帧上运行。有没有什么方法可以专门针对列持续时间，然后过滤数据，只显示列持续时间，而不引入新的数据帧。另外，一些关于在大型</em

浏览 24提问于2021-04-17得票数 0

1回答

面积图中多变量的叠加方法

、、

我想做一个面积图，显示三个变量(Vr，Hr和Ar)在具有7个稀释步骤的稀释序列(x = dil)上的平均演变。每个稀释有5个重复，我想将其总结为平均值。这三个变量表示变量M (Vr + Hr + Ar = M)的比例。所以我不想把比例加到100%，而是将每个变量的各个区域堆叠在一起，使其在顶部达到M(添加为一行)。如何在面积图中堆叠这三个变量的平均值，以显示每个稀释步骤的比例分布？stat_summary(aes(y = Vr, group = 1), fun= mean,

浏览 21提问于2020-07-27得票数 0

回答已采纳

1回答

如何通过比较R中的行来创建新的数据集

、、

我有一个包含大约90个不同csv文件的大型数据集，这些文件都是以这种格式构建的(每个大学都是这样)： University | ArticleCode | Pages | Authors | year我得想出这个数据集，它把按年发表的文章进行汇总。文章由ArticleCode唯一标识，因此如果两个不同的数据集在ArticleCode列中有相同的代

浏览 3提问于2022-05-29得票数 -1

2回答

基于两个唯一标识符的多个数据帧的加法

、、

我有十个数据帧，我想根据id和pnum将它们加起来。做这件事最好的方法是什么？

浏览 0提问于2018-11-21得票数 0

回答已采纳

1回答

将plt.text()坐标设置为变量位置

、

我正在创建一个遍历大型数据集的循环，以创建数据汇总报告。我正在尝试使用文本框在直方图的顶部显示一些汇总统计数据，并且我希望文本框的右上角位于直方图的右上角。fontsize=10,plt.show() 我可以将x_coordinate变量设置

浏览 3提问于2014-07-03得票数 0

2回答

R迭代数据帧的效率

、、

我正在处理一个大型数据集，我们将其命名为data，并希望创建一个新列，基于某个列data$input，我们将其命名为data$results。结果是基于一些条件if/then逻辑，所以我最初的方法是这样的： data$results <- if(data$results == "1" | data$results== "2") { trueAnswe

浏览 1提问于2018-04-16得票数 1

1回答

如何为大型数据集在R中添加虚拟变量

、

我有一个包含列名: ID和Property的大型数据集。可能有几行共享相同的ID，这意味着一个ID具有许多不同的属性(分类变量)。我希望为属性添加虚拟变量，最后在每一行中获得一个ID不同的数据帧，并使用1/0指示它是否具有该属性。原始数据有200万行和10000个不同的属性。因此，理想情况下，我将通过组合相同的ID并添加虚拟变量

浏览 1提问于2017-02-01得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云