按类别获取Python dataframe中的随机样本

、

我想从每个类别中随机抽取10个项目，以便剩余的数据帧只包含这些记录。我已经尝试过df.sample()，但它只给了我所有的示例。我可以通过df.iterrows()做到这一点，但我希望有一个更简单的解决方案。

浏览 0提问于2016-12-27得票数 11

回答已采纳

2回答

从Spark GroupedData对象中选择随机项目

、、、

我刚开始在Python中使用Spark，并且一直无法解决这个问题:在pyspark.sql.dataframe.DataFrame上运行groupBy之后df.groupBy('teamId') 如何从每个结果组(按teamId分组)中选择N随机样本而不进行替换？我基本上是尝试从每个团队中随机选择N用户，也许一开始使用groupBy是错误的？

浏览 0提问于2015-11-17得票数 21

回答已采纳

1回答

TSQL随机样本

、、

我需要根据表中2个不同变量的比率，使用TSQL从表中选择一个随机样本。4:1 (男性/女性)类别变量4:3:2:1 (重/中/轻/极轻)类别变量

浏览 0提问于2018-05-23得票数 0

1回答

Python Pandas -从二进制数据中采样一定数量的个体

、、、、

下面是我正在使用的DF的一个虚拟示例。它有效地包括入库数据，其中第一列给出了一个类别，第二列给出了该类别中的个人数量。df = pd.DataFrame(data={'Category':['A','B','C','D','E','F','G','H','I'],

浏览 13提问于2021-02-09得票数 0

回答已采纳

3回答

具有特定计数的Dataframe随机样本

、、

假设我有一个带有二进制变量b (b的值为0或1)的dataframe b。如何从这个数据中获取大小为10的随机样本，以便在随机样本中有2个b=0实例，在数据中有8个b=1实例？现在，我知道我可以做df[sample(nrow(df),10,]来获得部分答案，但是这会给我一个随机的0和1个实例。如何在仍在随机抽取样本的同时指定0和1个实例的特定数量？

浏览 11提问于2022-03-30得票数 1

回答已采纳

1回答

混合数据类型的采样技术

、、

我正在寻找一种非常具体的抽样技术，它属于一个非常大的数据集，具有混合数据类型，即，我有分类变量和连续变量，并且希望有一个尽可能接近地表示这类数据的总体的样本。如果有人能帮我解决这件事，我会很感激的。

浏览 0提问于2021-09-06得票数 1

回答已采纳

1回答

运行唯一样本

、、、

我编写了一些代码，根据特定的标准随机抽取样本，并循环使用标准来获取特定项目的特定数量的样本。随机样本正在收集ID。我需要随机的身份证，我要所有的都是独一无二的。如果随机样本的ID已经附加到完整的随机ID列表中，那么我希望它重新运行特定的迭代，直到在完整的附加列表中找不到随机样本中的ID为止。随机样本</

浏览 3提问于2022-06-07得票数 0

3回答

MultiIndex DataFrame抽样

、、、

我正在使用一种名为MultiIndex DataFrame DataFrame的df_data中的面板数据n time这是一个平衡的面板。我想创建一个随机样本的nn=100个人与替代。另外，如果一个人进入了随机样本，那么这个个体的所有4次观测(t=0,1,2,3)都应该分配给样本。所以如果创建的随机变量列表是2，3，2，4，1，.然后，第三个

浏览 3提问于2016-01-20得票数 9

回答已采纳

3回答

Python :每组获取2组随机样本

、

我有一只熊猫，DataFrame说：0 a 12 a 34 a910 c 1112 c 1314 c 15Set1，每组1个样本：3 a

浏览 7提问于2016-06-21得票数 1

回答已采纳

2回答

Python:命名占位符如何组织字符串数组中的数据？

、、、

我正在使用Firebase数据库。我正在阅读一个孩子，并接收以下数据：Connection = db.child(UniqueID).child("Devices").get()print(Data)print(Data[1])[None,{'DeviceAddress': '1', 'DeviceType': 'Heat', 'Status': 'Heat Alarm'}, {

浏览 19提问于2020-05-14得票数 1

回答已采纳

2回答

Pyspark:如何从spark数据帧中过滤10000个随机元素

、

如何从我的spark DataFrame中提取10000个元素的随机样本？我需要像Pandas中的示例函数这样的东西

浏览 101提问于2019-10-11得票数 2

回答已采纳

1回答

Python中的分组直方图

、

有没有一种简单的方法来创建由分类变量(cyl=4,8)过滤的连续变量(mpg)的直方图？因此，基本上我需要两个按cyl分组的mpg直方图，一个用于cyl=4，一个用于cyl=8。

浏览 2提问于2020-10-05得票数 0

2回答

在bash中提取排序类别中的随机唯一样本

、、、、

我有一个大的未排序的CSV文件(>4M记录)。每个记录都有一个类别，在前三列中对其进行了描述。记录的其余部分是地址数据，这些数据可能是唯一的，也可能不是唯一的。A1tC, 3, e, address3 # the category for this record is C3e我想在每个类别中抽取一个唯一记录的随机样本

浏览 4提问于2014-09-28得票数 1

回答已采纳

2回答

熊猫:在列中使用groupby if值是字典

、、

':809}IT {'lenovo':200, 'iphone':300, 'mac':200} 我需要群按类别和结果连接字典，并选择3个键与最大的值。接下来，获取dataframe，在列category中，我有唯一的类别，在列da

浏览 5提问于2016-10-12得票数 2

回答已采纳

1回答

有没有办法根据有序类别中的项目数量来过滤熊猫数据帧？

、、

基本上，我有一个pandas数据帧，它有一个不方便的有序类别字段，我甚至可能不知道类别值是什么，我只知道它是有序的，类别中有三个值： import pandas as pd dfs = pd.DataFrame'abbacabac'), categories=['a', 'b', 'c'], ordered=True), 'C2': [1,2,3,4,5,6,7,8,9]}) 例如，我可以

浏览 22提问于2020-09-16得票数 2

回答已采纳

2回答

创建Pandas Dataframe中由另一列分区的列的所有可能排列

、、、

我有这样的数据：我的目标是：解释：期望状态:获取按订单顺序购买的客户类别的所有可能排列。处于期望状态的Category1表示按第一阶购买的类别，Category2表示以二阶购买的类别，等等。我正在使用<em

浏览 3提问于2017-01-27得票数 3

1回答

Python按类别分组，然后按类别绘制

、、、、

很简单的熊猫问题，我是个初学者。我有一个dataframe 'df‘(例如)：df = pd.DataFrame({'time': ['2019-04-23 10:21:00', '2019-category': ['A', 'B', 'A'], 'text': ['njrnfrjn',

浏览 1提问于2020-04-26得票数 0

回答已采纳

1回答

熊猫数据按组回归，并添加具有预测值和β/t统计量的列。

、、、、

下面是我的dataframe的一个示例：0 Apple 0.083050996 0.164056482 0.519875358Carrot 0.588121494 0.750480977 0.615399987现在，我希望代码能够对每个类别(即，按类别分组的横截面回归(针对苹果

浏览 3提问于2017-02-08得票数 2

回答已采纳

1回答

获取DataFrame* Python类别的特定值*

、、

我希望将特定类别的特定值附加到列表中。下面是我的代码： amesData = pd.read_csv(fileName, usecols = ['Zip Code','Score']) for result inamesData['Zip Code']: listData = amesData['Score'] 这就是我正在尝试的，但当我打印listDa

浏览 5提问于2021-10-11得票数 0

2回答

命名实体识别黄金标准语料库的样本大小

、、、、

我有一个包含170部荷兰文学小说的语料库，我将在其中应用命名实体识别。为了评估现有的荷兰语NER标记器，我想在这个语料库的随机样本中手动标注命名实体-为此，我使用。在我对NER标记器的评估中，手动注释的随机样本将作为“黄金标准”。我编写了一个Python脚本，在句子级别输出我的语料库的随机样本。我的问题是:就每本小说的句子数量而言，随机

浏览 29提问于2016-11-22得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从Spark GroupedData对象中选择随机项目

TSQL随机样本

Python Pandas -从二进制数据中采样一定数量的个体

具有特定计数的Dataframe随机样本

混合数据类型的采样技术

运行唯一样本

MultiIndex DataFrame抽样

Python :每组获取2组随机样本

Python:命名占位符如何组织字符串数组中的数据？

Pyspark:如何从spark数据帧中过滤10000个随机元素

Python中的分组直方图

在bash中提取排序类别中的随机唯一样本

熊猫:在列中使用groupby if值是字典

有没有办法根据有序类别中的项目数量来过滤熊猫数据帧？

创建Pandas Dataframe中由另一列分区的列的所有可能排列

Python按类别分组，然后按类别绘制

熊猫数据按组回归，并添加具有预测值和β/t统计量的列。

获取DataFrame* Python类别的特定值*

命名实体识别黄金标准语料库的样本大小

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐