专栏首页大数据风控Python中如何实现分层抽样

Python中如何实现分层抽样

Python中如何实现分层抽样

在我们日常的数据分析工作中,常用到随机抽样这一数据获取的方法。

如果我们想在一个大的数据总体中,按照数据的不同分类进行分层抽样,在Python中如何用代码来实现这一操作呢。

下面我们要进行分层抽样的应用背景:

随机抽取2017年重庆市不同区域高中学生的高考成绩。

这里数据总体为2017年重庆市所有区域高中的学生高考成绩。

分层抽样按照区域分类。

设沙坪坝区为1,渝北区为2,南岸区为3(作为方法展示,只列出三个区,实际分析中按照抽样方法添加参数即可

代码实现:

#分层抽样
gbr = data.groupby("area")

gbr.groups

typicalFracDict = {
    1: 0.2, 
    2: 0.4, 
    3: 0.6
}

def typicalSampling(group, typicalFracDict):
    name = group.name
    frac = typicalFracDict[name]
    return group.sample(frac=frac)

result = data.groupby(
    'area', group_keys=False
).apply(typicalSampling, typicalFracDict)

由此,即实现了将重庆市2017年不同区域学生高考成绩按照不同区域的比例进行随机抽取,以方便完成后续的数据分析。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何在Python中实现矩阵分析

    矩阵分析 根据事物(如产品,服务等)的两个重要属性(指标)作为分析依据,进行关联分析,找出解决问题的一种分析方法。 如何使用Python进行矩阵分析呢 各个省份...

    Erin
  • 如何在R中绘制热力地图

    一、首先绘画出地图map 地图(map) 按一定的比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、 行政区域、社会经济状况的图形。 地...

    Erin
  • R中如何用ifelse进行数据分组

    数据分组,根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间部分来研究,以揭示内在的联系和规律性; 在R中,我们常用ifelse函数来进...

    Erin
  • 美国机器人杀人事件有了新进展…

    当人们谈论机器与工作的时候,他们担心的是自己“养家糊口”的手艺被机器抢走,但是有时候,抢走的也许是你的性命。据美国石英财经网(Quartz)3月13日报道,美国...

    机器人网
  • 十张图,让你看懂互联网企业与传统企业思维的本质区别#互联网思维,药不能停#

    “长江后浪推前浪,前浪就快死在沙滩上”!随着互联网浪潮的汹涌来袭,传统企业生出了浓浓的危机感。 面对互联网,他们总有一种快被时代抛弃的感觉。孕育于互联网浪潮中的...

    小莹莹
  • 最新SCI影响因子发布!Nature屠榜,AI领域Top 1000期刊盘点

    Clarivate Analytics发布了最新年度期刊引用报告(JCR),2018年度共有12538种期刊被收录(不过有25本期刊的影响因子为 0),其中影响...

    磐创AI
  • 最新SCI影响因子发布!Nature屠榜,AI领域Top 1000期刊盘点

    Clarivate Analytics发布了最新年度期刊引用报告(JCR),2018年度共有12538种期刊被收录(不过有25本期刊的影响因子为 0),其中影响...

    新智元
  • 【图说】互联网企业与传统企业思维的本质区别

    用户1756920
  • 如何使用Putty登录安装在VirtualBox里的ubuntu

    在VirtualBox里操作ubuntu的终端不是很方便,比如我想在Windows里复制一些命令到ubuntu的终端执行。而Putty默认即可支持这个跨系统的复...

    Jerry Wang
  • Linux 下 Bugzilla 的安装及配置

    Bugzilla 是一个基于 Web 的,开源的,用来记录跟踪缺陷数据库的 bug 跟踪软件。它可以管理软件开发中缺陷的提交(new)、修复(resolve)和...

    悠风

扫码关注云+社区

领取腾讯云代金券