Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何将数据分成3部分: Python培训(70%)、验证(15%)和测试(15%),每个部分都有相似的目标率?

如何将数据分成3部分: Python培训(70%)、验证(15%)和测试(15%),每个部分都有相似的目标率?
EN

Data Science用户
提问于 2020-02-03 19:49:34
回答 2查看 9.5K关注 0票数 4

我正在做一个公司项目,我需要将数据划分为三个部分--培训、验证和测试(保留)。

是否有人知道我如何将上述数据分成3部分,每个部分将有相似的响应变量(目标率)-(分类的精度相似,回归的均数类似)。

我知道如何使用SKLEARN中的train_test_split函数将数据分成3部分

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn.model_selection import train_test_split

x, x_test, y, y_test = train_test_split(xtrain,labels,test_size=0.2,train_size=0.8)
x_train, x_cv, y_train, y_cv = train_test_split(x,y,test_size = 0.25,train_size =0.75)

但这并没有给出类似的目标率,有人能帮我吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-02-04 02:27:57

对于分类,可以使用stratify参数:

分层:数组样或无(default=None),如果不是无,数据以分层的方式分割,使用它作为类标签。

sklearn.model_selection.train_测试_拆分。例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
x, x_test, y, y_test = train_test_split(xtrain,labels,test_size=0.2, stratify=labels) 

这将确保在训练和测试数据之间的类分布是相似的。(旁注:我已经抛出了train_size参数,因为它将根据test_size__自动确定)

对于回归,据我所知,目前没有在scikit学习中实现。但是您可以找到关于交叉验证的讨论和手动实现这里这里

票数 3
EN

Data Science用户

发布于 2020-02-04 02:03:06

分裂成一个验证集,它不是在sklearn中实现的。但你可以用一种棘手的方法来做:

( 1)在第一步,你把X和y分开来训练和测试。

2)在第二步,您将您的培训集从前一步拆分为验证和较小的培训集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
X_train, X_test, y_train, y_test 
    = train_test_split(X, y, test_size=0.7, random_state=123)

X_train, X_val, y_train, y_val 
    = train_test_split(X_train, y_train, test_size=0.5, random_state=123)
票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/67489

复制
相关文章
1016 部分A+B (15 分)
正整数 A 的“DA(为 1 位整数)部分”定义为由 A 中所有 DA 组成的新整数 PA。例如:给定 A=3862767,DA=6,则 A 的“6 部分”PA 是 66,因为 A 中有 2 个 6。
可爱见见
2019/09/09
4070
1016. 部分A+B (15)
正整数A的“DA(为1位整数)部分”定义为由A中所有DA组成的新整数PA。例如:给定A = 3862767,DA = 6,则A的“6部分”PA是66,因为A中有2个6。
AI那点小事
2020/04/20
2410
1016. 部分A+B (15)
PTA 1016 部分A+B (15 分)
题目 正整数 A 的“D A (为 1 位整数)部分”定义为由 A 中所有 D A 组成的新整数 P A 。例如:给定 A=3862767,D A =6,则 A 的“6 部分”P A 是 66,因为 A 中有 2 个 6。 现给定 A、D A 、B、D B ,请编写程序计算 P A +P B 。 输入格式: 输入在一行中依次给出 A、D A 、B、D B ,中间以空格分隔,其中 0<A,B<10 9 。 输出格式: 在一行中输出 P A +P B 的值。 输入样例 1: 3
freesan44
2021/12/06
2120
PTA 1016 部分A+B (15 分)
题目 正整数 A 的“D A (为 1 位整数)部分”定义为由 A 中所有 D A 组成的新整数 P A 。例如:给定 A=3862767,D A =6,则 A 的“6 部分”P A 是 66,因为 A 中有 2 个 6。 现给定 A、D A 、B、D B ,请编写程序计算 P A +P B 。 输入格式: 输入在一行中依次给出 A、D A 、B、D B ,中间以空格分隔,其中 0<A,B<10 9 。 输出格式: 在一行中输出 P A +P B
freesan44
2021/08/21
1970
7-6 部分排序 (15 分)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
韩旭051
2019/11/08
9400
Python全栈Day 15部分知识点
  如果函数的内容无global关键字,优先读取局部变量,能读取全局变量,无法重新赋值,但是对于可变类型,可以对内部元素进行操作;如果有global关键字,变量本质上就是全局的那个变量,可读取可赋值。
py3study
2020/01/19
3040
PTA | 习题2-3 求平方与倒数序列的部分和 (15分)
在一行中按照“sum = S”的格式输出部分和的值S,精确到小数点后六位。题目保证计算结果不超过双精度范围。
C you again
2021/06/09
1.3K1
15.寻光集后台管理系统-产品信息-数据部分
直接使用框架提供的表格组件:frontend/src/components/scTable/index.vue
zx钟
2022/12/02
3670
15.寻光集后台管理系统-产品信息-数据部分
PAT (Basic Level) Practice (中文)1016 部分A+B (15 分)
正整数 A 的“D​A​​(为 1 位整数)部分”定义为由 A 中所有 D​A​​ 组成的新整数 P​A​​。例如:给定 A=3862767,D​A​​=6,则 A 的“6 部分”P​A​​ 是 66,因为 A 中有 2 个 6。
glm233
2020/09/28
4120
matlab测试部分,验证、确认和测试 – MATLAB 和 Simulink 解决方案 – MATLAB & Simulink
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/135031.html原文链接:https://javaforall.cn
全栈程序员站长
2022/09/06
5560
15 个目标检测开源数据集汇总
目标检测应当在这几年当中研究数量以及应用范围最广的一个领域,也持续的受到很多深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集,希望能给大家的学习带来帮助。
Python编程爱好者
2024/04/19
8330
15 个目标检测开源数据集汇总
个人总结的部分数据验证规则
正则表达式--验证手机号码:13[0-9]{9} 实现手机号前带86或是+86的情况: ^((\+86)|(86))?(13)\d{9}$ 电话号码与手机号码同时验证: (^(\d{3,4}-)?\d
用户7657330
2020/08/14
6940
15个目标检测开源数据集汇总
目标检测应当在这几年当中研究数量以及应用范围最广的一个领域,也持续的受到很多深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集,希望能给大家的学习带来帮助。
3D视觉工坊
2022/03/11
5.9K0
15个目标检测开源数据集汇总
SpringSecurity结合JwtToken验证(后端部分)
简介:本文在SpringSecurity基础公共之上,整合JwtToken功能,本文是后端部分。
GeekLiHua
2025/01/21
670
SpringSecurity结合JwtToken验证(后端部分)
筋肉机器人构造分成三个部分
变形金刚?那还不够炫拉,在此为您介绍「筋肉」机器人~ 印象中,机器人总是以电路和硬质的关节、骨架组成,透过电路讯号完成机器操作;而现在, 新一代的生物机器即将颠覆你的想像!伊利诺大学香槟分校(Uni
机器人网
2018/04/24
5410
筋肉机器人构造分成三个部分
python 面试题--3(15题)
答案:生成器是一种特殊的函数,使用yield语句来生成一个值,并且可以暂停和恢复执行。生成器可以按需逐个生成值,而不是一次性生成所有值,从而节省内存。
zhangjiqun
2024/12/14
680
python 面试题--3(15题)
LeetCode1013:将数组分成和相等的三个部分
题目位置:https://leetcode-cn.com/problems/partition-array-into-three-parts-with-equal-sum/
机智的程序员小熊
2020/03/25
1.7K0
Python3 编程实例(11 - 15)
古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少?
村雨遥
2022/06/15
5800
Python3 编程实例(11 - 15)
python部分基础
1,变量的命名应当符合什么规则? 由字母、下划线 和数字 组成不能以数字开头不能与关键字重名建议不要与内置函数或者类重名,不然会覆盖原始内置函 数的功能区分大小写如果 变量名 需要由 二个 或 多个单词 组成时每个单词都使用小写字母单词与单词之间使用 _下划线 连接 2,变量的类型有哪些? 整型 (int)浮点型(float)布尔型(bool) 真 True假 False复数型 (complex)字符串列表元组字典 3,Python中关键字有哪些?请至少写出10个 if、elif、else、while、
测试小能手
2022/11/07
8330
(15)Python时间
hankleo
2020/09/16
5330
(15)Python时间

相似问题

培训率为99%,验证分割精度不超过70%。

20

如何将可用数据分成培训和测试(信息安全)

10

如果数据是非平稳的,如何将数据分成培训、验证、测试数据集?

10

培训、测试和验证数据集

20

如何将数据集随机分成多个不同的集合:(训练70%:验证10%(可选):测试20%)?

30
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文