Loading [MathJax]/jax/input/TeX/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何将数据分成3部分: Python培训(70%)、验证(15%)和测试(15%)，每个部分都有相似的目标率？

问如何将数据分成3部分: Python培训(70%)、验证(15%)和测试(15%)，每个部分都有相似的目标率？
EN

Data Science用户

提问于 2020-02-03 19:49:34

回答 2查看 9.5K关注 0票数 4

我正在做一个公司项目，我需要将数据划分为三个部分--培训、验证和测试(保留)。

是否有人知道我如何将上述数据分成3部分，每个部分将有相似的响应变量(目标率)-(分类的精度相似，回归的均数类似)。

我知道如何使用SKLEARN中的train_test_split函数将数据分成3部分

from sklearn.model_selection import train_test_split

x, x_test, y, y_test = train_test_split(xtrain,labels,test_size=0.2,train_size=0.8)
x_train, x_cv, y_train, y_cv = train_test_split(x,y,test_size = 0.25,train_size =0.75)

但这并没有给出类似的目标率，有人能帮我吗？

machine-learning

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-02-04 02:27:57

对于分类，可以使用stratify参数：

分层:数组样或无(default=None)，如果不是无，数据以分层的方式分割，使用它作为类标签。

见sklearn.model_selection.train_测试_拆分。例如：

x, x_test, y, y_test = train_test_split(xtrain,labels,test_size=0.2, stratify=labels)

这将确保在训练和测试数据之间的类分布是相似的。(旁注:我已经抛出了train_size参数，因为它将根据test_size__自动确定)

对于回归，据我所知，目前没有在scikit学习中实现。但是您可以找到关于交叉验证的讨论和手动实现这里和这里。

票数 3

EN

Data Science用户

发布于 2020-02-04 02:03:06

分裂成一个验证集，它不是在sklearn中实现的。但你可以用一种棘手的方法来做：

( 1)在第一步，你把X和y分开来训练和测试。

2)在第二步，您将您的培训集从前一步拆分为验证和较小的培训集。

X_train, X_test, y_train, y_test 
    = train_test_split(X, y, test_size=0.7, random_state=123)

X_train, X_val, y_train, y_val 
    = train_test_split(X_train, y_train, test_size=0.5, random_state=123)

票数 3

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/67489

复制

相关文章

1016 部分A+B (15 分)

正整数 A 的“DA（为 1 位整数）部分”定义为由 A 中所有 DA 组成的新整数 PA。例如：给定 A=3862767，DA=6，则 A 的“6 部分”PA 是 66，因为 A 中有 2 个 6。

可爱见见

2019/09/09

4070

1016. 部分A+B (15)

正整数A的“DA（为1位整数）部分”定义为由A中所有DA组成的新整数PA。例如：给定A = 3862767，DA = 6，则A的“6部分”PA是66，因为A中有2个6。

AI那点小事

2020/04/20

2410

1016. 部分A+B (15)

PTA 1016 部分A+B (15 分)

题目正整数 A 的“D A （为 1 位整数）部分”定义为由 A 中所有 D A 组成的新整数 P A 。例如：给定 A=3862767，D A =6，则 A 的“6 部分”P A 是 66，因为 A 中有 2 个 6。现给定 A、D A 、B、D B ，请编写程序计算 P A +P B 。输入格式：输入在一行中依次给出 A、D A 、B、D B ，中间以空格分隔，其中 0<A,B<10 9 。输出格式：在一行中输出 P A +P B 的值。输入样例 1： 3

freesan44

2021/12/06

2120

PTA 1016 部分A+B (15 分)

python 数据结构

题目正整数 A 的“D A （为 1 位整数）部分”定义为由 A 中所有 D A 组成的新整数 P A 。例如：给定 A=3862767，D A =6，则 A 的“6 部分”P A 是 66，因为 A 中有 2 个 6。现给定 A、D A 、B、D B ，请编写程序计算 P A +P B 。输入格式：输入在一行中依次给出 A、D A 、B、D B ，中间以空格分隔，其中 0<A,B<10 9 。输出格式：在一行中输出 P A +P B

freesan44

2021/08/21

1970

7-6 部分排序 (15 分)

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

韩旭051

2019/11/08

9400

Python全栈Day 15部分知识点

　　如果函数的内容无global关键字，优先读取局部变量，能读取全局变量，无法重新赋值，但是对于可变类型，可以对内部元素进行操作；如果有global关键字，变量本质上就是全局的那个变量，可读取可赋值。

py3study

2020/01/19

3040

PTA | 习题2-3 求平方与倒数序列的部分和 (15分)

在一行中按照“sum = S”的格式输出部分和的值S，精确到小数点后六位。题目保证计算结果不超过双精度范围。

C you again

2021/06/09

1.3K1

15.寻光集后台管理系统-产品信息-数据部分

python http api 迁移腾讯云测试服务

直接使用框架提供的表格组件:frontend/src/components/scTable/index.vue

zx钟

2022/12/02

3670

15.寻光集后台管理系统-产品信息-数据部分

PAT (Basic Level) Practice （中文）1016 部分A+B (15 分)

正整数 A 的“DA（为 1 位整数）部分”定义为由 A 中所有 DA 组成的新整数 PA。例如：给定 A=3862767，DA=6，则 A 的“6 部分”PA 是 66，因为 A 中有 2 个 6。

glm233

2020/09/28

4120

matlab测试部分,验证、确认和测试 – MATLAB 和 Simulink 解决方案 – MATLAB & Simulink

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/135031.html原文链接：https://javaforall.cn

全栈程序员站长

2022/09/06

5560

15 个目标检测开源数据集汇总

测试对象模型数据开源

目标检测应当在这几年当中研究数量以及应用范围最广的一个领域，也持续的受到很多深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集，希望能给大家的学习带来帮助。

Python编程爱好者

2024/04/19

8330

15 个目标检测开源数据集汇总

个人总结的部分数据验证规则

正则表达式--验证手机号码:13[0-9]{9} 实现手机号前带86或是+86的情况: ^((\+86)|(86))?(13)\d{9}$ 电话号码与手机号码同时验证: (^(\d{3,4}-)?\d

用户7657330

2020/08/14

6940

15个目标检测开源数据集汇总

http 腾讯云测试服务图像识别图像处理区块链

目标检测应当在这几年当中研究数量以及应用范围最广的一个领域，也持续的受到很多深度学习者们的关注。本文收集和整理了15个目标检测相关的开源数据集，希望能给大家的学习带来帮助。

3D视觉工坊

2022/03/11

5.9K0

SpringSecurity结合JwtToken验证(后端部分)

后端接口配置 string 对象

简介：本文在SpringSecurity基础公共之上，整合JwtToken功能，本文是后端部分。

GeekLiHua

2025/01/21

670

SpringSecurity结合JwtToken验证(后端部分)

筋肉机器人构造分成三个部分

机器人人工智能 bash nat

变形金刚？那还不够炫拉，在此为您介绍「筋肉」机器人～印象中，机器人总是以电路和硬质的关节、骨架组成，透过电路讯号完成机器操作；而现在，新一代的生物机器即将颠覆你的想像！伊利诺大学香槟分校（Uni

机器人网

2018/04/24

5410

python 面试题--3(15题)

对象继承异常装饰器 python

答案：生成器是一种特殊的函数，使用yield语句来生成一个值，并且可以暂停和恢复执行。生成器可以按需逐个生成值，而不是一次性生成所有值，从而节省内存。

zhangjiqun

2024/12/14

680

python 面试题--3(15题)

LeetCode1013：将数组分成和相等的三个部分

go https 编程算法网络安全

题目位置：https://leetcode-cn.com/problems/partition-array-into-three-parts-with-equal-sum/

机智的程序员小熊

2020/03/25

1.7K0

Python3 编程实例（11 - 15）

古典问题：有一对兔子，从出生后第3个月起每个月都生一对兔子，小兔子长到第三个月后每个月又生一对兔子，假如兔子都不死，问每个月的兔子总数为多少？

村雨遥

2022/06/15

5800

Python3 编程实例（11 - 15）

python部分基础

python 编程算法

1，变量的命名应当符合什么规则？由字母、下划线和数字组成不能以数字开头不能与关键字重名建议不要与内置函数或者类重名，不然会覆盖原始内置函数的功能区分大小写如果变量名需要由二个或多个单词组成时每个单词都使用小写字母单词与单词之间使用 _下划线连接 2，变量的类型有哪些？整型 (int)浮点型（float）布尔型（bool）真 True假 False复数型 (complex)字符串列表元组字典 3，Python中关键字有哪些？请至少写出10个 if、elif、else、while、

测试小能手

2022/11/07

8330

(15)Python时间

hankleo

2020/09/16

5330

相似问题

培训率为99%，验证分割精度不超过70%。

20

如何将可用数据分成培训和测试(信息安全)

10

如果数据是非平稳的，如何将数据分成培训、验证、测试数据集？

10

培训、测试和验证数据集

20

如何将数据集随机分成多个不同的集合：(训练70%：验证10%(可选)：测试20%)？

30

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例