所以我有一个120行124列的数据集。相依列是人员的字符串名。总共有20个不同的名字。我希望从每个类中提取两行(因此为每个类提取具有相同名称的两行),以便我可以使用it.Any帮助创建一个测试集。谢谢
发布于 2020-08-25 04:37:31
您可以使用以下函数执行此操作:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,stratify =y)这里,
带有所有自变量的
X = Dataframe。
y =带有因变量的级数。
test_size =您希望作为测试大小的百分比,在这里是20%。
分层=所有类别的平等分布,在您的例子中,它的名称是20人。
https://stackoverflow.com/questions/63571699
复制相似问题