Python中具有特定条件的数据集的A/B拆分_具有特定条件的pandas中的数据帧_仅使用A和B中的级别过滤数据集B - 腾讯云开发者社区

python、machine-learning

我的目标是将一个包含9列的数据集划分为两个不同的分层数据集。七列必须分层，另外两列必须以特定的方式拆分。我检查了A/B拆分库，但没有找到，所以我只使用了sklearn.model_selection.train_test_split，并设置了test_size=0.5，以便使两个数据集具有相同的长度。作为y，我通过了必

浏览 15提问于2019-02-01得票数 0

2回答

Hadoop中映射函数的输入分割

python、hadoop、hadoop-streaming、hadoop2、hadoop-partitioning

这是我在Hadoop中的第一个实现。在地图约简中，我试图实现概率数据集的算法。在我的数据集中，上一列将有一些id( dataset中唯一id的数量等于集群中的节点数)。我必须根据这个列值来划分数据集，集群中的每个节点都应该处理每一组记录。我只是想了解一下，在Hadoop中哪种方法是可能的。要么

浏览 1提问于2014-09-08得票数 1

回答已采纳

1回答

通过基于特定条件比较所有行来查找数据框中的匹配行

python-3.x、pandas、dataframe

我是python的新手，如果有人能为我指引正确的方向，我将不胜感激。我有一个数据集，它的每一行都有唯一的交易。我需要找到符合特定条件的所有行。基本上，找到符合特定条件的任何补偿交易。例如：找到具有相同REF_RATE的交易，收到的差值在5，MATURITY_DATE与彼此的差值为7天。我已经附上了数据<em

浏览 17提问于2021-01-27得票数 0

2回答

数据中的模式匹配，并创建满足python中模式条件的csv

python、python-3.x、pandas、csv、data-cleaning

我正在处理一个数据集，就像下面的附图所示。我已经使用pandas在Python中导入了CSV格式的数据集。我正在寻找分离整个数据与所有列中的值，如"a;b;c"，"lp;kl;jj“在列PATR (即，其中有分号的数据)到一个csv和其他值，如";”和"250“到一个单独的CSV。我尝试过根据分号拆分</

浏览 21提问于2018-02-07得票数 0

回答已采纳

1回答

将数据随机混洗，然后将其分成训练集和测试集的有效方法？

python-2.7、python-3.x

我正在编写一段关于机器学习的python代码，其中我必须随机地将100000个样本和拆分的数据放入训练和测试集。我已经将数据存储到两个numpy数组中。如果我使用下面的命令，它太耗时了。c=zip(a,b)a,b = (*c) 其中a和b是两个numpy数组。有没有什么有效的方法可以随机地对数据进行混洗，然后将其分成训练

浏览 0提问于2017-04-26得票数 0

1回答

pandas处理包含多个用分隔符分隔的值的列以进行数据分析

pandas

下面是一个python自学程序，它试图找到一种处理具有多个值的列的方法。数据集是TMDb电影数据集，并且有多个值列，如流派、演员等。我设法拆分值并计算它们，这是可以的。但是，如果我想了解流派和流行程度之间的关系，该怎么办呢？如何在适当的拆分过程后对所有流派进行分组？ dataset looks like this:

浏览 44提问于2020-04-15得票数 0

回答已采纳

1回答

在创建多个2D数组的一维列表时，第一个附加到列表中的数组使其成为三维数组。为什么？

python、arrays、pandas、append、train-test-split

我有一个多个熊猫数据列表，我想用它来创建一个训练集和一个测试集。为此，我定义了一个train_test_split函数，该函数拆分数据集，现在正在尝试创建一个函数，该函数从这个拆分中定义testX和testy数据集。len(dataset)-n_test, len(dataset)): return trainset, testset 在此

浏览 4提问于2022-10-17得票数 0

1回答

提高Python复制大型数据集的效率

python、performance、random-forest

我在用Python实现随机森林时遇到了一点麻烦。请记住，我很清楚Python不是用来高效处理数字的。这一选择更多的是基于对Python的更深入的理解和更多的经验。说到这里，我很好奇这里是否有人能对我的实现提出一些性能改进的建议。通过分析器运行它，很明显大部分时间都花在执行list "append“命令和我的数据集拆分操作上。本质上，我有

浏览 0提问于2012-03-16得票数 1

1回答

Php，我需要删除数组中的特定文本，稍后我需要预先添加它

php、arrays、codeigniter、object

我尝试了foreach循环和array_search的数据，后来取消了它，但不起作用。数据在对象中有数组。函数，并使用一个模型来获取数据。design, 'url is $currentSizeArray = array(); } 数据输出如下所示currentSizeData[$currentSizeArrayCount])

浏览 8提问于2021-10-12得票数 -1

1回答

根据不同相关行的可靠限制选择分页联接行

sql、sql-server、join、distinct、sql-server-2017

假设Server 2017数据库有四个表：A、B、C和D。表D引用具有外键约束的C，将C引用到B，将B<code>E 217</code>引用到<code>E 118</code>A<code>E 219</code>。其目的是将每个表合并在一起，选择满足特定条件的INNER JOIN D中的所有行，但只选择表A<e

浏览 0提问于2018-06-12得票数 3

回答已采纳

1回答

为什么这个正则表达式不能工作？

python、html、regex

我有一个解析HTML代码的函数，所以它很容易读和写。为了做到这一点，我必须使用多个分隔符拆分字符串，正如您所看到的，我使用了re.split()，无法找到更好的解决方案。这使我相信我的正则表达式写得不正确。取而代之的应该是什么？if re.search("b'", data): lines = re.split(r'\r|\n', data) # This c

浏览 3提问于2014-02-20得票数 0

回答已采纳

2回答

训练/测试拆分保留每个拆分中的类别比例

python、machine-learning、train-test-split

假设我想拆分如下所示的NER数据集：Label: ['B-Person', 'O', 'O', 'O', 'O', 'Country'] 是否有任何python库或算法可以确保训练和测试数据集的每个类分布是

浏览 1提问于2020-10-14得票数 1

1回答

将数据集(CONLL格式)拆分为开发、训练和测试

python、machine-learning、dataset、conll

我有一个遵循CONLL格式的数据集，带有令牌级注释。token label, Oactivities I-claimme I-claim空行将文件中的句子隔开。在机器学习模型中，每个句子都被视为实例。我想将数据集分为训练、测试和开发，但要确保数据集之间没有句子拆分

浏览 7提问于2021-07-21得票数 0

1回答

在使用java的Spark 3.1中，将Spark数据集拆分为相等数量的数据集

java、apache-spark

我有一个具有许多no行的数据集，并且我正在该数据集中执行collect_list操作。我得到了像Cannot grow BufferHolder; exceeds size limitation一样的错误。这是因为我的collect_list结果列大小超过了2 2GB。因此，我希望将此数据集拆分为多个数据集，并尝试对其执行相同的collect_list操作(以减少

浏览 84提问于2021-08-30得票数 1

1回答

如何分割json数据集并保存它？

python、json、split、pytorch

我拿了一个json数据集。Dataset名称为v2_OpenEnded_mscoco_train2014_questions.json，如何将数据集中的某些数据拆分并保存到另一个json文件中？这是我的数据集的示例： {"image_id"：426004，“问题”：“盘子上有多少个小圆面包？”、"question_id"：92846003}、{"i

浏览 3提问于2021-02-28得票数 2

回答已采纳

1回答

是否有一种方法可以组合多个ML模型，其中每个模型使用具有不同功能的数据集？

machine-learning、dataset、ensemble-modeling、features

我有一个数据集，其中某些特性(c，d)只适用于某一特性(a)是特定值时。例如T, 60, 0x018, 3252002711U, 67, ,因此，我计划拆分数据集，这样就不会丢失值。a, b, c, dT, 66, 0x018, 15556U, 167然后把它们放到单独的

浏览 0提问于2022-03-26得票数 0

2回答

根据OID按类拆分数据帧

r、dataframe、split、dplyr

我尝试按类将数据帧拆分为50%。但是，我不想拆分具有相同OID (对象标识符)的字段。我希望具有相同OID的字段位于同一集合中。#Data frame: 110 134 119 "tree"

浏览 12提问于2019-12-14得票数 2

回答已采纳

2回答

矩阵上带百分比的Numpy分裂

python、python-3.x

我有一些问题需要理解以下代码，而且我对python还不熟悉： [int(0.7 * len(original_data)), int(0.9*len(original_data))]) 所以我的原始数据集有一个完整的在这个拆分方法之后，data_a有26

浏览 2提问于2018-12-15得票数 3

回答已采纳

3回答

scikit中的StratifiedKFold vs KFold -学习

python、machine-learning、scikit-learn

X,y):print("KFold done") 我发现StratifiedKFold可以保持标签的比例

浏览 0提问于2020-12-16得票数 5

回答已采纳

1回答

熊猫，科学工具包.分体训练和有条件的测试

python、pandas、scikit-learn

我有一个dataframe，data，具有以下结构(我的实际上要大得多，但这只是为了说明)：A 3 2 4A 5 3 3B 2 4 3B 4 1 1C 1 3 4我正在使用scikit-learn来拆分数据：但

浏览 3提问于2020-01-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云