将DataFrame分层采样为N个拆分而不进行替换

、

假设我有一个数据帧X，我想把它分成N个数据帧，这样每个数据帧的分布大致相同(即分层) 做这件事的最好方法是什么？

浏览 21提问于2020-12-08得票数 0

1回答

分组差别化采样率

、、、

对于机器学习模型训练，我尝试对具有分组变量的数据帧进行采样，以便用不同的采样规则处理每个组。例如，我的数据：对于规模小于3的组，我想取整个组而不是更多，对于更大的组，我想取大小为3的样本而不进行替换。因此，这里的结果可能是：df[c(1:3

浏览 7提问于2019-10-30得票数 2

回答已采纳

0回答

基于计数列对pandas数据帧进行下采样

、

我有一个类似下面的成千上万的数据框架，虽然要大得多(1000000行，100列)。，并生成一个新的数据帧，这样计数的和应该只等于N。这意味着我想基于作为权重的计数值随机采样，并用这个新的重新采样的数据生成一个新的数据帧，这样计数的和就是N。pd.DataFrame({'col

浏览 6提问于2018-07-11得票数 4

回答已采纳

1回答

从每个组获得最大数目的Sample_n

、、

使用下面这个非常简单的数据示例，我的目标是对所有3个A进行采样，而只对7个B中的5个进行采样。rep("B", 7)))sel_5 <- ex_df %>% sample_n(5) 错误：size必须小于或等于2(数据大小)，将</em

浏览 0提问于2018-07-15得票数 2

1回答

C4.5算法是如何处理连续数据的？

、、、、

有人能给我一个更详细的解释吗？

浏览 5提问于2013-03-26得票数 4

3回答

熊猫数据分层分割成训练、验证和测试集

、、、、

以下非常简化的DataFrame表示包含医学诊断的大得多的DataFrame：4 positive6 negative8 negative问题:对于机器学习，我需要以以下方式将这个数据帧随机分成三个子帧： training

浏览 0提问于2018-06-10得票数 12

回答已采纳

2回答

在蟒蛇科学知识中，分层和StratifiedKFold有什么区别？

、、、

分层保证了列车测试和测试集在目标变量上的数据比例是相等的。像在容器中一样，等量的'1‘和'0'？请参阅下面的代码以进行澄清。

浏览 0提问于2018-01-23得票数 0

回答已采纳

2回答

无重复ID分层随机抽样

、、

我有一个数据集，每个id都有多个样本，可以分层为group变量。我想做随机抽样，按group分层，但不要重复id (即每个id只在输出中出现一次)。我试图修改一些现有的解决方案，但是，所有这些解决方案似乎都是对数据进行采样，并包括来自一个组的单个id的多个样本： E 3 60 是否有方法自

浏览 1提问于2021-07-19得票数 2

回答已采纳

1回答

Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？

、、、

SampleByKey的采样方法是将键转换为散列，从中派生一个双精度值，然后根据提供的概率对其进行测试。密钥派生的双精度值在0到1之间均匀分布，代码为。具有相同键的所有行都以这种方式进行采样。我有一个Dataframe，它是通过对多个dataframe执行联合操作而形成的(它们都有相同的模式)。我感兴趣的是，每个单独的数据帧都有一个column X，并在其中表示一个</em

浏览 0提问于2020-06-03得票数 0

2回答

使用vim将"\n“放入我的.c或.cpp文件中

我正在使用vim在c/c++中编写程序，我想知道如何在代码中添加"\n“(代表换行符)或使用:%s使用"%”。例如，有时我忘记在很多行中把"%“放在"d”或"f“前面，或者在一些printf()调用中忘记把”n“放在前面。但是下面的命令不起作用，它在"\n“的位置放了一个空格！ :%s/\<code.\>/code.\n</em

浏览 0提问于2014-05-09得票数 0

1回答

改进小型不平衡数据集的机器学习性能

、、

在我的项目中，我一直在将ML应用于一个小的不平衡数据，其中包括8个特性和297个实例，其中44个为正实例，253个为负实例。首先，我使用分层抽样将整个数据集分成一个训练集(80%)和一个测试集(20%)。其次，将训练集过度采样为均衡训练集，采用随机抽样替换或平滑，并应用信息增益特征选择来减少均衡训练集的特征。再

浏览 0提问于2022-01-02得票数 1

1回答

训练SVM模型时出错:错误:结果中的一个或多个因子级别没有数据：'2‘

、、

Error: One or more factor levels in the outcome has no data: '2' 我在这个网站上看到了一个类似的帖子，但没有一个人有我想要的答案

浏览 33提问于2020-11-24得票数 0

回答已采纳

1回答

使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？

、、、

我有15个样本，要做回归分析有点小。这是我的问题。Q1:用引导技术将15个样本重采样到1000个有统计学意义吗？谢谢。

浏览 3提问于2017-11-05得票数 1

回答已采纳

4回答

sklearn train_test_split on pandas按多列分层

、、

我是一个相对较新的sklearn用户，在sklearn.model_selection的train_test_split中遇到了一些意想不到的行为。我有一个熊猫数据框架，我想将其拆分成训练和测试集。我创建了一个示例测试来显示此行为：a = np.array([i for i in range(1000000)])c = [i%5 for i in a] df = pd.<

浏览 0提问于2017-08-05得票数 37

1回答

理解loc命令

、

return df df1 = pd.DataFrame({"First Name": ['Alex', 'n.a.但是，什么是等于n.a。在最后？通过在前面提到的dataframe上运行函数，它基本上返回相同的dataframe，而不更改任何内容。由于这个原因，我试图拆分函数，以单独检查它。def func2(df):

浏览 12提问于2022-08-30得票数 1

回答已采纳

1回答

学习StratifiedKFold实现

、、、、

sampling_strategy='minority',random_state=0) 当我有y_ros_test时，为什么要用9 0's和9 1's来获取n_splits=5？

浏览 1提问于2021-01-06得票数 0

回答已采纳

1回答

我有一个带有列location的dataframe，如下所示：在屏幕截图中，您可以看到location列中有5个空格的情况，但是有更多带有3和4个空格的单元格，而最常见的情况是只有两个空格:我需要执行str.split() on location列，但是由于空格的数量不同，它将不能工作，因为如果我用空空间或逗号替换空格，就会得到不同数量的潜在拆分。因此，我需要找到一种方法，将位于城市名称中的空间转换为连字符，以便以后能够<

浏览 3提问于2022-06-24得票数 0

回答已采纳

1回答

基于目标变量及其聚类将熊猫划分为训练、测试和验证集。

、、、

我有一个带有一些特性的dataframe和一个属于{0,1}的目标列。我需要将这个数据集分成训练、测试和验证集。验证部分必须是数据集的20%，其余的80%必须拆分，以便80%的数据集进入培训集。我的问题是，拆分必须以分层的方式进行，必须基于为两个目标值计算的集群。 clusters_0 = kmeans_0.predict(ze

浏览 3提问于2022-04-12得票数 1

回答已采纳

2回答

在OpenGL的片段着色器中获取原始纹理颜色

、、、、

因此，我需要制作一个着色器来用给定的颜色替换纹理中的灰色。如果我将颜色设置为给定的特定颜色，片段着色器将正常工作，例如然而，当我尝试检索纹理的原始颜色时，我得到了一个错误。我认为问题在于我不确定如何将纹理作为参数(传递给统一变量)。我当前使用的是ID (整型)，但它似乎总是返回黑色。所以我基本上不知道如何设置均匀纹理的值(或者以任何其他方式获得它，而不使用参数)。

浏览 2提问于2013-06-12得票数 4

回答已采纳

2回答

音频样本从时域到频域的转换

、、、、

我试图做的是用44100采样率对环境声音进行采样，并对固定大小的窗口进行测试，以测试特定频率(20 the )是否存在并高于阈值。以下是我根据中的完美答案所做的事情float samples[numberOfSamples] = ListenMic_Function(numberOfSamples,samplingRate); 窗口大小或FFT大小为10

浏览 6提问于2012-08-19得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

分组差别化采样率

基于计数列对pandas数据帧进行下采样

从每个组获得最大数目的Sample_n

C4.5算法是如何处理连续数据的？

熊猫数据分层分割成训练、验证和测试集

在蟒蛇科学知识中，分层和StratifiedKFold有什么区别？

无重复ID分层随机抽样

Scala Spark :在Spark中有没有datafu.pig.sampling.SampleByKey的替代品？

使用vim将"\n“放入我的.c或.cpp文件中

改进小型不平衡数据集的机器学习性能

训练SVM模型时出错:错误:结果中的一个或多个因子级别没有数据：'2‘

使用引导增加样本计数有意义吗？那麽，怎样才能做到呢？

sklearn train_test_split on pandas按多列分层

理解loc命令

学习StratifiedKFold实现

如何在熊猫栏中发现删除空格

基于目标变量及其聚类将熊猫划分为训练、测试和验证集。

在OpenGL的片段着色器中获取原始纹理颜色

音频样本从时域到频域的转换

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐