从数据中进行不规则抽样_从表中随机抽样_从截尾正态分布中抽样 - 腾讯云开发者社区

、、

我有一个如下的数据库： DT <- structure(list(Year = c(2005, 2005, 2005, 2005, 2005, 2005, 2005, )), row.names = c(NA, -90L), class = c("tbl_df", "tbl", "data.frame" )) 从这个DT中，类似于： DT_new <- setDT(DT)[,.S

浏览 21提问于2020-10-20得票数 0

回答已采纳

1回答

不规则网格到规则网格的插补

、、

我有一些非规则采样的一维数据(时间序列数据)，即非恒定采样率。我想把这些数据转换成一个定期抽样(统一抽样率)的时间序列。我看过几篇关于在不规则网格上使用匹配追踪进行插值的论文；但是，如何使用这种方法在规则网格上获取样本对我来说还不清楚(至少目前还不清楚)。对于从不规则网格到规则网格(一维数据)的插值算法，我将不胜感激。

浏览 4提问于2013-03-23得票数 1

1回答

我目前有一个应用服务器和一个数据库服务器都运行在Windows 2008 R2上。我的任务是每周编写一份关于CPU、内存和磁盘使用情况的报告。我计划在中使用默认性能监视数据收集集模板，并且想知道调度作业运行的最佳实践是什么？我倾向于将数据收集集从每周初开始，在结束时停止。这会不会太过分了？此外，性能监视会降低系统性能吗？我们的应用程序的使用很可能是非常不规则的。很多批处理工作在夜间进行，用户在早上上班时可能会进入系统，因此，我担心较小的抽样窗口会影响系统的真正利用率。此

浏览 0提问于2014-01-13得票数 2

回答已采纳

1回答

python中不规则高频时间序列数据的预处理

、、、、

最初在...posted中使用的StackOverflow (可能更适合这里)我正在处理不规则的、高频的时间序列数据.在一秒钟内，我可以有多个数据点，如下面的timestamp字段所示27:54.253" "timestamp": "2018-06-03T12:27:54.548" 我正在为这个时间序列数据开发一个抽样

浏览 0提问于2018-07-06得票数 1

2回答

如何从文本文档数据库中进行有效的抽样？

、、

问题:我想知道从数据库中执行有效抽样的方法。数据库的大小是关于250K文本文档的，在这种情况下，每个文本文档都涉及到一些专业(电气工程、医学等)。到目前为止，我已经看到了一些简单的技术，如简单随机样本和分层抽样；但是，出于以下原因，我认为应用它们并不是一个好主意：例如，在简单的随机抽样的情况下，数据库中有几个关于海军工程或艺术专业的文档。因此，我认为这种方法不太可能对它们进行抽样，但我希望尽可能地对每一个主要方面<

浏览 0提问于2015-03-11得票数 2

1回答

随机森林排样置换与特征抽样的目的

、、

在随机森林中，我们实际上使用了引导聚合，实际上，我们遵循两个步骤，比如用替换的行采样和创建引导示例的特性采样，实际上我的问题是 1)此行抽样和特征抽样的实际目的是什么？2)在带替换的行抽样中，同一行可以在引导样例中重复(如果我错了，请纠正我)，如果同一行出现了两次，它将如何影响我们的最终预测:是否需要进行替换/是否有必要进行替换？3)假设一个数据集包含7个特征，那么在特征抽样中，如果我们只从</em

浏览 5提问于2022-03-25得票数 -1

1回答

从不同的输入集中获取相同分布的数据

、、、

我正在尝试创建一个在多个列表之间平均分布的训练数据集，每个列表都有不同类型的数据。我该怎么做？我查看了GroupKMeansFold和StratifiedFold，但我并不完全理解它。[a1, a2, a3.... a10000] c = [c1, c2, c3.... c10000] 我希望我的训练，测试，和val数据有我还希望70%的培训数据在列表a、b、c之间均匀分布，与测试和val数据相同。我希望训练数据有来自a、b

浏览 0提问于2022-07-29得票数 1

1回答

Pyspark:对dataframe的示例进行计数，而不是整个dataframe。

、

我还有另一个实现，它测量运行此数据have的抽样版本所需的时间。sampled_df = df.sample(withReplacement=False, fraction=0.1)然后，我从抽样计数中推断出总体计数。但是，与对整个数据集进行计数相比，计算此抽样计数所需的时间总体上并没有减少。两者似乎都需要40秒左右。发生这种事有什么原因吗？另外，当使用抽样计数超过整个数据帧的

浏览 6提问于2022-08-09得票数 1

1回答

IPython /熊猫:是否有一种标准的方法来检测时间序列中的快速变化？

、

Noob数据分析师，分析了数千点(如此之小)的时间序列中的一些气体浓度。我用Matplotlib绘制了它，并且有一些很容易看到的变化迅速的点。在这些问题上，回家的标准/最简单的方法是什么？

浏览 2提问于2015-02-19得票数 2

回答已采纳

2回答

用过采样和交叉验证正确评价模型

、、

我的想法是应用某种抽样(过/下、击等)。来解决这个问题。将数据集划分为列车测试对简历中的“培训”部分进行抽样在“验证”上验证它在测试中评估性能我的疑问是:既然前者

浏览 0提问于2019-11-04得票数 1

1回答

滑雪板-过载问题

、、、

我正在寻找解决当前机器学习问题的最佳途径的建议我有脑电图数据的900+试验，每次试验都有1秒长。地面真相是已知的，并划分为状态0和状态1 (40-60%分裂)。我已经尝试过数据的规范化和标准化。标准化(SD = 1)不会改变训练或准确性分数。正常化(0-1)使我的训练准确度下降到0.6. 我为SVC尝试过不同的C和gamma设置，但是它们都不会改变分数。

浏览 0提问于2015-08-11得票数 9

1回答

我想使用套袋对数据集进行随机抽样。并在进一步分析中使用该数据集。我怎么能这么做？

、、

首先，我想在数据集中使用套袋进行采样。在此之后，我将使用反向传播算法进行训练和测试。假设我将从dataset中随机选择40%的数据来创建一个示例集。在此之后，我将再次从总数据集中提取40%的数据，并创建另一个数据集。抽样代码： sample = list() n_sample = round(len(dataset) * ratio)ind

浏览 6提问于2019-10-23得票数 2

回答已采纳

2回答

R分阶段抽样

、

我正在运行一些人口普查数据的抽样模拟，我想分两个阶段进行抽样。但是，我想从每个村庄的25个<em

浏览 1提问于2013-03-12得票数 1

回答已采纳

1回答

理解numpy中的分层抽样

、、

目前，我正在研究一个房地产数据集:每个实例都是加州的一个区，有几个属性，包括该地区的中等收入，其规模和上限为15。收入中值直方图显示，大多数收入中值集中在2至5之间，但有些数值远远超过6。作者希望根据收入中值进行分层抽样。他提供了创建收入类别属性的下一段代码。income_cat"] < 5, 5.0, inplace=True) 他解释说，为了限制类别的数量，他将median_income除以1.5，然后他只将这些类别低于5，并将所有其他类别合并到类别5中。

浏览 3提问于2019-04-06得票数 0

3回答

从大型数据集中进行抽样

、

我有一个有112 k行和2列的数据集。如何从该数据集中等量地进行采样，以获得一个类似10k行的小数据集？我的意思是等号，因为这个数据集有56k行，列名为True=1，56k行具有列´True=0`。谢谢

浏览 0提问于2021-05-19得票数 1

回答已采纳

1回答

使用随机()或表样系统()随机抽样黑斑羚中的n行

、

我想用Impala从表中随机抽取n行。我将n设为10000，并从超过2000万行的表中进行抽样。第二个选项创建了许多不同的“桶”，然后随机抽取至少1%的数据(在实践中，这似乎总是比提供的百分比大得多)。在这两种情况下，我只选择了10000行。在我的例子中，是随机抽样10K行的第一个可靠选项？数据的结构就是为什么整张表的随机抽样或洗牌对我来说非常重要的原因。每天都会向表中添加其他行。例如，其中一列是

浏览 5提问于2021-07-05得票数 0

1回答

AWS X-射线采样图不显示数据

、

为了查看更好的跟踪，我在AWS控制台中创建了一个采样规则，如下文所述，但是我无法在图中获得该采样规则的任何数据。我还尝试从代码中添加抽样规则，如下图所示如果您能引导我在抽样规则图中获取跟踪数据，我将非常感激。如果我创建一个新的抽样规则，是否也必须对代码进行更改？

浏览 5提问于2022-02-09得票数 0

1回答

不规则时间自相关的glmmTMB

、

我有数据收集在一个单一的网站在5月份，每年，4年。一年内的时间分辨率可以从几分钟(甚至同一分钟)到间隔几天不等。说ar1()结构需要一个规则的时间序列，但是ou(times + 0 | group)结构可以处理不规则的时间序列。这就是说--看起来times参数是一个因素--在不规则的时间结构中，它是如何工作的？-30L), class = c("tbl_df"

浏览 0提问于2018-10-21得票数 2

回答已采纳

2回答

不均匀间隔时间序列的建模

、、

我有一个连续的变量，在一年的时间里以不规则的间隔抽样。有些日子每小时有一次以上的观察，而其他几天没有任何观察。这使得在时间序列中检测模式变得特别困难，因为一些月(例如10月)是高度抽样的，而其他月份则不是。我的问题是，什么是最好的方法来建模这个时间序列？我可以聚合数据，以便有一个固定的样本，或者选择一个非常详细的数据子集。使用这两个选项，我将从原始数据集中丢失一些信息，这些信息可能会显示出不同的模式。我可以用整个数据集来填充模型，并期望它能够获取

浏览 0提问于2014-11-03得票数 15

2回答

如何控制一些病人在我的培训数据中提供多个样本？

、、

我有50个病人的数据集。这些病人经过多年的追踪，在某种程度上随机间隔地测量了几千个特征。我正试图预测一个特定的结果(这是一个回归问题)，这个结果可以是一次，两次，或者是每名患者在整个跟踪期间的三次。到目前为止，我一直假设每个结果特征都是Y向量中的一个数据点，并且使用最近的时间点来测量患者的特征。我希望我的最后一个模型能够从一个特性度量中预测结果变量，这就是为什么我可以忽略数据的时间方面。然而，我不知道如何控制这一事实，因为有些病人为我的培训数据贡献了2个甚至3个样本。这会不会影响我的模型

浏览 0提问于2018-07-09得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云