随机抽样组

是指在统计学中，通过随机抽取样本的一组个体或观察值。这种抽样方法可以确保样本具有代表性，从而推断出总体的特征。

随机抽样组的分类包括以下几种：

简单随机抽样：从总体中随机选择n个个体作为样本，每个个体被选中的概率相等，且相互独立。
系统抽样：按照一定的规则从总体中选择个体作为样本，例如每隔k个个体选择一个。
分层抽样：将总体划分为若干层，然后从每层中随机抽取样本，以保证每个层次的代表性。
整群抽样：将总体划分为若干个互不相交的群体，然后随机选择部分群体进行抽样。
多阶段抽样：将抽样过程分为多个阶段，先从总体中选择一些群体，再从选中的群体中选择个体作为样本。

随机抽样组的优势包括：

代表性：通过随机抽样，样本能够较好地代表总体的特征，从而推断总体的参数。
可重复性：随机抽样可以重复进行，从而可以进行多次研究或比较不同时间点的数据。
统计推断：通过对随机抽样组的统计分析，可以对总体进行推断，得出结论。

随机抽样组的应用场景包括：

市场调研：通过随机抽样组进行问卷调查或访谈，了解消费者的需求和偏好。
医学研究：通过随机抽样组进行临床试验，评估新药的疗效和安全性。
社会调查：通过随机抽样组进行人口普查或社会调查，了解社会现象和问题。
质量控制：通过随机抽样组进行产品抽检，评估产品质量是否符合标准。

腾讯云相关产品和产品介绍链接地址：

云服务器（ECS）：提供弹性计算能力，支持多种操作系统和应用场景。详情请参考：https://cloud.tencent.com/product/cvm
云数据库MySQL版（CDB）：提供高可用、可扩展的MySQL数据库服务。详情请参考：https://cloud.tencent.com/product/cdb_mysql
人工智能平台（AI Lab）：提供丰富的人工智能算法和模型，支持图像识别、语音识别等应用。详情请参考：https://cloud.tencent.com/product/ai
物联网套件（IoT Hub）：提供物联网设备接入和管理的解决方案，支持海量设备连接和数据处理。详情请参考：https://cloud.tencent.com/product/iothub
云存储（COS）：提供安全可靠的对象存储服务，适用于图片、视频、文档等各种类型的数据存储。详情请参考：https://cloud.tencent.com/product/cos
区块链服务（BCS）：提供快速搭建和管理区块链网络的解决方案，支持智能合约和数据上链。详情请参考：https://cloud.tencent.com/product/bcs
腾讯会议：提供高清音视频通信和会议协作的解决方案，支持多人在线会议和屏幕共享。详情请参考：https://meeting.tencent.com/

请注意，以上仅为腾讯云的部分产品示例，更多产品和详细信息请参考腾讯云官方网站。

页面内容是否对你有帮助？

有帮助

没帮助

机器学习中的超参数整定

超参数整定和k-神经网络算法有什么区别？k-NN也是一种超参数整定吗？

浏览 0提问于2018-04-05得票数 1

回答已采纳

2回答

例如，我如何在data.table中随机抽样三个组，以使结果包含具有原始data.table中的所有行的三个组？ library(data.table) dat <- data.table(ids=1:20, groups=sample(x=c("A","B","C", "D", "E", "F"), 20, replace=TRUE)) 我知道如何从data.table中随机选择10行： dat.sampl1 <- as.data.table(sapply(dat[], sample

浏览 3提问于2018-05-15得票数 0

2回答

重采样变长组，使组长度相等(R，dplyr)

、

我有一个数据集，其中组间的行数可能有所不同。我需要在每一组中随机抽样并替换，这样行数就等于预定的值。下面我有一个示例DATA和所需的RESULT表。在本例中，我需要随机抽样每个组，以便每个SITE有4行。此外，由于SITE$A已经有4行，所以不应该重新采样。请注意RESULT表如何保持STUFF:STUFF3列之间的数据顺序。我更喜欢使用dplyr的答案，因为我广泛使用这个包，但我对其他解决方案持开放态度。 NUMBER = 4 DATA = data.frame(SITE = c("A","A","A","A"

浏览 1提问于2015-03-28得票数 1

回答已采纳

2回答

为什么随机蒙特卡罗抽样而不是均匀抽样？

、、

为什么使用蒙特卡洛随机抽样而不是均匀抽样是如此普遍呢？我假设随机抽样会带来一些好处，但我不知道它们会是什么。有谁能解释随机抽样位置比均匀样本位置的优势吗？

浏览 0提问于2016-08-18得票数 8

回答已采纳

1回答

如何构建特定的语料库算法指令？

、、

我正在做一个项目，我需要建立一个算法句子的语料库。换句话说，我需要一个由句子组成的语料库，其中每个句子都是用自然语言英语表达的算法指令。示例：赋值为5到X乘以变量X乘以5声明一个名为Z的变量我做了一些研究，我发现谷歌的BigQuery -堆栈溢出。我仍在探索它，我不确定它是否会对我有帮助。我正在考虑网页爬行堆栈溢出，但它看起来非常嘈杂作为一个来源。在这种情况下，没有现成的数据集或API吗？你知道有任何网站的算法指令，我可以在网上爬行吗？任何想法都比欢迎的更多，请帮助我！

浏览 4提问于2019-10-08得票数 0

回答已采纳

4回答

熊猫样本行数据与栏中计数的比例

、

我有一只大约一千万排的大熊猫数据。每个特征向量表示一个特征向量。特征向量以自然组形式出现，组标签位于一个名为group_id的列中。我想随机抽样10%，比如行，但与每个group_id的数目成比例。例如，如果group_id's是A, B, A, C, A, B，那么我希望一半的抽样行具有group_id A，六分之一的行具有group_id B，六分之一的行具有group_id C。我可以看到熊猫的功能，但我不知道如何使用它来实现这个目标。

浏览 5提问于2017-09-03得票数 17

回答已采纳

1回答

从大型组合发电机随机抽样

、、、

在较高的级别上，我试图从列表中对n个项目的所有组合中的n_samples项进行示例。在n个较小的值和相对较小的列表长度(n <= 5，len( list ) < 75)的情况下，这很好--我只需使用迭代工具生成组合，转换为列表，并使用random.sample随机抽样正确的数字。但是，我的用例要求我生成组合，随机抽样数千个元素，然后从列表中删除其中一个组合，然后从较小的列表中重新开始。这在n和len( list )的高值下产生了一个问题--有120个列表项，n= 5，这意味着我必须多次进行列表转换，从而成为生成器->列表转换对1.9亿项生成器的时间限制。这需要非常长的时间

浏览 3提问于2019-04-30得票数 7

回答已采纳

1回答

Maximo中的随机抽样工单

我想随机抽样在Maximo的工作订单基于一个良好的数据。目前，我们每月输入约10,000份工作订单，并希望在1份完美工作订单的基础上，抽样约300份。在SQL中随机抽样是可能的吗？如果是，随机抽样的代码是什么？

浏览 2提问于2015-07-22得票数 0

1回答

数据frame_follow向上分层随机抽样

、、

我试图随机抽样50%的数据，为每一组跟随。在R中使用mtcar数据集的可复制示例如下所示。我不明白的是，示例索引清楚地显示了一组标记为“5”的齿轮，但是当索引应用于mtcars数据集时，抽样数据mtcars2不包含任何来自齿轮= '5‘的记录。哪里出了问题？非常感谢。 > set.seed(14908141) > index=tapply(1:nrow(mtcars),mtcars$gear,function(x){sample(length(x),length(x)*0.5)}) > index $`3` [1] 6 7 14 4 12 9 13 $`4`

浏览 0提问于2020-06-24得票数 1

回答已采纳

1回答

如何在F# (或一般的.Net )中生成标准正态随机变量？

、、、

我的模拟需要标准正态(高斯)随机变量。生成它们的最简单方法是什么？与java不同的是，标准的类似乎只处理统一变量。

浏览 3提问于2012-06-12得票数 2

回答已采纳

1回答

使用随机()或表样系统()随机抽样黑斑羚中的n行

、

我想用Impala从表中随机抽取n行。我可以想出两种方法，即： SELECT * FROM TABLE ORDER BY RANDOM() LIMIT <n> 或 SELECT * FROM TABLE TABLESAMPLE SYSTEM(1) limit <n> 在我的例子中，我将n设为10000，并从超过2000万行的表中进行抽样。如果我正确理解，第一个选项实际上为每一行创建了一个0到1之间的随机数，并通过这个随机数进行排序。第二个选项创建了许多不同的“桶”，然后随机抽取至少1%的数据(在实践中，这似乎总是比提供的百分比大得多)。在这两种情况下，我只选择了1000

浏览 5提问于2021-07-05得票数 0

1回答

在R或Python中随机化矩阵的最有效方法

、

我正在使用R中的数字矩阵M，它很大(每20列有11000行)。在这个矩阵上，我做了很多相关测试 =>函数cor.test(M[i,], M[j,], method='spearman')，其中i和j是矩阵的两行(所有可能的组合都经过测试)。正如您所知道的，问题是我做了太多的测试来获得这个测试返回的非常可靠的p值。我克服这个限制的策略是在我的矩阵M上通过引导产生一个新的概率分布:我想得到从M生成的100个随机矩阵，对这些矩阵进行多重相关，并为p值选择正确的截断，得到一个5%的FDR。我的问题是：随机化我的矩阵最有效的方法是什么？因为这是相当长的时间消耗(我

浏览 2提问于2017-04-26得票数 0

回答已采纳

1回答

在BigQuery中随机抽样的最有效的方法是什么？

、

这个的答案解释了如何从BigQuery表中随机抽样。是否有一种有效的方法来替代例如，假设我有一个有1M行的表，并且希望选择100 K独立随机抽样行。

浏览 5提问于2020-02-26得票数 2

1回答

椭圆曲线子群中群元抽样的概率

给出了在E上的椭圆曲线Z_q。在<G>上有一个子群E，<G>的阶是p，其中p是素数。而<G>上的离散对数问题是困难的。现在我们随机抽样一个组元素G_0 of E。让Q成为G_0落入<G>的事件。我们可以说Q发生的概率是可以忽略不计的吗？

浏览 0提问于2021-02-12得票数 0

1回答

基于条件和样本量的熊猫数据样本

、、

代码： import pandas as pd df = pd.DataFrame({'data': list(range(100))}) 我想取一个20码的样本，这样80%的元素在0到10之间，20%在50到70之间。(随机抽样)。我想要一种适用于任意数量条件的方法。我的想法是可行的，但不是干净的:对所有介于0到10之间的东西进行采样，取80% * 20行随机行，对其余的值执行同样的操作，并进行连接。是否有一种熊猫-我可以使用，因为这不能很好地适应更多的条件？

浏览 1提问于2022-05-27得票数 1

回答已采纳

1回答

在不同方法中使用bulk_extractor查找工件

、

我有特定数量的工件，我希望通过使用随机抽样、停止列表、警报列表或搜索文本的不同方法，使用bulk_extractor工具搜索磁盘映像中的特定工件。我想知道哪种方法最有效，以及如何重现这样的测试场景并获得结果。

浏览 0提问于2020-04-10得票数 1

2回答

根据给定的比例从postgres表中采样一定数量的结果行

、

假设我有一个名为population的表，其中有1000行，如下所示： ? 我有另一个名为proportions的表，它包含了我想要提取的不同Group_Name的所需比例： ? 我想从population表中随机抽样100行，其中样本中Group_Name的比例与proportions表中Proportion字段的比例一致。因此，在100行样本中，50行应该是A组，30行应该是B组，20行应该是C组。我可以手动采样如下所示： CREATE EXTENSION tsm_system_rows; SELECT * FROM population TABLESAMPLE SYST

浏览 21提问于2020-08-29得票数 0

回答已采纳

1回答

在Orange数据挖掘工具包中，如何指定用于交叉验证的组？

、、

我正在使用Orange GUI，并试图执行交叉验证。我的数据有8个不同的组(由输入数据中的一个变量指定)，我希望每一个折叠都能容纳一个不同的组。这能用橘子吗？我可以选择交叉验证的折叠数，但我看不到任何方法来确定每个数据中有哪些数据。

浏览 1提问于2015-12-14得票数 1

回答已采纳

3回答

如何在给定区间内进行随机抽样？

如何在给定区间内进行随机抽样？例如，我想做一次随机抽样，在1到10之间，但每间隔是0.5。所以当我做抽样时，它会给出值，例如5.5或2或8.5。我尝试过使用np.random.random_integers(1,10)，但这只是给出整数的值。非常感谢您的帮助。

浏览 2提问于2016-06-02得票数 2

回答已采纳

1回答

给定样本，寻找未知目标函数的最大值

我有一个函数，它接受4个变量，并返回0,1范围内的单个浮点值。我想知道哪些输入将最大化函数的输出。但是，这个函数运行很慢，所以我只随机抽取了1000个样本。即1000个(输入，输出)元组有没有什么好的方法可以用这些元组来预测最大化我的函数？我不关心是否有更多的函数在运行，但不是很多。提前谢谢。

浏览 1提问于2018-04-11得票数 0

1回答

计算不可分辨性

给出了阶q和模p的乘法群。给定两个常数a和b，随机抽取Z_q。设随机变量x_a是对(x, x^a \mod p)，随机变量x_b是对(x, x^b \mod p)。x_a和x_b的分布在计算上是否可以区分？

浏览 0提问于2021-07-22得票数 0

1回答

基于观测次数设置训练+测试集

、、

对于熊猫来说非常新，我一直在使用Python中的很多给定的包来拟合回归模型。我目前有3个月的数据，我想把这套培训分成0到40，因为它涵盖了我的前2个月的数据，我想用最后一个月的数据作为测试集。以前，我用过 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33, random state = 42) 作为模型的基础，但我不想随机抽样。所以，我的问题是，我如何索引我的数据框架，使训练集涵盖观察0-40，而测试集涵盖40-71？如有任何反馈，将不胜感激。谢谢

浏览 4提问于2022-07-24得票数 0

1回答

如何在Matlab中基于移除选择生成分组数？

、、

假设数据中有一个从1到85之间的整数序列集： data = [1:1:85]; 如果我选择removeselection = 0，答案应该等于数据(所有数字从1到85)。如果我选择removeselection = 1，答案应该是85组数据。 data1 = [2:1:85] %remove number 1; data2 = data(:,2) = []; %remove number 2 data3 = data(:,3) = []; %remove number 3 . . . data85 = data(85,:) = []; %remove number 85 如果我选择remov

浏览 0提问于2013-12-21得票数 0

回答已采纳

1回答

从DataFrame中的所有组中抽取示例

、

如何从数据帧中的每个组中随机或交替地从每个组中抽取一个示例(例如，10%的随机行或每一行行)？例如，当按“名称”分组时： name a b foo 1 1 foo 4 1 foo 3 3 bar 2 1 bar 3 7 bar 4 3 bar 1 2 我想得到这样的东西： name a b foo 4 1 bar 3 7 bar 1 2 非常感谢

浏览 0提问于2017-03-31得票数 2

回答已采纳

1回答

将代码块从一个Rmarkdown文档插入到另一个

、、

我一直在运行一些小型的R教程/研讨会，我将我的“挑战脚本”保存在Rmarkdown文档中。这些包含免费文本和R代码块。有些代码块是预先填充的(例如，设置数据集供以后使用)，而有些代码块则是为了让与会者在研讨会期间填写代码。对于每个挑战脚本，我都有一个解决方案脚本。后者包含了前者的所有自由文本，但是任何问题块都已被填充(有一个解决方案工作簿的例子)。我并不想保留同一个文件的两个密切相关的副本(挑战和解决方案工作簿)。因此，我想知道是否有一种简单的方法可以从我的解决方案脚本(或者来自挑战脚本的解决方案脚本和只包含解决方案块的R脚本)构建我的挑战脚本。例如，是否有一种简单的方法可以将一个Rma

浏览 1提问于2018-04-19得票数 3

回答已采纳

2回答

如何使用Python中的Pandas DataFrame来选择每个类别中的一个？

、、

浏览 1提问于2021-11-24得票数 0

回答已采纳

2回答

子集a DataFrame

、

如果我有这个数据框架： df = pd.DataFrame( {"A":[45,67,12,78,92,65,89,12,34,78], "B":["h","b","f","d","e","t","y","p","w","q"], "C":[True,False,False,True,False,True,True,Tr

浏览 6提问于2022-10-23得票数 0

2回答

如何根据百分比随机抽样两列并分配标签？

、、

我有一个像这样的数据文件： x y location 21 10 ny 12 22 ny 32 90 cha 33 14 cha ... 我想根据百分比随机抽样x和y列的行。我希望30%的x和y行是随机分配的group1，70%的行是随机分配的group2。就像这样： x y location group 21 10 ny group1 12 22 ny group2 32 90 cha group2 33 14 cha group2 ... 我想我可以用mutate()来完成这个任务，但是

浏览 1提问于2021-07-12得票数 0

回答已采纳

3回答

如何在Redshift中进行分层随机采样？

、

我需要对从不同类别购买的客户进行随机抽样。有8个类别，订单分布在这些类别中。如果我想随机抽样已经购买的客户，但保持每个类别的订单比例相同，我应该如何在我的sql代码中进行设置？下面的表格突出显示了这一点(它不包括客户数据-我希望我的客户列表基于订单的代表性比例)：我正在使用的表可以在这里找到：https://imgur.com/a/Q0lMHWf

浏览 103提问于2019-01-12得票数 4

2回答

用set语句中的点选项对sas数据集抽样的澄清

目标:从整个数据集(允许/不允许重复)中抽取50个观测结果我不理解以下脚本的nObs用法如何确定是否允许重复？数据样本；do i=1至50；slice = int( nobs *ranuni(123456))；设置sashelp.cars point=slice nObs= nObs；结束；停止；运行；

浏览 1提问于2015-08-26得票数 1

回答已采纳

2回答

随机森林用于时间序列数据集

、、

对于时间序列数据集，我想做一些分析并创建预测模型。通常，我们会将数据(通过整组数据的随机抽样)分割成训练集和测试集，并使用带有randomForest函数的训练集。并保留测试部分，以检查模型的行为。然而，有人告诉我，时间序列数据不可能通过随机抽样来分割数据。如果有人能解释如何将数据分割成时间序列数据的培训和测试，我将不胜感激。或者如果有任何替代做时间序列随机森林。问候

浏览 3提问于2015-09-09得票数 3

回答已采纳

1回答

如何制作一个非列表循环，它将从1-10中选择4个随机数，并显示它们，但它们不能相同？

、、、

import random counter = 0 count = 0 counting = 0 valueOne = 0 valueTwo = 0 while counter ==0: playerOne = random.randint(1,10) number = random.randint(1,10) 这就是我困惑的地方。它将运行循环，但每次运行时，随机值都会被重置，即使第一次打印随机数，第二次也可能打印相同的值等等。 if number == playerOne: count = count + 1 if number != play

浏览 0提问于2018-11-10得票数 0

回答已采纳

1回答

用随机抽样V1定义超参数整定中采样算法时的误差

、

我正在尝试执行随机抽样来完成超参数调优和参数调优版本1 (v1)。我希望有机会明确地将该算法定义为采样算法。目前正在使用下面的代码块，是否有可能在V1中显式地实现采样？如果没有，任何解决这个问题的具体程序都是有帮助的。 from azureml.train.hyperdrive import RandomParameterSampling from azureml.train.hyperdrive import normal, uniform, choice param_sampling = RandomParameterSampling( { "learning_r

浏览 10提问于2022-07-29得票数 0

回答已采纳

1回答

matchit pakage每次都会产生不同的结果吗？

每次使用matchit包时，条件logistic回归的结果都不同。是对的吗？ df.final = as.data.frame(na.omit(df)) opt.psm.out4 = matchit(treat~ gr_age+sex+dx_htn+dx_dm+dx_ckd+gr_cci, method = "nearest", data = df.final, ratio=3) opt.data4 = match.data(opt.psm.out4) match.matrix<-opt.psm.out4[["match.matrix"]] #Ge

浏览 41提问于2020-11-08得票数 0

1回答

R语言中的` `mtry`‘’游侠‘

、、

以下哪一种理解是正确的？我们可以在每个树上使用的特性数量(我们引导一个特性子集)，我们为每个拆分的使用的特性的数量对于package中的等效函数RandomForestClassifier.max_features，第一个理解是正确的。R语言的情况如何？谢谢!

浏览 3提问于2022-05-08得票数 0

2回答

将字符串列表随机分组

、

给定n项字符串列表，我希望将其划分为b组(b<=n)，其中每个组都有i to j (j>=i)项举个例子： List<string> lst=new List<string>(new string[]{"a","b","c","d"}); (因此n=4) 假设提供此功能的函数为 List<List<string>> DivideIntoGroup(List<string> lst, b, i, j) DivideIntoGroup(lst, 3, 1, 2

浏览 0提问于2012-09-16得票数 4

回答已采纳

3回答

如何通过分组随机分成多组来获得随机选择

、、、

我有一个简单的客户数据集(大约4万k)，看起来如下： customerid, group, other_variable a,blue,y b,blue,x c,blue,z d,green,y e,green,d f,green,r g,green,e 我想随机选择每一组，Y数量的客户(连同他们的其他变量)。问题是，我想对每一组有两个随机的Y值选择。 4000 random green customers split into two sets of 2000 randomly and 4000 random blue customers split into two sets of 200

浏览 14提问于2015-06-11得票数 0

回答已采纳

1回答

如何根据记录的总数计算统计上有意义的样本大小？(Postgres)

、、

让我说，我想得到一个随机抽样的客户谁已经购买了一个特定的部门在去年。我想确保每个部门的随机抽样在统计上是显着的(使用样本大小公式)，在从该部门购买的顾客总数中(如果一个部门有5000万客户至少购买了一次，那么所需的样本大约是390)。我正在寻找类似于以下内容的内容:我将以顺序结束我的查询(子查询在这里确定正确的示例) 我如何将样例大小公式实现为限制BY语句从中提取的子查询？

浏览 0提问于2019-01-20得票数 0

1回答

数据帧内具有Params的随机分布

、、

我试图使用预先指定的变量在数据帧内产生随机损失.我感兴趣的是"rand.num“变量--有什么更好/更有效的方法来生成这个随机数？我得到了我正在寻找的使用下面，但当我运行它与我的整个表，和许多模拟，我有运行时的问题。 data <- as.data.frame(matrix(c(1, 2500, 2500, 5000), 2, 2)) #take this as given colnames(data) <- c("Lower", "Upper") #lower & upper bound of uniform distributi

浏览 1提问于2022-02-07得票数 1

回答已采纳

1回答

使用spsample的可重复性

、

我正在尝试创建一个用于建模的网格。我设置了以下代码： #--Grid Extents--# xmin <- 1712352.4170 ymin <- 249753.9450 xmax <- 1714452.4170 ymax <- 252713.9450 #--Set-up Grid--# library(sp) grd <- data.frame( x=c( xmin, xmax ), y=c( ymin, ymax ) ) coordinates( grd ) <- ~x+y grd <- data.frame( spsample( grd ,

浏览 2提问于2016-05-19得票数 0

1回答

如何在R中的调查包中使用svydesign()函数的比例权重？

、、

我用R中的来分析的社会调查。调查的指定(在第45页)权重已被缩放为平均值为1。当使用svydesign()函数时，我将权重变量传递给weight参数。在中，在surveysummary()函数下，它声明：请注意，设计效果将是不正确的，如果权重已被重新标度，使它们不是抽样概率的倒数。因此，在使用诸如svyglm()、等函数时，会得到不正确的估计和/或标准错误吗？这引起了我的注意，因为当使用psrsq()函数获取模型的伪R-平方时，我收到了以下警告：权重似乎是按比例调整的: rsquared可能是错误的。任何帮助都将不胜感激！谢谢!

浏览 7提问于2021-08-14得票数 0

回答已采纳

1回答

在中获取每个员工10%的数据行的Java脚本

、、、

你如何获得一个随机抽样的10%的总条目的每个独特的员工？这将用于获得用于审核的随机样本。

浏览 0提问于2021-06-28得票数 0

回答已采纳

2回答

随机抽样每个id中的一行

、

我有这样的data： data<-data.frame(id=c(1,1,1,1,2,2,2,3,3,3,4,4,4), yearmonthweek=c(2012052,2012053,2012061,2012062,2013031,2013052,2013053,2012052, 2012053,2012054,2012071,2012073,2012074), event=c(0,1,1,0,0,1,0,0,0,0,0,0,0),

浏览 3提问于2022-10-21得票数 0

回答已采纳

1回答

避免R中的伪随机数生成

、

我如何随机抽样n个整数(假设从1到200)，以避免伪随机问题？我目前使用的是sample()，但每次运行代码时生成的序列都是相同的。

浏览 4提问于2015-10-06得票数 1

1回答

在gpflow中，非周期核可以用于SGPR中吗？

、、、、

我是GPR的新手。如果你能就以下问题向我提供一些建议，我将不胜感激：我们能在稀疏高斯过程中使用Matern52内核吗？选择伪输入(Z)的最佳方法是什么？随机抽样是否合理？我想提到的是，当我使用Matern52内核时，下面的错误将停止优化过程。我的代码： k1 = gpflow.kernels.Matern52(input_dim=X_train.shape[1], ARD=True) m = gpflow.models.SGPR(X_train, Y_train, kern=k1, Z=X_train[:50, :].copy()) InvalidArgumentError (回溯见上

浏览 1提问于2018-05-15得票数 1

2回答

如何从Python中的多个源生成随机字符？

、、

我试图生成一些随机字符，但我想包括string.letters、string.digits和string.punctuation。我可以做其中的任何一个，但是如何包含所有三个(或其他)源/常量？ import random import string for i in range(0,4): print(random.choice(string.ascii_letters)) 此代码将选择一个字母-希望包括数字和标点符号也.

浏览 2提问于2020-07-03得票数 1

回答已采纳

1回答

如何使用H2o Python获取分类的最佳阈值

、、、

我在Python语言中有一个使用H2o的分类模型，它的AUC = 71% 但基于混淆矩阵的分类准确率仅为61%。我知道混淆矩阵是基于.5阈值的我如何确定哪个阈值的准确率为71%？

浏览 17提问于2020-06-02得票数 0

回答已采纳

2回答

多分类模型中的抽样大小是否重要？

、、、、

我正在研究一个多类分类模型，其中很少有类与其他类相比拥有更少的数据。我使用随机抽样技术从人口中创建一个样本，使每个类别的比例与人口的比例相等。例如，A类在总体中有400条记录，B类在总体中有100条记录，然后在进行随机抽样时，我正在创建一个样本，其中A类和B类的记录比例为4:1。我观察到的趋势是通过改变某一类的样本大小(保持类间比例不变)，导致模型性能(准确性、精确性、召回性)发生变化。无论样本大小如何，我需要应用什么技术才能使我的模型稳定？

浏览 0提问于2019-11-27得票数 3

2回答

Python/SciPy中Matlab的gaussmf？

、、、、

我需要相当于Matlab的gaussmf函数的Python，但我找不到它。目前，我只是重新实现了它： def gauss(x, sigma=1, mean=0, scale=1): return scale * numpy.exp(-numpy.square(x - mean) / (2 * sigma ** 2)) 但是只使用库函数会感觉更好，最好是从numpy或scipy开始，这样我就可以在像x(一维numpy.ndarray)这样的数组上使用它。

浏览 4提问于2013-08-21得票数 0

回答已采纳

1回答