Pandas -从样本数据的随机选择中生成新值_按列值从大型pandas数据帧中获取随机样本_从原始数据的随机样本创建新数据框 - 腾讯云开发者社区

、

我有一个包含1mil记录的样本数据集。我希望从每一列中选择一个随机值来生成一个新行，以创建一个具有3mil行的样本数据集。我找到了一种方法来做到这一点，然而，它需要大约每行1秒。

浏览 24提问于2021-10-27得票数 0

回答已采纳

1回答

当给定特定条件时，通过pandas数据帧的列中的用户定义函数输入值

、、、

我有一个pandas DataFrame，它有一个列"A“，表示一个分类变量，它可能有未知值，标记为"-1”。我想将未知值替换为随机生成的变量样本，并考虑它们的频率。示例： 'A' 1 dog3 dog 4 dog 将"-1“值输入到(猫，狗)的随机样本中，<

浏览 19提问于2019-05-10得票数 0

回答已采纳

5回答

Pandas:从每行的随机列中选择值

、、、

假设我有如下的Pandas DataFrame： df = pd.DataFrame({ 'b': [4, 5, 6],}) a b c1 2 5 8 2 3 6 9 我希望生成一个新的pandas.Series，以便从DataFrame的

浏览 45提问于2019-07-25得票数 4

回答已采纳

1回答

只有一个输出时数据不平衡

、

我有3%的数据标记为是，97%的数据标记为否。这是一个连续的数据流，所以我不认为我可以强制复制yes数据。我使用LSTM，其中输出为1表示yes，0表示no。此外，我不认为我可以挖掘更多的数据。我发现了一些关于类权重的东西，但我不知道如何在这种情况下实现它。有没有其他方法可以解决这个问题？数据是数值的和连续的。

浏览 16提问于2019-07-01得票数 0

1回答

模拟t -distributions -随机样本

我是新的模拟演习在R，我想创建1000个样本大小25从t分布与自由度10。singlevector <- rt(5000, 10)，它从大小为5000的t分布中生成数据，df = 10。因此，我将把它作为我的总体，然后从它中取

浏览 4提问于2016-11-23得票数 3

1回答

从两个变量创建并采样联合分布

、、、、

我有一个pandas数据帧，有两列对应于依赖于每行的a和b系数(它们不是独立的)： a b1 12.375649因此，我需要从a和b变量的联合分布中生成随机样本，但我不确定如何做到这一点。我尝试使用np.random.normal(mean_variable, sd_variable, 1000)从正态分布为这些变量中<

浏览 40提问于2021-05-09得票数 1

回答已采纳

4回答

我有数据，其中我有一个变量z，其中包含大约4000个值(从0.0到1.0)，其直方图如下所示。现在我需要生成一个随机变量，称为random_z，它应该复制上面的分布。到目前为止，我尝试的是生成一个以1.0为中心的正态分布，这样我就可以删除所有1.0以上的分布，以获得类似的分布。我一直在使用numpy.random.normal，但问题是我不能将范围设置为0.0到1.0，因为通常正态分布的平均值为0.0，而

浏览 0提问于2014-05-13得票数 16

回答已采纳

1回答

MySQL解释在不同的机器上给出不同的结果

下面的查询在我运行它时会产生两个不同的结果，而不是同事运行它时：from `mydatabase`.`userHash` = 'xxxxx'; 在我的同事机器上：那么为什么它要在我的机器上执行全表扫描，而不是在我的同事机器上呢？我们在Mac上使用的都是带有完全相同的数据库转储的dockerized MySQL 5.7.33。这怎麽可能？

浏览 23提问于2021-03-01得票数 3

1回答

如何过滤唯一的值

、、、、

我有900 K行和10个唯一的值。前100 k行只有一个唯一的值在100 k行之后。我想要100 k行，包含900 k行的所有唯一值。我找不到解决这个问题的办法。

浏览 7提问于2022-12-04得票数 -3

1回答

pandas中使用概率列的随机抽样行

、、

我正在使用python和pandas从数据帧中随机抽取样本。我的数据帧如下所示：第一列包含时间，第二列是平均速率，第三列是1-sigma，第四列是与该行描述的事件相关的概率。 ? 我知道我可以使用下面的代码来绘制加权样本： random=df.sample(n=100000, replace=True, weights='P>0', axis=0) 但我不确定在这里

浏览 24提问于2020-04-24得票数 1

回答已采纳

2回答

在sql / coldfusion中返回随机特定样本大小的最有效方法

、

我需要根据样本大小返回一些值。因此，如果用户选择5%，他们将得到一个查询，从原始查询中随机产生5%的行。有没有办法只用sql就能做到这一点？目前的流程是运行查询，然后生成随机数来删除行，直到只剩下5%，然后在剩下的行的基础上构建新的查询。我不相信这是最有效的方法，还有更好的主意吗？谢谢

浏览 0提问于2011-03-08得票数 0

回答已采纳

1回答

自举重采样方法的置信区间模拟问题

、、、

ko_bca_boot <- sum(bca_boot[,1] <= real_m & bca_boot[,2] >= real_m)/nsim * 100 通过将包含参数真值的间隔数除以重复次数我的工作有95%的信心，所以我应该得到这个数字的结果。我不明白为什么是100。你能帮忙吗？这对于所有置信区间都是有效的。我的论文分析。如果你能帮忙我会很高兴的。我会在“谢谢”部分写上你的名字。

浏览 7提问于2022-07-26得票数 -1

2回答