问关于Pandas .sample()
EN

Stack Overflow用户

提问于 2020-02-04 11:03:29

回答 1查看 31关注 0票数 0

我有一份数据。即'df'，它有10,000行和4列(一列的值为" Yes /No“，仅命名为”购买“，4,000行和6,000列)

如果我写这段代码：

sample = df.sample(df.shape[0], replace = True)

然后我以为它会给我带来混乱的数据。所以我使用了.shape()，结果表明这个示例与df有相同的记录数。(10,000)

然后我用

sample.query('purchased == "Yes"').info()

Now.....this时间结果混淆了我运行的me....each时间，info()提供的记录数量.(2,333；3000；1540；.)

为什么会这样呢？如果示例只是整个df，那么.info()不应该每次都是相同的吗？

回答已采纳

发布于 2020-02-04 11:11:21

如您在熊猫文档中所看到的，如果您将替换参数设置为True，则可以多次添加相同的行，因此'sample‘变量包含的数据集可能与原始数据集不同，其购买值为"yes“的行数不同

参考资料：

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60055970

复制

相似问题

问关于Pandas .sample()EN