我有一份数据。即'df',它有10,000行和4列(一列的值为" Yes /No“,仅命名为”购买“,4,000行和6,000列)
如果我写这段代码:
sample = df.sample(df.shape[0], replace = True)然后我以为它会给我带来混乱的数据。所以我使用了.shape(),结果表明这个示例与df有相同的记录数。(10,000)
然后我用
sample.query('purchased == "Yes"').info()Now.....this时间结果混淆了我运行的me....each时间,info()提供的记录数量.(2,333;3000;1540;.)
为什么会这样呢?如果示例只是整个df,那么.info()不应该每次都是相同的吗?
发布于 2020-02-04 11:11:21
如您在熊猫文档中所看到的,如果您将替换参数设置为True,则可以多次添加相同的行,因此'sample‘变量包含的数据集可能与原始数据集不同,其购买值为"yes“的行数不同
参考资料:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html
https://stackoverflow.com/questions/60055970
复制相似问题