我正在处理一个数据集,它有300万行和1200个“组”--让我们称它们为“姓氏”。BobJohnson Laura
我想分开看每一个姓氏,并对每个姓氏中的名字做些什么。例如,我可能想知道哪个名字在Smith的姓中最流行,然后添加到它自己的列中(但实际上它要复杂得多)。我需要保持所有行的完整(换句话说,我需要保持每一个史密斯和约翰逊)。1,200个数据集,
我有一个熊猫数据框,如下所示 0 1 2 3 4 5,并返回前n个组,其中n可以作为变量。I df.sort_values(5).groupby([5]) I get <pandas.core.groupby.DataFrameGroupBy object at 0x2afc8d0>
如何获取前2组<