我有一个大表,大约有40k行和240列。某些列是true/false作为唯一可能的值。其他的则有多个可能的字符串。我需要生成的基本上是一个聚合报告,它将显示每列的所有可能值以及具有该值的总行的百分比(例如,第5列中的所有行中有多少百分比是“向上”的,哪些百分比是“向下”的,哪些百分比是“左”的,等等)。我所能得到的就是在一列中找到不同值的计数:
SELECT direct
Sep 2015在下面的屏幕截图中,我构建了一个表,其中按队列(MonthCreated,这是客户注册时)显示每个BoxCount级别的唯一CustomerID的计数。我需要在count of customers旁边创建第二个列,该列显示每个队列(在同一个月中注册的人)在每个BoxCount级别保留的客户的百分比。
我尝试过使用快速表格计算总百分比,计算方法是“表格(向下)”,但它似乎只适用于MonthCreated
在继续操作之前,我使用以下方法来确保dataframe列具有正确的数据类型:>>> df = pd.read_excel(xl, converters={'column1': cfun})ValueError: could not convert string to float: '100%'
我想要做的是获取