我正在处理一个nlp问题,其中我必须分析格式奇怪的excel文件。 有一列包含文本,其中每个文档跨越多个单元格。文档本身由空单元格分隔。我还想从文本数据中预测其他具有分数的列。This is what it looks like 我已经将工作表导入到pandas数据框中,现在我正在尝试聚合属于每个文档的单元格,同时保留分数。This is the goal state 我已经开始尝试嵌套循环,但我觉得它比必要
假设我有一个大约40列的文本文件,我需要删除重复项/组,方法是使用5列的。4 h 我想要groupby或df.drop_duplicates() df = df.groupby([1,2,4])[5].sum().reset_index() 所以结果会是这样的1 2 4 5b c 456 12
h c 456 4 有没有办法让我把其他列加入到这个结果数据中,因为它们不需要作为g