我希望这个问题是有意义的。我有一个表格,我是从一个PDF的化学名称中提取出来的,我正在尝试格式化,我遇到了一些问题,它看起来像这样:表格
一些化学名称被分割成多个行,我需要每个名称在它的元行中。我确实注意到,名字被分割成多行的化学品在第一列中有一个NaN。
编辑:运行dt.head(15).to_dict()之后
{‘未命名: 0':{6:'1',7: nan,8:'2',9:'3',10: nan,11: nan,12:'4',13:'5',14: nan,15: nan,16:'6',17:'7',18:'8',19:'9',20: nan},’酚类‘:{6:’二氢槲皮素‘,7:’7,30-二甲醚‘,8:'Artelin',9:'Esculin 7-',10:‘甲氧香豆素’,11:‘(甲基埃斯卡林)’,12:'Esculin',13:'Scopoletin (7-',14:‘羟基-6-’,15:‘甲氧基香豆素’),16:'Axillarin',17:‘Escu公报’,18:‘异生育酚’,19:‘6’-β-葡糖基-7‘,20:’甲氧基香豆素‘}}
有谁可以帮我?谢谢!
发布于 2022-08-08 22:47:24
单行解决方案
df = df.fillna(method='ffill').groupby('Unnamed: 0')['Phenolics'].apply(' '.join).reset_index()发布于 2022-08-08 22:37:30
df["group"] = df["Unnamed: 0"].ffill()
df.groupby("group").agg({"Phenolics": "".join})https://stackoverflow.com/questions/73284549
复制相似问题