课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
8分钟

移除重复数据

1. Series/DataFrame.duplicated(*args, **kwargs):返回一个布尔Series,指示调用者中,哪些行是重复的(重复行标记为True)。

  • keep:一个字符串或者False,指示如何标记。它代替了废弃的参数take_last
    • 'first':对于重复数据,第一次出现时标记为False,后面出现时标记为True
    • 'last':对于重复数据,最后一次出现时标记为False,前面出现时标记为True
    • False:对于重复数据,所有出现的地方都标记为True

Series/DataFrame.drop_duplicates(*args, **kwargs):返回重复行被移除之后的Series/DataFrame

  • keep:一个字符串或者False,指示如何删除。 它代替了废弃的参数take_last
    • 'first':对于重复数据,保留第一次出现,后面出现时删除
    • 'last':对于重复数据,最后一次出现时保留,前面出现时删除
    • False:对于重复数据,删除所有出现的位置
  • inplace:一个布尔值。如果为True,则原地修改。否则返回新建的对象。

对于DataFrame,还有个 subset参数。它是column label或者其列表,给出了考虑哪些列的重复值。默认考虑所有列。(即一行中哪些字段需要被考虑)