专栏首页TalkPythonPandas 常见用法总结

Pandas 常见用法总结

一、数据生成与导入

import pandas as pd

# 利用Pandas里面的read系列可直接读取相应格式的数据文件。
df = pd.read_csv('./data.csv')

二、数据信息查看

# 查看整体信息
df.info()

#查看维度
df.shape

# 查看列名
df.columns

# 查看数据类型
df.dtypes

# 查看空值
df.isnull()

# 查看age唯一值
df['age'].unique()

# 查看数据表值
df.values

# 查看前5行数据
df.head(5)

# 查看最后5行数据
df.tail(5)

三、数据清洗和预处理

# 空值处理删除
df.dropna(how='any',inplace=True)

# 空值处理填充
df.fillna(0)

# 空格处理
df['name'] = df['name'].map(str.strip)

# 大小写转换
df.['name'].str.lower()

# 更改数据类型
df.['age'].astype('int')

# 更改列名称
df.rename(columns={'name':'名字','age':'年龄'})

# 删除重复值
df['cabin'].drop_duplicates(keep='last')

# 数据替换
df['name'].replace('C','c')

四、数据提取和筛选

# 按标签进行提取
df.loc[:2,'age']

# 按位置提取
df.iloc[:2,3]

# 按指定条件对数据进行提取
df['group'].isin(['high'])

# 筛选数据
df.loc[df['age'] > 25 ) | (df_inner['group'] == 'high')].head()

五、数据汇总与统计量计算

# 按字段分组
df.groupby(['columns'])

# 数据透视表
pd.pivot_table(data,values=None,index=None,columns=None,aggfunc='mean',fill_value=None,margins=False,dropna=True,margins_name='All')

六、数据存储

# 存储到excel
df.to_excel('data.xlsx',sheet_name='a')
# 存储到csv
df.to_csv('data.csv')

如果觉得内容还不错,分享给更多朋友,一起提升编程技能。

本文分享自微信公众号 - TalkPython(TalkPython),作者:TalkPython

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 怎样用Python提取图片中的文字

    有时候在爬取数据的时候,需要读取网页中图片中的信息。在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。有两个库非常流...

    TalkPython
  • Python技术周刊:第 14 期

    欢迎来到《Python技术周刊》这是第14期,每周六发布,让我们直接进入本周的内容。由于微信不允许外部链接,你需要点击页尾左下角”阅读原文“,才能访问文中的链接...

    TalkPython
  • Python技术周刊:第 6 期

    欢迎来到《Python技术周刊》这是第6期,每周六发布,让我们直接进入本周的内容。由于微信不允许外部链接,你需要点击页尾左下角”阅读原文“,才能访问文中的链接。

    TalkPython
  • 50道练习实践学习Pandas!

    原文地址:https://www.kesci.com/home/project/5ddc974ef41512002cec1dca

    Datawhale
  • 股票实时流计算

    var element = $('#61901593-c697-4e0e-ad17-c8f2c3fae6ae'); {"model_id": "8629...

    spark
  • 快速介绍Python数据分析库pandas的基础知识和代码示例

    “软件工程师阅读教科书作为参考时不会记住所有的东西,但是要知道如何快速查找重·要的知识点。”

    deephub
  • 基于机器学习算法的时间序列价格异常检测(附代码)

    异常检测也称为异常值检测,是一种数据挖掘过程,用于确定数据集中发现的异常类型并确定其出现的详细信息。 在当今世界,由于大量数据无法手动标记异常值,自动异常检测显...

    量化投资与机器学习微信公众号
  • 【MathorCup】2020年 A题 无车承运人平台线路定价问题,特征间的相关性分析

    问题 1:通过定量分析的方法,研究影响无车承运人平台进行货运线路定价的主要因素有哪些,并说明理由。 问题 2:根据附件 1 数据,通过建立数学模型,对已经成交...

    不太灵光的程序员
  • Pandas进阶修炼120题,给你深度和广度的船新体验

    本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。

    数据派THU
  • Day05| 第四期-电商数据分析

    疫情期间,想必我们会增加网上购物,人们的生活越来越数字化。当我们消费时,无论是线上和线下都会产生大量的交易数据,对于商家来说数字化的运营方式非常必要,从大量的交...

    DataScience

扫码关注云+社区

领取腾讯云代金券