专栏首页算法与数据之美十分钟掌握Pandas基本操作(下)

十分钟掌握Pandas基本操作(下)

我们紧接上回操作,继续来对Pandas的基本操作进行梳理。

  • 数据切分
df1=df.loc[:399,:]
df2=df.loc[400:,:]
# 按行标签切分
df3=df.iloc[:,:6]
df4=df.iloc[:,6:]
# 按列位置切分
  • 数据合并
# 按照切片的不同维度将数据合并,下面三行代码都能获得原数据
df_new=df1.append(df2)
df_new1=pd.concat([df1,df2],axis=0)
df_new2=pd.concat([df3,df4],axis=1)
  • 分组
# 把宝可梦按Generation分组
df.groupby(['Generation']).count()
# 统计每一代的数目
df.groupby(['Generation']).mean()
# 查看每一代的数据均值
# 把宝可梦按Generation分组,并统计Speed的和以及均值
df.groupby('Generation')['Speed'].agg([np.sum,np.mean])
# 按多个属性分组并统计数目
df.groupby(['Generation','Type1','Legendary']).count()
# 把宝可梦按Legendary分组,并选择Legendary为真的组
df.groupby(['Legendary']).get_group(True)
  • apply
# 通过匿名函数将所有数据HP值增加1
df['HP']=df['HP'].apply(lambda x:x+1)
  • 图片绘制(默认为折线,可以选择柱状图、密度图等)
df['Attack'][:10].plot(color='red')
df['Defense'][:10].plot(color='blue')
  • 绘制箱线图
# 箱线图可以用于离群点的观察测
df.boxplot()
  • One-Hot编码
# 把Type1这一列改成One-Hot编码
# 如果某行数据Type1为Bug,那么在Type1_Bug列下为1,在其余列均为0
dummy_df=pd.get_dummies(df['Type1'],prefix='Type1')
  • 参考资料

Pandas官方文档

对于Pandas的基本操作我们就总结到这里,这个数据集还可以用来做机器学习,把宝可梦的类型作为标签来预测,或是把是否是神兽作为标签来做二分类等等,我们下回见。

——END——

本文分享自微信公众号 - 算法与数据之美(algo_and_data),作者:老肥

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 十分钟掌握Pandas基本操作(上)

    为了更好地掌握数据科学必备库Pandas的基本使用,本文通过精灵宝可梦的数据集实战,我们一起过一遍Pandas的基本操作,文中的代码都附有注释,并给出了结果的配...

    老肥码码码
  • 给你的README整一些花里胡哨的图片

    在浏览人类精华宝库GitHub时,老肥注意到有些项目的README文件中会展示其Star以及Fork的数目,如下图所示,

    老肥码码码
  • 快乐游戏,解放双手

    上回说到这个PyUserInput这个库能够模拟鼠标和键盘点击(没看过的朋友底部有传送门),今天老肥再来实战一波游戏脚本制作。

    老肥码码码
  • pandas入门①数据统计

    本指南直接来自pandas官方网站上的10分钟pandas指南。 我将它改写以使代码更易于访问。 本指南适用于之前未使用pandas的初学者。

    用户1359560
  • 用 Pandas 进行数据处理系列 二

    获取行操作df.loc[3:6]获取列操作df['rowname']取两列df[['a_name','bname']] ,里面需要是一个 list 不然会报错增...

    zucchiniy
  • Python-科学计算-pandas-07-Df多条件筛选

    系统:Windows 7 语言版本:Anaconda3-4.3.0.1-Windows-x86_64 编辑器:pycharm-community-2016.3....

    zishendianxia
  • 用Python实现透视表的value_sum和countdistinct功能

    在pandas库中实现Excel的数据透视表效果通常用的是df['a'].value_counts()这个函数,表示统计数据框(DataFrame) df的列a...

    蛰虫始航
  • 快速介绍Python数据分析库pandas的基础知识和代码示例

    “软件工程师阅读教科书作为参考时不会记住所有的东西,但是要知道如何快速查找重·要的知识点。”

    deephub
  • 【MathorCup】2020年 A题 无车承运人平台线路定价问题,特征间的相关性分析

    问题 1:通过定量分析的方法,研究影响无车承运人平台进行货运线路定价的主要因素有哪些,并说明理由。 问题 2:根据附件 1 数据,通过建立数学模型,对已经成交...

    不太灵光的程序员
  • Pandas进阶修炼120题,给你深度和广度的船新体验

    本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。

    数据派THU

扫码关注云+社区

领取腾讯云代金券