转行机器学习必掌握的开发包3

零基础入门机器学习之准备篇(下—— Pandas)

学习编程语言,除了熟悉语法,也要掌握这门语言的一些必备开发库。比如C++需要掌握STL、Boost库,Java开发者需要熟悉JDK里面诸如java.io、java.lang、java.util等重要开发包。同样在机器学习领域,除了学习python语言,几个常用开发包也是必学内容。易学智能小编为此特意选出了Matplotlib、Numpy、Pandas这三个机器学习高频开发包,下面主要介绍这些包常见用的接口,方便初学者入门。

3. Pandas库

pandas 是基于NumPy 、为了解决数据分析任务而创建的工具包,它提供了丰富的操作大型数据所需的程序应用接口(API)。下面主要介绍CSV文件读取、创建数据、查看数据、选择数据、改动数据、数据缺失值处理、合并数据、数据分组这几种基本操作。

1.1 CSV文件读取

1.2 创建数据

1.2.1利用一个列表来生成数据并自动生成对应的索引:

1.2.2 通过索引,标签,数据值生成一个 DataFrame

1.2.3通过字典生成一个DataFrame

1.3 查看数据

可以通过这类方法去从各个角度浏览DataFrame,选择其中的值

本节用到的数据如下(dataframe):

1.3.1 按要求查看数据

1.4 选择数据

本小节用到的数据如下(dataframe):

1.4.1 按要求选择数据

选择列数据,选择行数据(两种方法,基于索引,基于位置)

1.4.2 通过标签来选择数据

1.4.3 通过位置选择数据

1.4.4 通过布尔变量来选择数据

1.5 改动数据

本小节用到的数据如下(dataframe):

1.6 数据缺失值处理

对缺失数据的操作,在pandas中,数据缺失的位置会用NaN来表示。

本小节用到的数据如下(dataframe):

1.7 合并数据

本小节用到的df为两个新生成的df,下面有详细代码及截图。

1.8 数据分组

将数据根据某个属性分类。

数据如下(dataframe):

【版权声明】转载请注明出处并全文转载

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180818A12A8W00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券