前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >飞速搞定数据分析与处理-day4-pandas入门教程

飞速搞定数据分析与处理-day4-pandas入门教程

作者头像
用户10002156
发布2023-08-07 13:21:04
2290
发布2023-08-07 13:21:04
举报
文章被收录于专栏:生活处处有BUG

背景

这个并不是书籍里的章节,因为书籍中的pandas节奏太快了,基本都是涉及很多中高级的操作,好容易把小伙伴给劝退。我这里先出几期入门的教程,然后再回到书籍里的教程。这几章节作为入门,书籍作为进阶。

Pandas 介绍

什么是 Pandas?

Pandas是一个用于处理数据集的Python库。

它具有分析、清理、探索和操作数据的功能。

为什么要用Pandas?

Pandas让我们能够分析大数据,并根据统计理论得出结论。

Pandas让我们能够分析大数据,并根据统计理论得出结论。

相关数据在数据科学中是非常重要的。

Pandas可以做什么呢?

  • • 两个或多个列之间是否存在关联?
  • • 平均值是多少??
  • • 最大值?
  • • 最小值?

pandas还可以删除不相关的行,或者包含错误的值,如空值或空值。这被称为“清理”数据。

Pandas前置工作

安装Pandas

如果您已经在系统上安装了Python 和 PIP,那么安装Pandas就非常容易了。

代码语言:javascript
复制
pip install pandas

导入 Pandas

安装Pandas后,通过添加关键字import将其导入您的应用程序:

代码语言:javascript
复制
import pandas

现在,Pandas已经导入,可以使用了。

代码语言:javascript
复制
import pandas

mydataset = {
  'cars': ["BMW", "Volvo", "Ford"],
  'passings': [3, 7, 2]
}

myvar = pandas.DataFrame(mydataset)

print(myvar)

Pandas as pd

Pandas通常在pd别名下导入。

查看Pandas 版本

代码语言:javascript
复制
import pandas as pd

print(pd.__version__)

Pandas Series

什么是一个Series?

一个 Pandas Series就像表格中的一列。

它是一个一维数组,容纳任何类型的数据。

代码语言:javascript
复制
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a)

print(myvar)

标签

如果没有指定其他东西,这些值就会用它们的索引号来标记。第一个值有索引0,第二个值有索引1,如此类推。

这个标签可以用来访问一个指定的值。

代码语言:javascript
复制
print(myvar[0])

创建标签

通过index参数,你可以命名你自己的标签。

代码语言:javascript
复制
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

当你创建了标签,你可以通过参考标签来访问一个项目。

代码语言:javascript
复制
print(myvar["y"])

作为系列的键/值对象

在创建一个系列时,你也可以使用一个键/值对象,比如字典。

代码语言:javascript
复制
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories)

print(myvar)

要想只选择字典中的某些项目,请使用index参数,并只指定你想包括在系列中的项目。

代码语言:javascript
复制
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories, index = ["day1", "day2"])

print(myvar)

Pandas DataFrames

什么是DataFrame?

Pandas DataFrame是一个二维的数据结构,就像一个二维数组,或者一个有行和列的表格。

代码语言:javascript
复制
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

#load data into a DataFrame object:
df = pd.DataFrame(data)

print(df)

calories duration 0 420 50 1 380 40 2 390 45

定位行

从上面的结果可以看出,DataFrame就像一个有行和列的表格。

Pandas使用loc属性来返回一个或多个指定的行。

代码语言:javascript
复制
#refer to the row index:
print(df.loc[0])

Note: 这个例子返回一个Pandas 系列

代码语言:javascript
复制
#use a list of indexes:
print(df.loc[[0, 1]])

Note: 当使用"[]"时,结果是一个Pandas DataFrame

命名的索引

通过index参数,你可以命名你自己的索引。

代码语言:javascript
复制
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df) 

calories duration day1 420 50 day2 380 40 day3 390 45

定位命名的索引

使用loc属性中指定的索引来返回指定的行。

代码语言:javascript
复制
#refer to the named index:
print(df.loc["day2"])

calories 380 duration 40 Name: 0, dtype: int64

将文件加载到数据框中

如果你的数据集存储在一个文件中,Pandas可以将它们加载到一个DataFrame中。

代码语言:javascript
复制
import pandas as pd

df = pd.read_csv('data.csv')

print(df) 
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生活处处有BUG 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • Pandas 介绍
    • 什么是 Pandas?
      • 为什么要用Pandas?
        • Pandas可以做什么呢?
        • Pandas前置工作
          • 安装Pandas
            • 导入 Pandas
              • Pandas as pd
                • 查看Pandas 版本
                • Pandas Series
                  • 什么是一个Series?
                    • 标签
                      • 创建标签
                        • 作为系列的键/值对象
                        • Pandas DataFrames
                          • 什么是DataFrame?
                            • 定位行
                              • 命名的索引
                                • 定位命名的索引
                                  • 将文件加载到数据框中
                                  领券
                                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档