前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python大数据之pandas快速入门(一)

Python大数据之pandas快速入门(一)

作者头像
Maynor
发布2023-09-27 08:12:24
2570
发布2023-09-27 08:12:24
举报
文章被收录于专栏:最新最全的大数据技术体系

pandas快速入门

学习目标

  • 能够知道 DataFrame 和 Series 数据结构
  • 能够加载 csv 和 tsv 数据集
  • 能够区分 DataFrame 的行列标签和行列位置编号
  • 能够获取 DataFrame 指定行列的数据

1. DataFrame 和 Series 简介

pandas是用于数据分析的开源Python库,可以实现数据加载,清洗,转换,统计处理,可视化等功能。

pandas最基本的两种数据结构:

1)DataFrame

  • 用来处理结构化数据(SQL数据表,Excel表格)
  • 可以简单理解为一张数据表(带有行标签和列标签)

2)Series

  • 用来处理单列数据,也可以以把DataFrame看作由Series对象组成的字典或集合
  • 可以简单理解为数据表的一行或一列

2. 加载数据集(csv和tsv)

2.1 csv和tsv文件格式简介

csv 和 tsv 文件都是存储一个二维表数据的文件类型。

注意:其中csv文件每一列的列元素之间以逗号进行分割,tsv文件每一行的列元素之间以\t进行分割。

2.2 加载数据集(tsv和csv)

1)首先打开jupyter notebook,进入自己准备编写代码目录下方,创建01-pandas快速入门.ipynb文件:

注意:提前将提供的 data 数据集目录放置到 01-pandas快速入门.ipynb 同级目录下,后续课程会加载 data 目录下的数据集。

2)导入 pandas 包

注意:pandas 并不是 Python 标准库,所以先导入pandas

代码语言:javascript
复制
# 在 ipynb 文件中导入 pandas
import pandas as pd

3)加载 csv 文件数据集

代码语言:javascript
复制
tips = pd.read_csv('./data/tips.csv')
tips

4)加载 tsv 文件数据集

代码语言:javascript
复制
# sep参数指定tsv文件的列元素分隔符为\t,默认sep参数是,
china = pd.read_csv('./data/china.tsv', sep='\t')
china
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • pandas快速入门
  • 学习目标
  • 1. DataFrame 和 Series 简介
  • 2. 加载数据集(csv和tsv)
    • 2.1 csv和tsv文件格式简介
      • 2.2 加载数据集(tsv和csv)
      相关产品与服务
      大数据
      全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档