前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pandas 入门2 :读取txt文件以及描述性分析

pandas 入门2 :读取txt文件以及描述性分析

作者头像
用户6021891
发布2020-02-10 18:11:55
2.7K0
发布2020-02-10 18:11:55
举报
文章被收录于专栏:万能的小草万能的小草

本文主要会涉及到:读取txt文件,导出txt文件,选取top/bottom记录,描述性分析以及数据分组排序;

创建数据

该数据集将包括1,000个婴儿名称和该年度记录的出生人数(1880年)。我们还将添加大量重复项,以便您不止一次看到相同的婴儿名称。你可以想到每个名字的多个条目只是全国各地的不同医院报告每个婴儿名字的出生人数。因此,如果两家医院报告了婴儿名称“Bob”,则该数据将具有名称Bob的两个值。我们将从创建随机的婴儿名称开始。

要使用上述五个名称随机列出1,000个婴儿名字,我们将执行以下操作:生成0到4之间的随机数,为此,我们将使用函数seed,randint,len,range和zip。seed(500) -- 建立随机种子

randint(low=0,high=len(names)) --产生一个位于0与names的长度之间的整数随机数

生成0到1000之间的随机数

使用zip函数合并名称出生数据集。

我们基本上完成了创建数据集。我们现在将使用pandas库将此数据集导出到csv文件中。

df将是一个 DataFrame对象。您可以将此对象视为以类似于sql表或excel电子表格的格式保存BabyDataSet的内容。让我们来看看 df里面的内容。

将数据框导出到文本文件。我们可以将文件命名为births1880.txt。函数to_csv将用于导出。除非另有说明,否则文件将保存在运行环境下的相同位置。

获取数据 要读取文本文件,我们将使用pandas函数read_csv

这就把我们带到了练习的第一个问题。该read_csv功能处理的第一条记录在文本文件中的头名。这显然是不正确的,因为文本文件没有为我们提供标题名称。为了纠正这个问题,我们将header参数传递给read_csv函数并将其设置为None(在python中表示null)

现在让我们看看dataframe的最后五个记录

如果我们想给列特定的名称,我们将不得不传递另一个名为name的参数。我们也可以省略header参数。

您可以将数字[0,1,2,3,4,...]视为Excel文件中的行号。在pandas中,这些是dataframe索引的一部分。您可以将索引视为sql表的主键,但允许索引具有重复项。[Names,Births]可以作为列标题,类似于Excel电子表格或sql数据库中的列标题。

准备数据 数据包括1880年的婴儿姓名和出生人数。我们已经知道有1,000条记录而且没有任何记录丢失(非空值)。可以验证“名称”列仍然只有五个唯一的名称。 可以使用数据帧的unique属性来查找“Names”列的所有唯一记录。

由于每个姓名名称都有多个值,因此需要汇总这些数据,因此只会出现一次宝贝名称。这意味着1000行需要变为5.我们可以通过使用groupby函数来完成此操作。

在这里,我们可以绘制出生者列并标记图表以向最终用户显示图表上的最高点。结合该表,最终用户清楚地了解到Bob是数据集中最受欢迎的婴儿名称

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小草学Python和SQL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档