本文以 iris 数据集为例,精选几个用 Python 进行数据分析的功能。
iris 是鸢尾花数据集,包含 150 行数据,分为 3 类:山鸢尾(Setosa)、杂色鸢尾(Versicolour)、维吉尼亚鸢尾(Virginica),每类 50 行数据,每行数据包含 4 个属性:花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),可通过这 4 个属性来预测鸢尾花属于 3 个种类中的哪一类。
在利用 Pandas 进行数据分析之前,往往需要先从 Excel 文件中读取数据,例如:
参数 sheet_name 解析:
字符串代表工作表名。
整数代表工作表的位置,0 表示第一个工作表,默认值是 0。
列表用于选择多个工作表,如[0, 1, 'Sheet3']:获取第一个、第二个和名称为「Sheet3」的工作表组成的字典。
None 代表获取全部工作表。
虽然 Pandas 本身能实现 SQL 的大部分功能,但是我个人比较喜欢用直接写 SQL 语句的方式来查询想要的数据,例如:
领取专属 10元无门槛券
私享最新 技术干货