数据分析期末项目
Viability商业可行性 | 此项目提供全国大学排名信息,帮助高考生更好地选择心仪合适的大学;本项目的可视化图表主要来自pyechart与plotly,均为免费的开源库,降低数据分析的成本 |
---|---|
Feasibility技术可行性 | pyechart与plotly可以生成丰富且美观的可视化图表与交互图表,并且调用难度低 |
Desirability用户可欲性 | 此项目可以提供丰富的可视化图表与交互图表,让用户可以更直观地看到数据的呈现形态;并且操作简单,学习成本低,方便用户使用 |
import pandas as pd
# 读csv文件
df = pd.read_csv('C:/Users/喜东东/Desktop/daxue/中国大学综合排名2021.csv', encoding='gb2312')
df
输出:
## 查看数据类型
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 582 entries, 0 to 581
Data columns (total 17 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 排名 582 non-null int64
1 升/降 566 non-null float64
2 学校名称 582 non-null object
3 英文名称 582 non-null object
4 省市 582 non-null object
5 类型 582 non-null object
6 总分 582 non-null float64
7 办学层次 100 non-null float64
8 学科水平 100 non-null float64
9 办学资源 100 non-null float64
10 师资规模与结构 100 non-null float64
11 人才培养 100 non-null float64
12 科学研究 100 non-null float64
13 服务社会 100 non-null float64
14 学术人才 100 non-null float64
15 重大项目与成果 100 non-null float64
16 国际竞争力 100 non-null float64
dtypes: float64(12), int64(1), object(4)
memory usage: 77.4+ KB
## 将全部缺失的数据填充为0
df.fillna(0, inplace=True)
输入图片说明
#院校类型
类型名称 = list(df.类型.dropna().unique())
类型名称
输出:
['综合', '理工', '师范', '农业', '林业']
def i(the_type):
dfs = df.query("类型=='{}'".format(the_type))
df_summary = dfs.groupby("省市").agg({"学校名称":"count","总分":"mean"}).sort_values(by = "总分", ascending = False)
df_summary.columns=['学校名称','平均分']
return df_summary
i('理工')
输出:
这就是整个项目大致的数据思路和核心功能,还有其他一些分析过程,可视化图表和flask网页搭建可在ipynb文档查看,这里不作细节介绍,下面展示一些可视化图表和flask网页。
输入图片说明
项目获取: 搜索 微信小程序 项目资源下载