前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python+Excel数据分析实战:军事体能考核成绩评定(一)项目概况

Python+Excel数据分析实战:军事体能考核成绩评定(一)项目概况

原创
作者头像
张国平
修改2021-02-11 18:12:39
2.1K0
修改2021-02-11 18:12:39
举报

一、技术背景

Excel(Microsoft office)是现在最常用的办公软件,主要涉及电子表格制作、数据处理、报表输出展示以及更高端的还有金融建模等;我们知道,在需要批处理多个Excel工作表以及工作簿的时候,需要用到一个自动化的利器:VBA。

如果处理相对简单以及数据量不大,建议使用VBA,如果考虑产品版本控制,数据量过大,数据统计和数据分析这些问题,以及考虑到学习的性价比和技术的价值最大化,学习一门编程语言,是非常有意义的。

那么有哪些编程语言也可以操作Excel呢?

(一)Go语言 : Excelize

Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库,基于 ECMA-376,ISO/IEC 29500 国际标准。可以使用它来读取、写入由 Microsoft Excel 2007 及以上版本创建的电子表格文档。支持 XLSX / XLSM / XLTM 等多种文档格式,高度兼容带有样式、图片(表)、透视表、切片器等复杂组件的文档,并提供流式读写 API,用于处理包含大规模数据的工作簿。

Excelize是国人编写的基于Go语言的Excel库,中文文档相对来说更为齐全,同时Go语言是编译型语言,编译后只有1个运行文件,可以方便的拷贝到其他电脑使用,同时不用安装额外的运行时,Go语言还有一个优势就是,速度真的非常快。

缺点:Go语言本身的错误处理真的是太迷了,可以看到每次对象赋值都要声明err,然后判断err != nil;同时在数据结构上,Go语言在对二维表(行列)操作时,也会有一点绕。

结论:Excelize可以说是国内最好的第三方Excel操作库,虽然上手会有一点难度,但是在功能的丰富性和较好的运行性能,还是值得一试的。

(二)Python : Pandas

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算),用于数据挖掘和数据分析。 Pandas中有DataFrame和Series两个数据类型,就好像Excel的工作表和数据列(转置后也可以看作:数据行),这就和Excel天生契合。

缺点:Pandas在数据处理上是非常方便的,但在文档外操作,如批量修改工作簿名称,就需要引入os库;同时如果已有Excel文档是带格式(颜色填充、字体设置、单元格合并等),写入Excel的时候就会破坏掉原来的格式。同时,Python作为脚本语言,如果到其他电脑运行,需要额外安装运行环境。

结论:如果纯粹的处理大批量数据(十万级以上),pandas自带各类聚合函数,让你处理起来得心应手;同时Pandas可以结合matplotlib等第三方绘图库,可以方便的可视化数据,如果你的数据本身可以离开Excel,如数据是从数据库导入Excel,那么也可以直接使用Pandas导入数据库数据,然后在Pandas上进行分析处理;Pandas底层使用numpy,在矩阵运算中具有非常高的性能。

(三)Python : Openpyxl

openpyxl是一个用于读取/写入Excel2007及以上版本(即xlsx格式)文件的Python库,不论是Excel内的特殊格式,还是单元格处理,都提供了相应的函数,与Excelize近乎相当。

缺点:Openpyxl不像pandas那样,底层使用numpy,所以在运行速度上,其实要比Excelize和pandas要慢(但是还是要比VBA要快一点);同时也是因为Python作为脚本语言,如果要放到其他电脑运行,需要安装相应的运行环境。

结论:相对来说,Openpyxl与VBA的应用场景重合度会更高一点,处理的思路都是比较相近的;Python在语法上,比VBA要丰富和方便的多,如果需要切换,学习曲线会比较平滑。

(四)Python : Xlwings

xlwings也是Python操作Excel的第三方库,很大程度上就是补全Pandas的缺点,可以在方便的处理文档本身,如修改工作表名称,将Pandas的数据处理结果调用到Excel原来的文件等。

缺点:在功能上,如文档格式化等相较Excelize和Openpyxl来说,还是有不少功能没有实现。

结论:xlwings更多的是可以作为Pandas的扩展,学习曲线和Openpyxl也比较相似。

其他

其他的还有C#的EPPlus/NPOI,Java的POI,easyExcel;JavaScript的exceljs等,也是不错的Excel操作库,但学习曲线更为陡峭,应用场景也更为复杂。如果有一天,厌倦了VBA,但是又不想使用Go和Python,也是可以去尝试一下的。

本项目实战中,我选择了Python的Openpyxl模块,有一个免费的B站学习资料推荐给大家,我就是学完这个教程后,开发了这个项目。讲解得细致易懂,还可以作为自己的代码参考,感谢UP主路过嘅蒙面超V

(基础+巩固)小白零基础开始用Python处理Excel数据

二、项目任务

军事体能考核成绩评定是什么玩意呢?

每个人的体能测试有单杠、仰卧起坐、30米x2蛇形跑、3000米跑四个项目,外加体型是否合格(BMI身体质量指数或者PBF体脂百分比),每项原始测试数据,通过不同项目各自规定的标准转换成100分制的分数,最终汇总得出个人的评定成绩,而且能够批量计算。

考虑到大家日常工作中,最常用的就是用Excel登统计原始成绩,所以本项目采用Python+Excel的设计,直接对Excel登统计的所有原始成绩进行处理,得到换算结果,并汇总个人成绩评定。

Excel登统计的原始成绩如下图:

输入原始数据举例
输入原始数据举例

计算结果如下图:

计算结果举例
计算结果举例

三、项目难点

分性别:“男、女”,不同性别的评分标准不同,甚至考核项目不同;

分年龄:“24岁以下、25~27等”,不同年龄段,评分标准不同;

分类别:“三类、二类、一类”,不同类别,评分标准不同;

分海拔:“2000米以下,2001~2100等”,不同海拔,评分标准不同;

评分标准不规律,不连续,是离散型的设置,查询数据有难度。

以最复杂的高原男子3000米标准为例,海拔2001~2100米为一个标准,不同年龄段标准不同,24岁以下,11分42秒为100分,12分07秒为95分,12分22秒为90分,分数都是相差5分,但时间间隔却是不同的25秒和15秒,不规律。而2101~2200米的标准又有变化,因为海拔2101~3000米时,每增加100米,标准递增8秒。但是原始成绩却是时间段内连续的,比如11分43秒,11分44秒等。

高原男子3000米标准
高原男子3000米标准

其它的考核项目标准相对简单一点,在后面的文章中具体分析。

四、项目环境

Win7 64位深度操作系统,正式优化版202003:

Microsoft Office专业增强版2016,还没激活:

Python开发工具为PyCharm 2020.1.3社区版本:

PyCharm的项目解释器为Python3.8,安装openpyxl、pyinstaller等包:

项目解释器设置
项目解释器设置

后面的文章中,将一步步详细介绍整个开发过程,直至项目完成。目前项目已经完成,在试用当中,敬请期待!

系统运行演示
系统运行演示

原创不易,有偿下载,请多支持:

军事体能考核成绩评定系统下载

军事体能考核成绩评定系统全套Python源码下载

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、技术背景
    • (一)Go语言 : Excelize
      • (二)Python : Pandas
        • (三)Python : Openpyxl
          • (四)Python : Xlwings
            • 其他
            • 二、项目任务
            • 三、项目难点
            • 四、项目环境
            相关产品与服务
            批量计算
            批量计算(BatchCompute,Batch)是为有大数据计算业务的企业、科研单位等提供高性价比且易用的计算服务。批量计算 Batch 可以根据用户提供的批处理规模,智能地管理作业和调动其所需的最佳资源。有了 Batch 的帮助,您可以将精力集中在如何分析和处理数据结果上。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档